吃奶摸下激烈床震视频大尺度 ,国产日产欧产美韩系列影片

【年度專(zhuān)題】2023“含AI量”大幅提升，數(shù)字人能否再獲新生

2024-02-19 13:38

文/VR陀螺豌豆

2023年畫(huà)上句點(diǎn)，回顧這一年，AIGC工具繼續(xù)保持爆發(fā)式增長(zhǎng)的態(tài)勢(shì)，數(shù)字人依舊堅(jiān)守在各自的崗位，而點(diǎn)燃AI熱度的OpenAI將曾經(jīng)大眾認(rèn)為“只可遠(yuǎn)觀(guān)不可褻玩”的AI一步帶到普通用戶(hù)面前。

2023年底，AI企業(yè)更是掏出了年度“殺手锏”，11月舉辦的OpenAI首屆開(kāi)發(fā)者大會(huì)官宣多模態(tài)技術(shù)能力大幅提升，不僅是GPT-4V，短時(shí)間內(nèi)其他多模態(tài)AI大模型陸續(xù)取得新的突破：Pika Labs的AI視頻生成工具Pika 1.0，以及谷歌Gemini都向人們展示了多模態(tài)大模型的想象力和潛力，似乎能進(jìn)一步升級(jí)數(shù)字人的“大腦”功能……

潮起潮落，借著AI的東風(fēng)如今數(shù)字人賽道又小火了一把，更多數(shù)字人以新面貌出現(xiàn)，逐步向智能化邁進(jìn)。在AI的賦能下，數(shù)字人甚至可以演戲、進(jìn)行實(shí)時(shí)互動(dòng)直播、吟詩(shī)作對(duì)、寫(xiě)詞作曲，例如異人之下數(shù)字人演員厘里、少年李白數(shù)字人、AI創(chuàng)作型歌手Anna Indiana、AI VTuber（Neuro-sama）、AI孫燕姿等等。

圖源：網(wǎng)絡(luò)

有了AI支持的數(shù)字人已成功造勢(shì)，但行業(yè)生態(tài)算不上健康，玩著流量游戲、把握信息差密碼在風(fēng)口上割韭菜的大有人在，假設(shè)讓數(shù)字人獲得高階AI能力，能否就此獲得全方位升級(jí)，從根本上改善數(shù)字人場(chǎng)景應(yīng)用難扎根的問(wèn)題？AI已經(jīng)是大趨勢(shì)，數(shù)字人的未來(lái)如何落到實(shí)處？

2023年數(shù)字人：流量難賺，步伐減慢

通過(guò)塑造IP打造品牌影響力是數(shù)字人占領(lǐng)市場(chǎng)高地的主要戰(zhàn)略。

2023年12月，國(guó)內(nèi)數(shù)字人IP庫(kù)“元力趨勢(shì)網(wǎng)”上線(xiàn)，據(jù)悉該平臺(tái)目前已有超過(guò)300個(gè)數(shù)字IP入駐，包括頭部IP星瞳、洛天依、蘇小妹、厘里、柳夜熙、夏語(yǔ)冰、央視網(wǎng)小C等。

圖源：元力趨勢(shì)網(wǎng)

國(guó)內(nèi)數(shù)字人的數(shù)量和外形質(zhì)量都有了大幅度提升，也吸引不少傳統(tǒng)企業(yè)嘗試在該領(lǐng)域?qū)崿F(xiàn)數(shù)字化升級(jí)。數(shù)字人的可就業(yè)場(chǎng)景豐富，無(wú)論是在電商直播間勤懇的打工數(shù)字人，還是文旅娛樂(lè)的數(shù)字代言人，又或是企業(yè)宣傳對(duì)外的嶄新形象，數(shù)字人似乎在To B領(lǐng)域更加吃香。

在金融領(lǐng)域，中國(guó)銀行業(yè)協(xié)會(huì)在第七屆中國(guó)數(shù)字銀行論壇發(fā)布《遠(yuǎn)程銀行虛擬數(shù)字人應(yīng)用報(bào)告》，報(bào)告指出，2023年已有11家客服中心與遠(yuǎn)程銀行實(shí)現(xiàn)了虛擬數(shù)字人應(yīng)用落地，5家銀行正在籌建中。銀行虛擬數(shù)字人已廣泛應(yīng)用于對(duì)客服務(wù)、風(fēng)險(xiǎn)控制、新媒體運(yùn)營(yíng)、內(nèi)部賦能等領(lǐng)域。

圖源：央視網(wǎng)

在文旅文博方面，有《關(guān)于推進(jìn)實(shí)施國(guó)家文化數(shù)字化戰(zhàn)略的意見(jiàn)》的政策性支持，在發(fā)展數(shù)字化文化消費(fèi)的大方向下，中國(guó)國(guó)家博物館的“艾雯雯”、中國(guó)文物交流中心的“文夭夭”、數(shù)字敦煌文化大使“伽瑤”和少年李白數(shù)字人等。數(shù)字人正以一種新的面貌向人們講解歷史、演繹經(jīng)典。

緊盯流量的背后是焦慮情緒的體現(xiàn)，而互聯(lián)網(wǎng)流量經(jīng)濟(jì)進(jìn)入存量時(shí)代，平臺(tái)競(jìng)爭(zhēng)加劇，紅利增長(zhǎng)受限，以資金換流量的營(yíng)銷(xiāo)方式難度加大。2023年對(duì)數(shù)字人行業(yè)來(lái)說(shuō)，是充滿(mǎn)挑戰(zhàn)的一年。

就連當(dāng)年的現(xiàn)象級(jí)數(shù)字人柳夜熙，也似乎從美妝博主轉(zhuǎn)型走上了內(nèi)容路線(xiàn)，熒幕前的柳夜熙淡化其美妝屬性，通過(guò)拍攝短劇強(qiáng)化自身IP。除了柳夜熙以外，早一批吃到紅利的數(shù)字人們?nèi)栽诶^續(xù)營(yíng)業(yè)，例如AYAYI、星瞳、希加加等。圖新鮮的熱度一旦過(guò)去，這些數(shù)字人后續(xù)的流量起伏變得更加不穩(wěn)定。

以直播為例，曾經(jīng)一度火爆的電商直播數(shù)字人，如今熱度也有所下降，目前仍有品牌方繼續(xù)采用智能主播/AI主播來(lái)為直播間撐場(chǎng)。陀螺君注意到，某寶上更多的智能主播已經(jīng)在向高仿真的外形靠近。

圖源：淘寶直播間

比起之前幾乎一邊倒的3D卡通數(shù)字人，現(xiàn)在電商直播間更多的是近似真人的數(shù)字人主播，一進(jìn)直播間若不是注意到右側(cè)標(biāo)記為“虛擬主播”等字樣，下意識(shí)會(huì)以為是真人主播，但她們依然無(wú)法完成更高難度的互動(dòng)：這些數(shù)字人主播由AI生成，有更自然的語(yǔ)調(diào)但口型不能實(shí)時(shí)同步，肢體動(dòng)作不多，大多數(shù)情況下是主播單方面解說(shuō)產(chǎn)品，互動(dòng)較少，整體流量不高。

直播是數(shù)字人應(yīng)用最廣的舞臺(tái)之一，而不同直播平臺(tái)對(duì)數(shù)字人主播也有不同的態(tài)度，大部分電商平臺(tái)持歡迎態(tài)度，支持商家采用可24小時(shí)直播的數(shù)字人將“人貨場(chǎng)”重新鏈接。另外知識(shí)分享類(lèi)視頻中使用數(shù)字人的情況也逐漸變多。

在短視頻平臺(tái)則有所限制，例如抖音此前發(fā)布的《抖音關(guān)于人工智能生成內(nèi)容的平臺(tái)規(guī)范暨行業(yè)倡議》指出，數(shù)字人直播時(shí)必須由真人驅(qū)動(dòng)進(jìn)行實(shí)時(shí)互動(dòng)，不允許完全由AI驅(qū)動(dòng)進(jìn)行互動(dòng)。AI數(shù)字人主播在抖音的活躍度有所下降。

數(shù)字人營(yíng)銷(xiāo)同樣看重結(jié)果、數(shù)據(jù)和流量。但支撐數(shù)字人“內(nèi)外兼修”的成本頗高，建模、AI、動(dòng)捕、渲染等，樣樣都是“支出大頭”。隨著前期制作、后期運(yùn)營(yíng)成本增加等因素影響，不少企業(yè)會(huì)選擇低成本的“通用型”數(shù)字人方案。最終到用戶(hù)面前，在不同平臺(tái)看到的是大同小異的量產(chǎn)型數(shù)字人，操著一口難以親近的“機(jī)械音”，用戶(hù)自然不買(mǎi)賬。

2023年VTuber的直播收入榜單（圖源：Playboard）

另外，海外的數(shù)字人直播同樣值得關(guān)注，其集中在VTuber這一領(lǐng)域，且主要依賴(lài)真人（中之人）驅(qū)動(dòng)。綜合來(lái)看VTuber播放數(shù)、粉絲數(shù)和營(yíng)收情況，企業(yè)勢(shì)事務(wù)所幾乎由hololive和彩虹社（包括日語(yǔ)系和英語(yǔ)系VTuber）各分天下，除了直播還能通過(guò)聯(lián)名代言、發(fā)布專(zhuān)輯、參加商演、舉辦活動(dòng)等方式獲得收入。據(jù)主播動(dòng)態(tài)數(shù)據(jù)網(wǎng)站Streams Charts的文章顯示，VTuber是直播行業(yè)中增長(zhǎng)最快的群體之一：

“2022年期間，所有相關(guān)平臺(tái)的VTuber直播觀(guān)看時(shí)長(zhǎng)達(dá)到9.79億小時(shí)。2023年，直播觀(guān)看人數(shù)大幅增長(zhǎng)，總觀(guān)看時(shí)長(zhǎng)超過(guò)11億小時(shí)，較去年增長(zhǎng)14.2%。盡管2023年活躍的直播頻道比上一年減少了9% ，但VTuber越來(lái)越受歡迎。相比實(shí)力強(qiáng)大的企業(yè)勢(shì)VTuber，個(gè)人勢(shì)VTuber通常不是最受歡迎的，但在所有VTuber直播頻道中有73.9%是獨(dú)立運(yùn)營(yíng)的。”

2023年VTuber分布統(tǒng)計(jì)（圖源：Streams Charts）

如今數(shù)字人產(chǎn)業(yè)進(jìn)入專(zhuān)注于技術(shù)沉淀的發(fā)展階段。和2022年相比，疫情帶來(lái)的影響逐漸淡去，人們的工作生活、娛樂(lè)活動(dòng)重回線(xiàn)下，相應(yīng)的對(duì)部分線(xiàn)上娛樂(lè)活動(dòng)需求下降，以數(shù)字人為主導(dǎo)的虛擬演出等會(huì)受到一定影響，盡管IP的影響力不會(huì)因此減少，但考慮到運(yùn)維成本，不少企業(yè)的數(shù)字人To C業(yè)務(wù)范圍會(huì)有所調(diào)整，減緩在該領(lǐng)域的布局進(jìn)程。相關(guān)閱讀：《【年度專(zhuān)題】一年增長(zhǎng)近20萬(wàn)家相關(guān)企業(yè)，數(shù)字人從量變到“應(yīng)”變》 3D建模、動(dòng)捕……數(shù)字人底層技術(shù)快速發(fā)展

全球虛擬數(shù)字人產(chǎn)業(yè)圖譜 2024版（圖源：陀螺研究院）

數(shù)字人正因?yàn)楸毁x予了人形的數(shù)字軀體，人們才對(duì)他們有了更多在身份、情感、倫理，甚至是數(shù)字生命問(wèn)題的探討，盡管其存在本身并不屬于現(xiàn)實(shí)世界，但所需要的底層技術(shù)又與現(xiàn)實(shí)世界緊密相連。

數(shù)字人并不是我們認(rèn)知中的“紙片人”，通俗來(lái)講，數(shù)字人是會(huì)動(dòng)的（包括面部表情變化、軀體運(yùn)動(dòng)等），就算是2D形象的數(shù)字人也可通過(guò)Live2D技術(shù)為其注入生命力。細(xì)節(jié)見(jiàn)真章，3D建模、動(dòng)捕等技術(shù)的快速發(fā)展令數(shù)字人的高保真程度更上一層樓。

（一）外在形象更生動(dòng)逼真

在數(shù)字人的“創(chuàng)建”這一環(huán)，要塑造具象而立體的人物形象，大多數(shù)要經(jīng)過(guò)建模這一步驟，掃描建模、照片建模、編輯、渲染等多道生成工序而成。

火山語(yǔ)音數(shù)字員工小燦（圖源：火山語(yǔ)音）

前文提到的Live2D被認(rèn)為是介于2D與3D之間的技術(shù)，也使用了大量的3D渲染算法，這項(xiàng)技術(shù)已頗為成熟，在插畫(huà)、動(dòng)漫、游戲、VTuber虛擬主播等領(lǐng)域均有廣泛應(yīng)用。Live2D Cubism Editor升級(jí)后的5.0版本添加了AI輔助功能，可實(shí)現(xiàn)半自動(dòng)生成面部動(dòng)作，還支持根據(jù)音頻實(shí)時(shí)生成同步的口形動(dòng)作，讓2D形象的數(shù)字人得到了活力。

圖源：Live2D

3D數(shù)字人在外形上的打磨更需費(fèi)時(shí)費(fèi)力。一是可使用傳統(tǒng)軟件手動(dòng)建模，利用Maya、C4D、Blender等，但對(duì)專(zhuān)業(yè)知識(shí)和經(jīng)驗(yàn)有著非常高的要求。二是可通過(guò)非接觸式掃描設(shè)備進(jìn)行掃描并創(chuàng)建貼近真人形象的3D模型。

圖源：《Metahuman》

三是可利用相機(jī)陣列進(jìn)行掃描建模，例如優(yōu)鏈時(shí)代的云陣相機(jī)方案，通過(guò)架設(shè)近百臺(tái)相機(jī)，對(duì)場(chǎng)地中間的人進(jìn)行全方位拍攝，最終合成3D人體模型。四是可利用市面上已有的數(shù)字人編輯器平臺(tái)完成創(chuàng)作，例如來(lái)畫(huà)科技、相芯科技等企業(yè)的數(shù)字人生成平臺(tái)，在給定的基礎(chǔ)3D模型上調(diào)整，目前大多數(shù)數(shù)字人生成平臺(tái)都有接入AI功能。

圖源：陀螺研究院

多數(shù)情況下，靜態(tài)的攝影測(cè)量方法在人臉建模方面的處理不夠細(xì)致，看上去人臉像是平面一般，且五官細(xì)節(jié)不夠突出，拍照時(shí)的光線(xiàn)等因素都會(huì)影響建模質(zhì)量，相比之下，具備高視覺(jué)保真的多維動(dòng)態(tài)光場(chǎng)重建技術(shù)有望成為未來(lái)趨勢(shì)。

多維動(dòng)態(tài)光場(chǎng)建模技術(shù)優(yōu)勢(shì)是可以忽略材質(zhì)，直接掃描三維世界的光線(xiàn)，在重建人物模型時(shí)，還可以一次獲得人物的動(dòng)態(tài)數(shù)據(jù)，以及不同視角下呈現(xiàn)不同光影效果的高質(zhì)量3D人物模型，但因多維動(dòng)態(tài)光場(chǎng)建模技術(shù)成本較高、難以運(yùn)輸、組裝難度高且尚未出現(xiàn)商業(yè)化的通用解決方案等原因，尚未在國(guó)內(nèi)得到普及。從技術(shù)發(fā)展路徑上看會(huì)是未來(lái)的重點(diǎn)發(fā)展方向。相關(guān)閱讀：《陀螺研究院發(fā)布<2023全球虛擬數(shù)字人產(chǎn)業(yè)圖譜>》

（二）動(dòng)作捕捉更自然流暢

要讓數(shù)字人動(dòng)起來(lái)，一是通過(guò)真人動(dòng)作捕捉將運(yùn)動(dòng)數(shù)據(jù)傳輸?shù)綌?shù)字人身上，主要應(yīng)用于對(duì)實(shí)時(shí)互動(dòng)有要求的影視、游戲、直播領(lǐng)域。二是通過(guò)算法驅(qū)動(dòng)，事先采集真人運(yùn)動(dòng)、語(yǔ)音等數(shù)據(jù)，基于深度學(xué)習(xí)技術(shù)訓(xùn)練人物模型，形成一套新的驅(qū)動(dòng)模型與驅(qū)動(dòng)方式。

兩者最大的差別是，前者交互自然，對(duì)真人（中之人）的身體素質(zhì)有一定要求，而后者不需要真人持續(xù)在線(xiàn)，但交互略顯僵硬需要在訓(xùn)練過(guò)程中反復(fù)調(diào)整。

圖源：《Rec Room》

早期由于技術(shù)的限制，為了遵循虛擬形象設(shè)計(jì)在VR中的可行性，多數(shù)VR社交游戲的虛擬形象無(wú)法得到全身追蹤支持，而目前已有包括《Rec Room》《VRChat》在內(nèi)的VR游戲，從官方層面為玩家提供個(gè)性化展示的機(jī)會(huì)，《Horizon Worlds》也已宣布支持虛擬化身腿部顯示。相關(guān)閱讀：《讓虛擬化身的“肢體語(yǔ)言”更真實(shí)？全身動(dòng)捕的IK優(yōu)化是關(guān)鍵》

目前動(dòng)捕技術(shù)已足夠成熟，然而不同的場(chǎng)景對(duì)動(dòng)捕的精度要求不一，專(zhuān)業(yè)的動(dòng)捕演員需要身著特定的動(dòng)捕服，在特定的場(chǎng)地里完成動(dòng)作捕捉。

圖源：Quitasueño Studio

使用專(zhuān)業(yè)設(shè)備的成本非常高，據(jù)悉市面上的一些專(zhuān)業(yè)動(dòng)捕品牌例如OptiTrack、Vicon和Xsens等解決方案大多在幾千美元到幾萬(wàn)美元不等。一套專(zhuān)業(yè)的動(dòng)捕方案包含設(shè)備本身（傳感器、服裝、基站、電腦等），以及定制的軟件，再加上維護(hù)成本，對(duì)普通人來(lái)說(shuō)難以承受。國(guó)內(nèi)也有不少可提供專(zhuān)業(yè)動(dòng)捕解決方案的企業(yè)，例如諾亦騰、度量科技、聚力維度、青瞳視覺(jué)等。

一些面向消費(fèi)端的便攜式動(dòng)捕方案（圖源：VR陀螺整理）

高性?xún)r(jià)比的便攜式動(dòng)捕方案越來(lái)越多，slimeVR、Tundra Tracker、AprilTag、Amethyst、HaritoraX、Rebocap等等，為想在《VRChat》體驗(yàn)全身動(dòng)捕的玩家以及有直播動(dòng)捕需求的用戶(hù)提供便利，無(wú)論預(yù)算限制、動(dòng)捕效果需求如何，用戶(hù)都能選到適合自己的產(chǎn)品。

其中VIVE自定位追蹤器和索尼的mocopi均在2024年面向國(guó)內(nèi)發(fā)售，VR陀螺也曾評(píng)測(cè)過(guò)mocopi的產(chǎn)品。相關(guān)閱讀：《評(píng)測(cè)丨一鍵成為虛擬偶像？索尼mocopi會(huì)是新的動(dòng)捕黑科技嗎？》

陀螺君還注意到，從玩家社區(qū)的開(kāi)源動(dòng)捕方案到HTC、索尼這些大廠(chǎng)提供的動(dòng)捕方案，最后的落腳點(diǎn)都會(huì)集中在《VRChat》這一游戲場(chǎng)景上。SteamDB的數(shù)據(jù)顯示《VRChat》的日活玩家（24小時(shí)高峰）大概有2.5萬(wàn)人，而MMO STARS預(yù)估《VRChat》的總玩家數(shù)量可能有820萬(wàn)人左右。

隨著玩家的虛擬角色的可動(dòng)性和靈活性上升，《VRChat》還與不少企業(yè)和團(tuán)隊(duì)展開(kāi)合作推出了各種活動(dòng)，包括，虛擬展會(huì)、虛擬服裝、虛擬演出、品牌方的官方虛擬商店等等，由HIKKY舉辦的“Virtual Market 2023”夏季展會(huì)，總參觀(guān)人數(shù)超過(guò)120萬(wàn)人次�！禫RChat》的背后，或許還有更多數(shù)字人與虛擬空間、虛擬資產(chǎn)相關(guān)的商業(yè)潛力有待發(fā)掘。 AI數(shù)字人：投石問(wèn)路，走向多模態(tài)

如今AI的能力越發(fā)強(qiáng)大，提供“一站式”功能，包攬數(shù)字人的創(chuàng)建到驅(qū)動(dòng)，甚至是內(nèi)容生成板塊。但在這個(gè)領(lǐng)域，其實(shí)也能看到不少有趣的應(yīng)用場(chǎng)景。相關(guān)閱讀：《AIGC重塑數(shù)字人：落地、變革、永生》

AI創(chuàng)作型歌手Anna Indiana于2023年底出現(xiàn)，最早發(fā)布的視頻中，其生成的歌詞講述Anna坐在咖啡館里，想到小鎮(zhèn)上充滿(mǎn)了破碎的夢(mèng)想和絕望的尖叫，表示想拆掉這座小鎮(zhèn)。歌詞傳達(dá)了她對(duì)小鎮(zhèn)的失望和痛苦。不料歌沒(méi)有引起網(wǎng)友的共鳴，而是飽受批評(píng)。而她展示的內(nèi)容包括Key、節(jié)奏、和弦、旋律、歌詞，以及形象和歌聲全由AI生成，依舊令人感到新奇。

另外，Twitch和YouTube平臺(tái)相加擁有近70萬(wàn)粉絲的AI VTuber“Neuro-sama”展示了她的快速反應(yīng)和學(xué)習(xí)能力和超強(qiáng)的模仿能力。

“Neuro-sama”關(guān)于電車(chē)難題的回答（圖源：b站@單推的DD烤肉）

Wiki頁(yè)面介紹道：Neuro-sama由程序員暨人工智能開(kāi)發(fā)人員Jack Vedal（在直播間會(huì)以烏龜?shù)男蜗蟪霈F(xiàn)）創(chuàng)造，他通過(guò)結(jié)合AI玩游戲和計(jì)算機(jī)生成的虛擬人物之間的交互來(lái)構(gòu)建AI Vtuber。Neuro-sama能夠即時(shí)與觀(guān)眾交流，該系統(tǒng)使用一個(gè)大語(yǔ)言模型（LLM），其對(duì)話(huà)內(nèi)容由AI生成。

Neuro-sama能夠模仿人類(lèi)的語(yǔ)調(diào)和對(duì)話(huà)內(nèi)容，盡管還存在不少缺陷，Neuro-sama也會(huì)作出負(fù)面回答，但開(kāi)發(fā)者將其區(qū)分為另一個(gè)“evil”人格，合理化了AI的負(fù)面應(yīng)答。但若是作為聊天助手，她一改常見(jiàn)的冷靜理性的AI語(yǔ)調(diào)，證明了一個(gè)經(jīng)過(guò)多次調(diào)試，親切“擬人”的AI也能夠給人們帶來(lái)切實(shí)情感共鳴。

生成式AI的流行已經(jīng)帶火了AI數(shù)字人，其以迅雷不及掩耳之勢(shì)，襲卷業(yè)務(wù)助手、直播帶貨、教育培訓(xùn)、虛擬陪伴等各個(gè)領(lǐng)域。另外也能滿(mǎn)足商業(yè)用途，通過(guò)AI一鍵生成內(nèi)容，實(shí)現(xiàn)企業(yè)業(yè)務(wù)上的降本增效。相關(guān)閱讀：《30天攬金5千萬(wàn)，AI數(shù)字人能否成為普通人的「財(cái)富密碼」？》

此前小紅書(shū)博主“johnhuu 教英語(yǔ)”發(fā)布的一條視頻引起海內(nèi)外的社交媒體紛紛刷屏轉(zhuǎn)發(fā)。視頻中將泰勒·斯威夫特、特朗普、艾瑪·沃特森和“憨豆先生”的演員羅溫·艾金森的原聲視頻通過(guò)AI技術(shù)翻譯內(nèi)容并轉(zhuǎn)化成與本人聲音相似的普通話(huà)，并同步修改口型生成新的視頻。

AI大模型在各行各業(yè)得以應(yīng)用，如今更是將戰(zhàn)場(chǎng)延伸到了教育領(lǐng)域中的口語(yǔ)學(xué)習(xí)板塊。這些AI數(shù)字人形象各異，全天候在線(xiàn)，打開(kāi)聊天窗口就能開(kāi)始交流�；趯�(duì)話(huà)式AI和LLM大語(yǔ)言模型的能力再結(jié)合語(yǔ)音識(shí)別和生動(dòng)的虛擬圖像不僅能提供口語(yǔ)表達(dá)反饋，糾正語(yǔ)法錯(cuò)誤，不同類(lèi)型的AI數(shù)字人還能在不同領(lǐng)域帶來(lái)有趣的討論。

圖源：VR陀螺

AI數(shù)字人視頻生成工具將生活記錄、課堂記錄、演講片段等視頻轉(zhuǎn)化成各種語(yǔ)言的版本，實(shí)現(xiàn)無(wú)語(yǔ)言障礙的流暢觀(guān)看，已經(jīng)能夠滿(mǎn)足人們?cè)谌粘Ｉ钪械氖褂�。相關(guān)閱讀：《以假亂真？AI數(shù)字人+外語(yǔ)學(xué)習(xí)功能讓用戶(hù)“相見(jiàn)恨晚”》

大語(yǔ)言模型是AI的一塊重要拼圖，AI生文之后，這條賽道又迅速邁向新的一站：AI文生圖、AI文生視頻等等……目前這些AI應(yīng)用的場(chǎng)景難以大范圍落地，難點(diǎn)在于AI對(duì)算力的高要求、多技術(shù)整合，以及對(duì)訓(xùn)練數(shù)據(jù)的把控，但核心還是會(huì)回到成本問(wèn)題，現(xiàn)階段AI數(shù)字人仍集中在某個(gè)單一垂直領(lǐng)域的應(yīng)用，若能進(jìn)一步優(yōu)化成本，相信未來(lái)通過(guò)與數(shù)字人對(duì)話(huà)交流，由AI賦能它們生成文字、圖片、視頻也不無(wú)可能，交互能力將得到重塑。 結(jié)語(yǔ)

2024年，數(shù)字人相關(guān)行業(yè)是否能再見(jiàn)曙光？

麥肯錫表示，像OpenAI的ChatGPT這樣的深度學(xué)習(xí)算法在經(jīng)過(guò)企業(yè)數(shù)據(jù)的進(jìn)一步訓(xùn)練后，每年可在63個(gè)業(yè)務(wù)用例中創(chuàng)造相當(dāng)于2.6萬(wàn)億至4.4萬(wàn)億美元的價(jià)值。AI技術(shù)的快速迭代意味著市場(chǎng)競(jìng)爭(zhēng)之激烈，似乎催促著各行各業(yè)的數(shù)字人盡快靠上AI。

將不可見(jiàn)的AI與可見(jiàn)的數(shù)字人相結(jié)合，有望逐步打通產(chǎn)業(yè)鏈的“任督二脈”，但其應(yīng)用最終都會(huì)回歸數(shù)字人與人類(lèi)的交流，也離不開(kāi)最底層的技術(shù)支撐，AI令單一的數(shù)字人有了“千人千面”的特性，形象、交互能力、行為動(dòng)作都在向人類(lèi)靠近。

圖源：英偉達(dá)

英偉達(dá)率先發(fā)力，于CES 2024上正式推出NVIDIA ACE（Avatar Cloud Engine）微服務(wù)技術(shù)，可讓游戲、工具和中間件開(kāi)發(fā)者將先進(jìn)的生成式AI模型，加入到游戲和應(yīng)用的虛擬數(shù)字人物里。據(jù)悉，現(xiàn)已開(kāi)始采用ACE的開(kāi)發(fā)商有Convai，Charisma.AI，Inworld，米哈游，網(wǎng)易游戲，掌趣科技，騰訊游戲，育碧和UneeQ。相關(guān)閱讀：《英特爾、迪士尼都關(guān)注的Inworld AI，正為虛擬NPC帶來(lái)生命力》

當(dāng)下數(shù)字經(jīng)濟(jì)高速發(fā)展，AI技術(shù)進(jìn)一步助推企業(yè)數(shù)字化轉(zhuǎn)型，而擁有AIGC能力的數(shù)字人正朝著多模態(tài)的方向前進(jìn)，其強(qiáng)大的學(xué)習(xí)能力、連接龐大的知識(shí)庫(kù)以及高效的信息提煉能力，將改變?nèi)藱C(jī)交互模式。數(shù)字人相關(guān)技術(shù)穩(wěn)步發(fā)展，待成本問(wèn)題以及應(yīng)用落地問(wèn)題得到解決，AI數(shù)字人將迎來(lái)爆發(fā)期。而在爆發(fā)前夜，企業(yè)唯有把握先機(jī)，方能占據(jù)優(yōu)勢(shì)。

原文標(biāo)題 : 【年度專(zhuān)題】2023“含AI量”大幅提升，數(shù)字人能否再獲新生