訂閱
糾錯
加入自媒體

AI,開啟數(shù)字人3.0時代

2022-07-11 14:54
鞭牛士
關(guān)注

作者|顧硯

2021年開始元宇宙概念火爆,數(shù)字人市場也持續(xù)升溫。

去年10月,虛擬美妝達人柳葉熙在抖音上傳了自己的第一條作品,一夜間漲粉百萬;年末,出道9年的洛天依登上春晚舞臺,與月亮姐姐、王源共同表演少兒歌舞《聽我說》;今年5月,虛擬偶像Vox宣布入駐B站,首日直播營收就破百萬……

根據(jù)《虛擬數(shù)字人深度產(chǎn)業(yè)報告》,預(yù)計到2030年我國虛擬人整體市場規(guī)模將達到2700億元。

虛擬數(shù)字人最早可追溯到2007年,彼時,以語音合成程序為基礎(chǔ)開發(fā)的音源庫“初音未來”,成為首個現(xiàn)象級虛擬偶像。

此后一段時間,虛擬數(shù)字人也多以二次元的形象出現(xiàn)。2D“紙片人”,是1.0階段的數(shù)字人代表。

2016年6月,人工智能絆愛“喚醒自我”,她是YouTube上一個虛擬主播。如今,虛擬主播熱潮已經(jīng)席卷全球。

據(jù)艾媒咨詢發(fā)布的《2021中國虛擬偶像行業(yè)發(fā)展及網(wǎng)民調(diào)查研究報告》,2020年中國虛擬偶像核心產(chǎn)業(yè)規(guī)模為34.6億元,預(yù)計2021年將達到62.2億元。

“皮套人”,是2.0階段的數(shù)字人代表,他們依賴模型、動捕,也依賴“中之人”的表演,為數(shù)字人賦予靈魂。

去年6月,由小冰公司推出的華智冰亮相并進入清華大學(xué)計算機系知識工程實驗室。作為AI學(xué)生,華智冰的旁白、背景音樂、面容、詩詞以及繪畫作品,均基于AI技術(shù)生成。

今年6月7日,全網(wǎng)熱議高考作文《本手、妙手、俗手》難度之際,百度AI數(shù)字人度曉曉40秒創(chuàng)作了40多篇文章,平均1秒生成1篇,隨機抽取其中一篇,被語文名師申怡評為48分(滿分60分),其分數(shù)已趕超約75%高考考生。

由AI驅(qū)動,數(shù)字人進化到3.0時代。

AI數(shù)字人能做什么?

在商湯科技發(fā)布的《AI數(shù)字人:數(shù)字經(jīng)濟發(fā)展新動能》白皮書中將數(shù)字人按照進化程度分為5類(L1-L5),并指出“L4 的AI數(shù)字人可以從大量的人類對話、面部表情和肢體語言中學(xué)習(xí)。它可以通過自然的面部表情和肢體動作來實現(xiàn)智能的類人交互”。

這意味著,AI數(shù)字人將不依賴“中之人”,完全由AI驅(qū)動。它不僅是具有數(shù)字化外形的虛擬人物,擁有人的外觀、人的行為之外,還擁有人的思想,具有識別外界環(huán)境、并能與人交流互動。

換言之,AI數(shù)字人才是元宇宙中的“原住民”。

完成這一轉(zhuǎn)變的核心在于對“深度學(xué)習(xí)能力”的重視。

深度學(xué)習(xí)能力即機器學(xué)習(xí)的一種,需要用大量的數(shù)據(jù)“喂養(yǎng)”白紙一樣的機器人,直到他們能聽懂并回答客戶的問題。

這是一個需要數(shù)據(jù)、算法、算力結(jié)合,不斷訓(xùn)練、調(diào)整、打磨模型的長期過程,但一旦核心技術(shù)實現(xiàn)突破,AI數(shù)字人的優(yōu)勢和應(yīng)用領(lǐng)域?qū)⒏佣嘣?/p>

比如度曉曉,除了能創(chuàng)作高考作文,還能AI繪畫、創(chuàng)作歌曲,還曾作為工人日報特派“AI記者”,采訪五一勞模等等。而另一百度AI數(shù)字人希加加,她同樣會作畫、寫詩、作曲、說多國語言、還能實時直播。

除了能“像人一樣”學(xué)習(xí)、溝通、工作,AI數(shù)字人將擁有超強的創(chuàng)造力,顛覆現(xiàn)有的內(nèi)容生產(chǎn)模式。

AIGC,是指人工智能自動生成內(nèi)容,這是AI領(lǐng)域目前的熱門概念之一,它將顛覆現(xiàn)有的內(nèi)容生產(chǎn)模式。

基于這項技術(shù),度曉曉在挑戰(zhàn)高考語文作文時,可以做到平均1秒1篇,畫一幅畫,只需要幾十秒。與人類生產(chǎn)效率相比,這是指數(shù)級的提升。

而這一切,源于百度搜索引擎海量數(shù)據(jù)的先天優(yōu)勢、產(chǎn)業(yè)級深度學(xué)習(xí)平臺飛槳和產(chǎn)業(yè)級“知識增強”大模型文心。

百度自2019年開始便深耕預(yù)訓(xùn)練模型研發(fā),成功打造飛槳文心大模型家族。文心系列模型具備“知識增強”的核心特色,基于持續(xù)學(xué)習(xí)的語義理解框架,從大規(guī)模知識和海量數(shù)據(jù)中融合學(xué)習(xí)。

比如,數(shù)字人畫畫能力,使用的是文心大模型——跨模態(tài)圖文生成模型ERNIE-ViLG;而人對話能力,使用的是對話生成大模型——文心 PLATO,PLATO有接近真人水平的對話能力,對話效果已經(jīng)達到世界領(lǐng)先水平。

另一方面,憑借深度學(xué)習(xí)能力,處于較高發(fā)展水平的數(shù)字人可以快速從各種場景中獲取知識,成為特定領(lǐng)域的“專家”。

AI數(shù)字人可以深入B端領(lǐng)域,實現(xiàn)降本增效。比如科大訊飛推出智醫(yī)助理;商湯科技AI數(shù)字人出現(xiàn)在醫(yī)院場景中,為患者進行分診導(dǎo)診;百度和浦發(fā)銀行打造的“數(shù)字員工”小浦,每月為46萬人提供金融服務(wù)。

頭部互聯(lián)網(wǎng)企業(yè)早已加入構(gòu)建數(shù)字人技術(shù)的浪潮之下。目前,華為、百度、阿里、騰訊、字節(jié)跳動等,都已著手于數(shù)字人的開發(fā)應(yīng)用。

“數(shù)字人自由”

未來,AI數(shù)字人可以承擔更多的工作和責(zé)任,但目前來看,AI數(shù)字人的大規(guī)模落地依然面臨各種挑戰(zhàn)。

首先,AI深度學(xué)習(xí)是一場長期且價格高昂的訓(xùn)練。比如,一個簡單的模型調(diào)整,可能要增加百倍以上的計算資源。而谷歌子公司 DeepMind 訓(xùn)練AlphaGo下圍棋時,估計耗資3500萬美元。

另外,如何優(yōu)化算法來提升效率與穩(wěn)定性,如何提高機器學(xué)習(xí)與深度神經(jīng)網(wǎng)絡(luò)預(yù)測的準確度等,也是 AI 技術(shù)面臨的挑戰(zhàn)。而無法自主學(xué)習(xí)、無法互動的數(shù)字人,也就失去了AI的靈魂。

其次,AI數(shù)字人也會使用動作捕捉采集表情/動作數(shù)據(jù)、CG技術(shù)合成,這需要龐大的開發(fā)制作和設(shè)備運維成本。

36氪此前報道,一場全息虛擬演唱會的成本大概在 2000 萬上下。騰訊NExT Studios團隊也進一步印證該觀點,“一個超寫實虛擬數(shù)字人形象恐怕至少要投入100至200萬制作費用才能不至羞于見人,甚至即便投入了也未必能做出令人滿意的角色”。

另一方面,合格數(shù)字人的制作周期也非常長。數(shù)字人一分鐘視頻,可能需要2到3個月時間制作。

天風(fēng)證券研報也指出虛擬數(shù)字人行業(yè)生存及運營成本高昂的發(fā)展難題,報告認為,未來很長一段時間,降本增效將會是企業(yè)的重點。

隨著技術(shù)的推進,AI數(shù)字人也在不斷突破。

5年前,百度在AI開發(fā)者大會上喊出“All in AI”的口號;如今,百度已經(jīng)打造了一個“AI數(shù)字人家族”,度曉曉、希加加、文夭夭……這背后,正是百度智能云曦靈數(shù)字人平臺,通過全場景、平臺化的能力為企業(yè)和品牌提供數(shù)字人的制作和運營服務(wù)。

近日,度曉曉在《2022虛擬數(shù)字人商業(yè)價值潛力》榜單中排名第一;在第三方機構(gòu)發(fā)布的榜單中,百度因為語音、視覺等AI能力的積累,在數(shù)字人綜合實力方面排名第一。

在日前“2022百度世界大會”媒體預(yù)溝通會上,百度集團副總裁袁佛玉介紹:“隨著百度AI算法的突破,我們能讓數(shù)字人制作成本十倍、百倍地下降,還能讓數(shù)字人生產(chǎn)周期,從動輒幾個月,縮短到小時級別!

降低AI應(yīng)用門檻,驅(qū)動AI規(guī);涞貞(yīng)用,是百度文心大模型的核心價值。

今年4月,2021百度認知AI創(chuàng)意賽“AI創(chuàng)意派”決賽正式舉行,這是業(yè)內(nèi)首次將先進的AI大模型能力開放給公眾使用。

“只有門檻低到了所有人都可方便地用起來,才能真正大規(guī)模爆發(fā)出各種創(chuàng)意。”百度集團副總裁吳甜稱。

目前,文心大模型已大規(guī)模應(yīng)用于搜索、信息流、智能音箱等互聯(lián)網(wǎng)產(chǎn)品,并通過飛槳開源開放平臺、百度智能云賦能工業(yè)、能源、金融、通信、媒體、教育等各行各業(yè)。

現(xiàn)在,我們可以在多個場景看見百度AI數(shù)字人的身影:

在2022年的北京冬奧會上,百度AI手語主播根據(jù)真人主播的聲音和畫面,實時轉(zhuǎn)換為手語,24小時無休;今年5月文博虛擬宣推官“文夭夭”正式持證上崗,為各大博物館提供講解、導(dǎo)覽、直播等服務(wù);度曉曉不僅可以“陪聊”——接近真人水平的多輪流暢對話,并在對話中識別用戶的搜索、服務(wù)類需求。

早在2019年,李彥宏就預(yù)測,在旅游咨詢、醫(yī)療健康、移動通訊等領(lǐng)域,數(shù)字人都將大顯身手,“每個人都會有一個甚至多個專屬的數(shù)字人為你服務(wù),相信這個時代很快就會到來”。

近期IDC發(fā)布的報告顯示,中國AI數(shù)字人市場規(guī)模呈現(xiàn)高速增長趨勢,預(yù)計到2026年將達102.4億元人民幣。

而這一切都源于百度對AI領(lǐng)域壓強式、馬拉松式的研發(fā)投入,公開數(shù)據(jù)顯示,在研發(fā)投入方面,2021年百度核心研發(fā)費用221億元,占百度核心收入比例達23%,研發(fā)投入強度位列中國民營企業(yè)500強第一位。

巨頭涌入、熱錢涌動,堅持長期主義的企業(yè),將會在數(shù)字人3.0時代,迎來回報期。

此內(nèi)容為鞭牛士原創(chuàng),未經(jīng)授權(quán)不得轉(zhuǎn)載

       原文標題 : AI,開啟數(shù)字人3.0時代

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯
x
*文字標題:
*糾錯內(nèi)容:
聯(lián)系郵箱:
*驗 證 碼:

粵公網(wǎng)安備 44030502002758號