訂閱
糾錯(cuò)
加入自媒體

AI視頻何時(shí)才能跑出一個(gè)“Midjourney ”?

 

文|郝    鑫

編|劉雨琦

AI視頻一躍成為“明日之星”,大廠和創(chuàng)業(yè)公司們打得熱火朝天。

去年12月,Pika的出現(xiàn)仿佛點(diǎn)燃了AI視頻賽道的引線,一個(gè)月之內(nèi)冒出了近十家公司,谷歌、阿里、字節(jié)、騰訊競(jìng)相下場(chǎng),不斷將戰(zhàn)事推向了高潮。

“AI視頻的Midjourney V5時(shí)刻就要到了”,即將迎來(lái)成為生產(chǎn)力的關(guān)鍵時(shí)刻。

2022年~2023年,文生圖的技術(shù)以肉眼可見(jiàn)的速度迭代進(jìn)化。Midjourney平均3個(gè)月一個(gè)版本,一路從V1狂奔到了V6,實(shí)現(xiàn)了從“面目全非”到“細(xì)膩逼真”的里程碑式的巨變。文生圖技術(shù)以月為單位的進(jìn)化速度,像一把節(jié)奏緊湊的小錘,不停提醒所有AI視頻的公司們,留給他們成長(zhǎng)的時(shí)間,不多了。

(圖:網(wǎng)友制作的V1-V6的生成效果對(duì)比圖,來(lái)源X)

如今AI視頻的發(fā)展軌跡也正在慢慢向文生圖靠攏,“Midjourney V5”成為了一個(gè)關(guān)鍵性的臨界點(diǎn):一旦突破,用戶將大規(guī)模涌入,數(shù)據(jù)飛輪開(kāi)始轉(zhuǎn)動(dòng),效果日新月異,一步步推動(dòng)著文生視頻從“玩具”蛻變?yōu)?ldquo;生產(chǎn)力”。

從文字到圖片、視頻的發(fā)展一脈相承,從文生圖的進(jìn)化歷程中,也可以找尋到AI視頻的影子。

當(dāng)AI視頻成為生產(chǎn)力后,才是產(chǎn)業(yè)鏈齒輪開(kāi)始轉(zhuǎn)動(dòng)的開(kāi)端。只有能用起來(lái),才能誕生目標(biāo)用戶群體;只有能留存住用戶,產(chǎn)生持續(xù)性的付費(fèi),才能構(gòu)建起清晰的商業(yè)模式;也只有跑通了商業(yè)模式,池子里的企業(yè)才能存活下來(lái),用消費(fèi)端推動(dòng)供給端,才能盤(pán)活整個(gè)AI視頻產(chǎn)業(yè)。

“AI視頻行業(yè)的生產(chǎn)力”——這恰恰才是現(xiàn)在各路玩家爭(zhēng)奪的價(jià)值所在。

夢(mèng)工廠創(chuàng)始人Jeffrey Katzenberg在近期預(yù)測(cè),“生成式AI將使動(dòng)畫(huà)電影的成本,在未來(lái)3年內(nèi)降低90%,該技術(shù)將給媒體和娛樂(lè)行業(yè)帶來(lái)徹底的顛覆”。

“未來(lái)可能實(shí)現(xiàn)以每秒30幀的高分辨率實(shí)時(shí)生成內(nèi)容,并且到2030年,可能會(huì)實(shí)現(xiàn)整個(gè)視頻游戲的生成 ”,Midjourney首席執(zhí)行官DaVid Holz判斷道。

V5賽點(diǎn)已至,新一輪的排位賽正式打響,何時(shí)才能誕生下一個(gè)Midjourney?

AI視頻迎來(lái)“生產(chǎn)力”時(shí)刻

實(shí)際上,AI視頻幾乎與文生圖同一時(shí)期進(jìn)入到人們視野中。

2023年初,Midjourney帶火了文生圖,Runway則激起了“人人制作電影大片”的無(wú)限遐想。

彼時(shí),看到文生圖領(lǐng)域在效果上大放異彩的Runway創(chuàng)始人曾表示:“希望 Gen-1 能像 Stable Diffusion 在圖像上所做的那樣為視頻服務(wù)。我們已經(jīng)看到了圖像生成模型的爆發(fā),我相信2023年將會(huì)是視頻之年。”

但顯然這個(gè)論斷下得有點(diǎn)過(guò)早。2月,RunwayAI視頻編輯Gen-1發(fā)布,功能類似于AI版的PS,可通過(guò)文字輸入進(jìn)行視頻的風(fēng)格轉(zhuǎn)化和修改;3月,發(fā)布文生視頻模型Gen-2,支持文生視頻、文本+圖像生成視頻。

宣傳視頻很酷炫,但具體使用效果卻差強(qiáng)人意,出現(xiàn)了時(shí)長(zhǎng)短、生成畫(huà)面不穩(wěn)定、指令理解出錯(cuò)、沒(méi)有音頻、動(dòng)作不連貫和不合理等等種種問(wèn)題。

Runway打響AI視頻第一槍后,雖未停下腳步,但卻在視頻編輯工具的道路越走越遠(yuǎn),運(yùn)動(dòng)筆刷、文字轉(zhuǎn)語(yǔ)音、視頻合成等功能,只能算“錦上添花”。Gen-2遲遲沒(méi)有根本性的突破,也讓AI視頻沉寂了一段時(shí)間。

就在大家快要失去對(duì)AI視頻耐心的時(shí)候,去年12月,Pika、Genmo、Moonvalley、NeverEnds、谷歌VideoPoet、阿里Animate Anyone、字節(jié)Magic Animate,踏著希望之光來(lái)了。

在Pika的官方宣傳片中,僅需一句話,就生成了動(dòng)畫(huà)版的馬斯克,不但神形兼?zhèn),而且背景和?dòng)作都非常合理連貫,面部一致性也驚人得完美。

(圖:Pika 1.0宣傳視頻動(dòng)圖,源自X)

在其官方展示的第一個(gè)視頻中,生成效果幾乎可以達(dá)到迪士尼等動(dòng)畫(huà)電影公司的質(zhì)感。

(圖:Pika 1.0宣傳視頻動(dòng)圖,源自X)

據(jù)使用過(guò)Pika 1.0產(chǎn)品的用戶反映,Pika 1.0 支持3種方式生成視頻:文生視頻、圖生視頻、視頻轉(zhuǎn)視頻。3D和2D效果確實(shí)上了一個(gè)全新的臺(tái)階,逼真度、穩(wěn)定性、光影效果都可以吊打Gen-2。

“Pika 1.0和Gen-2仿佛不是一個(gè)時(shí)代的產(chǎn)品”,不少網(wǎng)友都在使用后給出了這樣的評(píng)價(jià)。

Pika們的爆火,要?dú)w根于背后基建技術(shù)的成熟。其中最重要的就是AnimateDiff。這是一種基于Stable Diffusion文生圖模型所搭建起來(lái)的動(dòng)畫(huà)框架,可讓生成的圖片直接動(dòng)起來(lái),字節(jié)、騰訊、阿里便是在這個(gè)框架的基礎(chǔ)上推出了自己的AI視頻模型。

當(dāng)然,除了AnimateDiff的廣泛應(yīng)用,也與大模型多模態(tài)的發(fā)展,息息相關(guān)。

Pika們的出現(xiàn)開(kāi)啟了AI視頻的新篇章,AI視頻即將迎來(lái)“Midjourney V5”時(shí)刻。

這里面有兩層重要的變化,首先體現(xiàn)在生成層面。

V5階段,可達(dá)到更好的生成效果,在幾秒的生成時(shí)間內(nèi)能夠達(dá)到動(dòng)作、表情、敘事邏輯的連貫性;更有效的控制方式,對(duì)輸入指令的理解、遵從,鏡頭、轉(zhuǎn)場(chǎng) 、風(fēng)格轉(zhuǎn)化的控制都有了新的提升;更低的資源消耗,能夠以更短的時(shí)間、更少的算力調(diào)用,生成更高分辨率和優(yōu)質(zhì)的視頻,幾秒的視頻也可以達(dá)到幾十秒的效果。

更重要的體現(xiàn)在生產(chǎn)力的突破上。

以Midjourney為例,在V5階段,成為了UI設(shè)計(jì)師的設(shè)計(jì)工具,游戲原畫(huà)師的助手,跨境電商的商品展示、廣告營(yíng)銷的素材庫(kù)。同樣在這個(gè)階段,AI視頻也將有可能生成廣告、短視頻、電影、游戲,成為可以替代編導(dǎo)、導(dǎo)演、演員、設(shè)計(jì)師的生產(chǎn)力工具。

大模型、擴(kuò)散模型

兩條技術(shù)路徑的殊途同歸

AI視頻就像一部電影大片,賣不賣座、叫不叫好,取決于劇本和特效兩個(gè)重要元素。其中,劇本對(duì)應(yīng)著AI視頻生成過(guò)程中的“邏輯”,特效則對(duì)應(yīng)著“效果”。

為了實(shí)現(xiàn)“邏輯”和“效果”,在AI視頻行業(yè)中,分化出了兩條技術(shù)路徑擴(kuò)散模型和大模型。

(圖:光錐智能自制)

AIGC火了以后,擴(kuò)散模型長(zhǎng)期占據(jù)了圖像生成領(lǐng)域的主導(dǎo)位置,這背后要?dú)w功于Stability AI的不斷開(kāi)源,一方面讓更多的開(kāi)發(fā)者加入到了精進(jìn)模型的隊(duì)伍中,另一方面也一手將擴(kuò)散模型捧到了文生圖領(lǐng)域的“王位”上。

如今,AI視頻自然也被深深地打上了擴(kuò)散模型的烙印。大廠和初創(chuàng)公司或多或少都在采訪和論文中提到過(guò)擴(kuò)散模型的思路,Pika一批新崛起的公司取擴(kuò)散模型之長(zhǎng),打造自身的新模型;英偉達(dá)、阿里、字節(jié)、騰訊等公司在其基礎(chǔ)之上,進(jìn)一步提升模型能力。

在大模型技術(shù)路線上,經(jīng)歷過(guò)一次改變。大模型面世的初期,AI視頻的主要思路是用訓(xùn)練大模型的那套方法,靠大參數(shù)、大數(shù)據(jù)來(lái)從頭構(gòu)建一個(gè)文生視頻的模型,比如2022年就問(wèn)世的CogVideo就是這類代表。

但隨著大模型從單一文本邁向多模態(tài),視頻就像之前文字、圖像生成一樣,成為了從大模型根上長(zhǎng)出來(lái)的一項(xiàng)功能。從很早的時(shí)候,谷歌、微軟就在嘗試用大模型中Transformer的方法訓(xùn)練和增強(qiáng)現(xiàn)有的擴(kuò)散模型,但直到谷歌發(fā)布多模態(tài)大模型Gemini和VideoPoet視頻大模型后,大模型生視頻這條路才終于看到了曙光。

(谷歌VideoPoet視頻生成效果演示)

兩條技術(shù)路徑無(wú)好壞,但側(cè)重點(diǎn)不同,擴(kuò)散模型的核心在于“還原呈現(xiàn)”,重效果;而大模型核心在于“接收理解”,重邏輯。

正是基于這樣的特性,導(dǎo)致了走擴(kuò)散模型路線的AI視頻公司在細(xì)節(jié)刻畫(huà)和生成效果上優(yōu)勢(shì)更強(qiáng),走多模態(tài)大模型路線的公司在連貫性和生成合理性上更好。

Pika聯(lián)合創(chuàng)始人兼CTO Chenlin Meng認(rèn)為,可以同時(shí)發(fā)揮兩條路徑的優(yōu)勢(shì)來(lái)構(gòu)建視頻模型,比如GPT一類的大模型可以捕捉上下文,視頻中也需要上下文控制生成每一幀從而達(dá)到系統(tǒng)的一致性;同時(shí)每一幀仍然是一張圖片,可以用擴(kuò)散模型來(lái)提高生成效果。

Pika的觀點(diǎn)不是個(gè)例,行業(yè)中越來(lái)越呈現(xiàn)出這樣的趨勢(shì)。原因在于,雖然現(xiàn)階段,Pika、Runway每一次升級(jí)都在效果宣傳上搏足了眼球,但要落地到廣告、電影、營(yíng)銷等實(shí)際場(chǎng)景中,還有很大的距離。

英偉達(dá)高級(jí)研究科學(xué)家兼人工智能代理負(fù)責(zé)人,Jim Fan認(rèn)為,目前所生成的視頻只能被稱作“無(wú)意識(shí)的、局部的像素移動(dòng)”,缺乏可以一以貫之的時(shí)間、空間、行為邏輯來(lái)控制生成過(guò)程。

有一個(gè)例子可以很好地理解當(dāng)前AI視頻發(fā)展現(xiàn)狀。在X上,一個(gè)名叫Ben Nash的網(wǎng)友,做了一個(gè)測(cè)試,用同樣的英文提示詞“威爾·史密斯吃意大利面”來(lái)測(cè)試Runway、Pika的視頻生成效果。結(jié)果發(fā)現(xiàn),在兩個(gè)視頻中,雖然大致可以呈現(xiàn)出想要呈現(xiàn)的效果,但卻出現(xiàn)了“意大利面倒流”、“面被直接吸入嘴里”的滑稽場(chǎng)面。

Runway生成效果

Pika生成效果

Jim Fan表示:“到2024年我們將看到具有高分辨率和長(zhǎng)時(shí)間連貫性的視頻生成。但這將需要更多的‘思考’,即系統(tǒng)2的推理和長(zhǎng)期規(guī)劃(對(duì)應(yīng)System 1負(fù)責(zé)無(wú)意識(shí)的感覺(jué)運(yùn)動(dòng)控制)”。

近期Runway也在官網(wǎng)宣布了一項(xiàng)新的長(zhǎng)期研究項(xiàng)目“通用世界模型”(General Wold Models),其解釋原因稱:“我們相信人工智能的下一個(gè)重大進(jìn)步將來(lái)自于理解視覺(jué)世界及其動(dòng)態(tài)的系統(tǒng)。”

邏輯、思考、推理,或許將成為,2024年AI視頻的關(guān)鍵詞,兩條技術(shù)路線的融合也將成為常態(tài)。

生產(chǎn)力“解救”商業(yè)化

而一旦成為生產(chǎn)力,眼前AI視頻面臨的商業(yè)化困境,便迎刃而解。

生產(chǎn)力工具有兩個(gè)方向,向上走的專業(yè)化路線,和向下包容的大眾路線。但現(xiàn)階段,AI視頻行業(yè)多數(shù)還是以視頻剪輯工具的形態(tài)向用戶開(kāi)放使用。

“工具即產(chǎn)品”在文生圖和AI視頻賽道十分普遍,大部分公司選擇方法就是,最開(kāi)始先在Discord上小范圍開(kāi)放測(cè)試,到正式開(kāi)放使用,再到上線網(wǎng)站。

“工具”意味著專業(yè)性高、門檻高、操作復(fù)雜、上手困難,這就與易上手、操作便捷、體驗(yàn)性高的“產(chǎn)品”拉開(kāi)了差距。

舉一個(gè)很典型的例子,你需要花費(fèi)時(shí)間、金錢成本在PR軟件上了解每個(gè)工具的功能是什么以及怎么使用這些工具,以達(dá)到比較好的視頻制作效果;但你打開(kāi)抖音發(fā)布視頻只需三步,點(diǎn)擊加號(hào)-拍攝視頻-發(fā)布,下至幼兒園的孩子,上至60多歲的中老年人,都能覆蓋,這就是工具與產(chǎn)品最明顯的差異。

生產(chǎn)力未突破的前夜,工具即產(chǎn)品或許還將存在一段時(shí)間,但下一步擺在AI視頻公司面前的問(wèn)題很明確:是要堅(jiān)持走專業(yè)工具路線,還是要把門檻打下來(lái),做下一個(gè)AI視頻版的“抖音”?

在這個(gè)問(wèn)題上,Pika已經(jīng)率先做出了選擇,其創(chuàng)始人郭文景在采訪時(shí)表示:“我們開(kāi)發(fā)的并不是電影制作工具,而是為日常消費(fèi)者打造的產(chǎn)品——我們雖然有創(chuàng)造力,但并不是專業(yè)人士。”

落實(shí)到商業(yè)化上,郭文景稱Pika最終可能會(huì)推出分層訂閱模式,讓普通的付費(fèi)用戶也能享用更多的功能,計(jì)劃通過(guò)這種方式,讓Pika與其他競(jìng)品分出區(qū)別。

生產(chǎn)力能力欠缺的AI視頻工具也無(wú)法長(zhǎng)期留住用戶,不斷地產(chǎn)生付費(fèi),從而形成健康的商業(yè)模式。現(xiàn)在的現(xiàn)狀是,用戶出于獵奇,或免費(fèi)嘗鮮,或抱著試一試的心態(tài)訂閱一個(gè)月,到期過(guò)后,該視頻工具就被拋之腦后。

這對(duì)創(chuàng)業(yè)公司的打擊是巨大的,沒(méi)有持續(xù)性的收入,不能自造血,就得依賴融資,哪天融資斷了,公司也就維持不下去了。放眼到整個(gè)AI視頻行業(yè)來(lái)看,如果作為身在其中的個(gè)體都生存不下去,又談何行業(yè)未來(lái)前景。

如果一個(gè)行業(yè)只有單一的工具,沒(méi)有更多的落地場(chǎng)景,也無(wú)法形成完整的生態(tài)閉環(huán)。就像現(xiàn)在,用戶在AI視頻工具上淺淺地停留一下,然后把大把的流量引向了社交平臺(tái)。

(圖:源自X)

比如,馬斯克跳舞、蒙娜麗莎跑步等大量搞怪視頻,一度席卷了TikTok;使用Runway、Pika等視頻工具生成的視頻,通過(guò)用戶在X、TikTok、油管的分享一炮走紅,獲得了巨大的流量,有人甚至已經(jīng)靠這種方式完成了流量變現(xiàn),而作為工具的提供方,卻只能淪為社交平臺(tái)的“嫁衣”。

打通工具和場(chǎng)景的壁壘,作為參考案例,國(guó)內(nèi)抖音已經(jīng)開(kāi)始在嘗試。

剪映的相關(guān)AI功能一上線就和抖音實(shí)現(xiàn)了聯(lián)動(dòng),并引發(fā)了一波抖音擴(kuò)圖大賞,“讓你意想不到的AI擴(kuò)圖”一話題挑戰(zhàn),達(dá)到了2億多的播放量,甄嬛打籃球、星黛露秒變星黛驢、皮草美女化身狼人,AI是驚喜還是驚嚇,引發(fā)了大量的討論。

一旦成為了生產(chǎn)力,整個(gè)產(chǎn)業(yè)鏈條的消費(fèi)端將開(kāi)始出現(xiàn)購(gòu)買力,消費(fèi)端的需求推著供給端進(jìn)化,至此,AI視頻才算徹底“活了”。

       原文標(biāo)題 : AI視頻何時(shí)才能跑出一個(gè)“Midjourney ”?

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯(cuò)
x
*文字標(biāo)題:
*糾錯(cuò)內(nèi)容:
聯(lián)系郵箱:
*驗(yàn) 證 碼:

粵公網(wǎng)安備 44030502002758號(hào)