訂閱
糾錯(cuò)
加入自媒體

AI視頻模型大混戰(zhàn),誰(shuí)是你的 No.1?

自從Sora發(fā)布以來(lái),AI視頻模型的“魔盒”被徹底打開。今年上半年,AI視頻模型遍地開花,Viggle、Genmo、即夢(mèng)、Dream Machine、可靈輪番炸場(chǎng)。

這么多的AI視頻模型,在讓人眼花繚亂的同時(shí),也帶來(lái)了一個(gè)疑問(wèn):誰(shuí)才是AI視頻模型的No.1?

烏鴉君也非常好奇各款產(chǎn)品表現(xiàn)優(yōu)劣。剛好上周三Runaway宣布Gen-3 Alpha向所有用戶開放測(cè)試,借著這個(gè)契機(jī),烏鴉君就把市面上開放的AI視頻模型都拉過(guò)來(lái)測(cè)一測(cè)。

圖片

參與此次測(cè)試的選手有7位,涵蓋了AI視頻領(lǐng)域的國(guó)內(nèi)外名將、新星,其中國(guó)外的包括Gen-3 Alpha、Dream Machine、Genmo、Pika 1.0,國(guó)內(nèi)AI視頻的代表則是愛(ài)詩(shī)科技的PixVerse、快手的可靈和字節(jié)跳動(dòng)的即夢(mèng)。

結(jié)合測(cè)試結(jié)果和個(gè)人體感,烏鴉君得到以下三個(gè)結(jié)論:

1.可靈的綜合體驗(yàn)最好,信息準(zhǔn)確度高、視頻時(shí)長(zhǎng)和質(zhì)量穩(wěn)定性上都有著不錯(cuò)的表現(xiàn),偶有瑕疵。

2.即夢(mèng)、PixVerse、Gen-3 Alpha和Dream Machine四家普遍在人物一致性和物理邏輯上會(huì)有問(wèn)題,繼續(xù)迭代一下,未來(lái)可期。

3. Genmo和Pika1.0則受限于發(fā)布時(shí)間較早,在語(yǔ)義理解能力、畫面平滑度、運(yùn)動(dòng)一致性等方面明顯落后于其他競(jìng)品,足見(jiàn)AI視頻迭代速度之快。

/ 01 / 三組Prompt,6個(gè)測(cè)評(píng)維度

測(cè)評(píng)會(huì)使用同一個(gè)Prompt,對(duì)不同AI視頻模型生成的結(jié)果進(jìn)行評(píng)判?紤]到AI視頻模型的表現(xiàn)可能會(huì)有波動(dòng),烏鴉君給出以下三組文生視頻提示詞,綜合評(píng)判表現(xiàn)效果。

考題1:我用《愛(ài)樂(lè)之城》的經(jīng)典畫面為基準(zhǔn),設(shè)定一個(gè)Prompt:Under the night sky, a girl in the yellow skirt are dancing with a man.(在夜空下,一位穿著黃色裙子的女人在和一個(gè)男人跳舞。)

考點(diǎn):對(duì)Prompt中提到的“夜空”“黃色裙子”“跳舞”等元素進(jìn)行生成,描繪出雙人跳舞的畫面,對(duì)人物動(dòng)作的協(xié)調(diào)性有一定要求。

考題2:我用Sora公布的一條視頻提示詞:Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes. (在熙熙攘攘的東京,白雪皚皚。鏡頭跟隨幾個(gè)人穿過(guò)城市街道,他們正享受美麗的下雪天,并在附近的攤位購(gòu)物,絢麗的櫻花伴隨著雪花隨風(fēng)飄揚(yáng)。)

考點(diǎn):描繪鏡頭、人物和街道商販的動(dòng)態(tài),并保持著雪花和櫻花一同飄落的效果。

考題3:我改寫了一條Sora公布的電影預(yù)告片風(fēng)格提示詞:A movie trailer featuring the adventures of the 20 year old space man wearing a transparent fish tank, blue sky, desert, cinematic style, shot on 35mm film, vivid colors. (影片講述了20歲太空人的冒險(xiǎn)經(jīng)歷,他戴著透明的魚缸,背后是藍(lán)天、沙漠,電影風(fēng)格,35毫米膠片拍攝,色彩鮮艷。)

考點(diǎn):消化電影預(yù)告片的風(fēng)格,細(xì)膩描畫人物,還原藍(lán)天、沙漠等場(chǎng)景,也考驗(yàn)AI對(duì)于科幻故事的想象力。

測(cè)試方法

評(píng)判的維度包括六個(gè)層面,分別是語(yǔ)義理解、圖像質(zhì)量、物理邏輯、一致性、風(fēng)格創(chuàng)意、易用性。每個(gè)層面根據(jù)視頻表現(xiàn)來(lái)評(píng)分,總分6分。

1、【語(yǔ)義理解】視頻結(jié)果和Prompt的描述是否一致,一致得1分。

2、【圖像質(zhì)量】圖像質(zhì)量的考量包括清晰度、分辨率、色彩準(zhǔn)確性和動(dòng)態(tài)范圍,表現(xiàn)較佳得1分。

3、【物理邏輯】視頻內(nèi)容符合基本的物理常識(shí),得1分。

4、【一致性】保持物體和場(chǎng)景的一致性和連續(xù)性,得1分。

5、【風(fēng)格創(chuàng)意】畫面有風(fēng)格或創(chuàng)意,得1分。

6、【易用性】產(chǎn)品體驗(yàn)友好,得1分。

以下評(píng)測(cè)基于我個(gè)人主觀判斷,結(jié)果僅供參考,有不同看法歡迎討論。

/ 02 / 測(cè)評(píng)結(jié)果和簡(jiǎn)單分析

1、Gen-3 Alpha,綜合得分:4分

和上一代Gen-2相比,Gen-3 Alpha面對(duì)復(fù)雜指令的敏感度更高,能夠處理更復(fù)雜的場(chǎng)景。

從視頻畫面來(lái)看,Gen-3 Alpha整體控制得很好,具備很高的保真度,能夠生成逼真的人類角色和動(dòng)態(tài)場(chǎng)景。

畫面準(zhǔn)確展示了雙人舞動(dòng)的動(dòng)態(tài)、東京街頭紛飛的雪景,質(zhì)感很接近影視效果,在畫面紋理、鏡頭視角控制等方面的表現(xiàn)也很突出。

在風(fēng)格和創(chuàng)意上,Gen-3 Alpha明顯超越其他AI視頻,風(fēng)格堪稱大片級(jí)。

值得注意的是,Gen-3 Alpha在物理邏輯上存在瑕疵,比如,第1題中的人物在跳舞時(shí)手部動(dòng)作相對(duì)失真;同時(shí),女人在跳舞轉(zhuǎn)身后,腦袋上出現(xiàn)了男人的臉,bug明顯。

易用性方面, Gen-3 Alpha可以進(jìn)行細(xì)節(jié)控制,支持多種視頻生成和控制工具,F(xiàn)在Runaway已將Gen-3 Alpha開放給所有C端用戶,月費(fèi)會(huì)員15美元,每月只能生成約60秒的視頻,相當(dāng)于4s視頻就要消耗1美元。

2、 Dream Machine,綜合得分:4分

Dream Machine是Luma AI在6月中旬發(fā)布的產(chǎn)品,目前只能生成5秒的視頻,且生成的過(guò)程很漫長(zhǎng),但這不妨礙網(wǎng)友排隊(duì)用這個(gè)免費(fèi)AI來(lái)二創(chuàng)梗圖的熱情。

從視頻畫面上看,除了第一個(gè)視頻沒(méi)有展示夜空外,Dream Machine的表現(xiàn)基本與Prompt的描述相符,勉強(qiáng)可以算合格,人物一致性也沒(méi)有問(wèn)題。

圖像質(zhì)量整體控制的不錯(cuò),Dream Machine在后兩個(gè)視頻也展示了其專業(yè)的拍攝角度,鏡頭模擬幾乎達(dá)到電影級(jí)水準(zhǔn)。

美中不足的是,Dream Machine在物理邏輯上表現(xiàn)很差。無(wú)論是第一個(gè)視頻里毫無(wú)美感的舞蹈,還是第三個(gè)視頻里怪異的走路姿勢(shì),都說(shuō)明Dream Machine當(dāng)下很難理解物理邏輯,甚至連簡(jiǎn)單動(dòng)作的動(dòng)態(tài)輸出都有問(wèn)題。

在使用便利性上,用戶只需前往官網(wǎng)點(diǎn)擊“Try Now”按鈕,按要求登錄谷歌賬號(hào),然后在提示欄中輸入文字或圖片,靜靜等待即可。如果用戶一時(shí)半會(huì)想不到提示詞,還可以在系統(tǒng)預(yù)先準(zhǔn)備的六條中進(jìn)行選擇,十分好操作。

3、 Genmo,綜合得分:2分

作為去年11月發(fā)布的一款免費(fèi)AI視頻工具,Genmo的表現(xiàn)就相對(duì)遜色許多。

先說(shuō)語(yǔ)義理解,就基本不合格。在第一個(gè)視頻里,畫面顯示的是夕陽(yáng)西下,日照金山,并不符合指令中“夜空下”的要求。而在第二個(gè)視頻里,Genmo也完全沒(méi)有呈現(xiàn)Prompt里的“白雪皚皚”和“下雪天”,反而把環(huán)境變成了粉色的櫻花。

在物理邏輯和一致性上,Genmo同樣表現(xiàn)不佳。這一點(diǎn)在其作答第1題時(shí)體現(xiàn)得很清晰,畫面開始女生的長(zhǎng)頭發(fā)出現(xiàn)在男生的頭上,跳舞過(guò)程中,雙方的手在運(yùn)動(dòng)過(guò)程中也出現(xiàn)了多次瞬移。

要說(shuō)優(yōu)點(diǎn),Genmo在圖像質(zhì)量上的表現(xiàn)勉強(qiáng)合格,在第1題中做了比較多的光影渲染。易用方面,Genmo也做到了保姆級(jí)別,提供了直觀清晰的界面,不僅可以調(diào)整視頻片段的持續(xù)長(zhǎng)度、平滑度、變化程度等,還可以模擬相機(jī)運(yùn)動(dòng),比如進(jìn)行畫面放大/縮小、順/逆時(shí)針旋轉(zhuǎn)、平移、傾斜等操作,簡(jiǎn)化了視頻生成過(guò)程。

4、 Pika1.0,綜合得分:1分

說(shuō)真的,烏鴉君對(duì)這款明星產(chǎn)品此次的表現(xiàn)非常失望。

首先,Pika很難理解復(fù)雜的指令。比如,Pika在第3題直接給我個(gè)大魚缸,甚至連“太空人”、“沙漠”等元素都不見(jiàn)了。同時(shí),現(xiàn)在Pika只能生成3秒的視頻,是參評(píng)工具生成的視頻中最短的。

在畫面質(zhì)量上,無(wú)論是東京雪景還是雙人舞蹈,紋理較差,Pika的畫面都簡(jiǎn)陋得像動(dòng)畫建模的初學(xué)作品。

另外,Pika在物理邏輯和一致性上也同樣存在問(wèn)題,例如第1題中的人物動(dòng)作模糊、肢體粘連,人物的臉部沒(méi)有細(xì)節(jié),甚至右側(cè)的男生在跳舞時(shí)就干脆一動(dòng)不動(dòng),像個(gè)木頭人。

Pika唯一的優(yōu)勢(shì)在于,創(chuàng)作相對(duì)方便,單次文生成視頻的過(guò)程大約消耗30s,算是比較快的。用戶可以選擇視頻尺寸和幀率,并對(duì)鏡頭的運(yùn)動(dòng)方向和物體的運(yùn)動(dòng)速度進(jìn)行控制。今年3月,Pika還上線了無(wú)縫生成音效的Sound Effects功能,提高了工具便捷性。

5、 PixVerse,綜合得分:4分

由字節(jié)前視覺(jué)技術(shù)負(fù)責(zé)人王長(zhǎng)虎創(chuàng)立的愛(ài)詩(shī)科技,在今年1月推出了PixVerse。到今年3月,PixVerse的月訪問(wèn)量超百萬(wàn)。PixVerse基本能夠準(zhǔn)確理解Prompt的意思,并給出相應(yīng)的畫面。

從視頻質(zhì)量上來(lái)看,PixVerse始終表現(xiàn)得很穩(wěn)定,畫面整體和諧,也不乏亮點(diǎn)。比如,作答第3題時(shí),PixVerse生成的視頻出現(xiàn)大多數(shù)AI視頻里沒(méi)有的運(yùn)動(dòng)鏡頭,而背景畫面依舊保持著較高的質(zhì)量。

另外,PixVerse也很擅長(zhǎng)對(duì)人物面部細(xì)節(jié)的刻畫,第3題的視頻中,太空人擁有“緊皺的眉頭”和“思索的神情”,看起來(lái)十分靈動(dòng)。

不足的地方在于,PixVerse幾乎沒(méi)有任何人物動(dòng)作的畫面。在第1題中,除了手部輕微的動(dòng)作外,根本看不到任何舞蹈的動(dòng)作,而且女人似乎也只有一只腿。而且,在第2題中,PixVerse生成視頻的行人走路動(dòng)作也相對(duì)模糊,說(shuō)明其在物理邏輯存在問(wèn)題。

易用性方面,PixVerse的“Upscale”功能,讓用戶不用花錢,就能提高視頻分辨率。用戶也可以瀏覽熱門作品,查看它們的詳細(xì)參數(shù)信息,包括關(guān)鍵詞、種子、畫面的縱橫比、運(yùn)動(dòng)幅度、風(fēng)格以及原始圖片,學(xué)習(xí)和模仿優(yōu)秀作品。

6、可靈,綜合得分:5分

快手推出的可靈大模型采用了與Sora相似的技術(shù)路線。從視頻畫面來(lái)看,可靈的表現(xiàn)非常穩(wěn)定,能準(zhǔn)確完成指令,整段30秒視頻沒(méi)有出現(xiàn)太大的偏差,只是遺漏了第2題中的“飄雪”指令。

可靈的畫面質(zhì)量超出了我的預(yù)期。它對(duì)樹木、星空、雪景等自然景觀模擬得很到位,還在第2題中努力做出人臉等細(xì)節(jié),看得出可靈是想做出接近實(shí)拍的效果,它的一致性也沒(méi)什么問(wèn)題。在風(fēng)格和創(chuàng)意方面,與其他AI中較夸張的動(dòng)漫、電影藝術(shù)風(fēng)格相比,可靈的實(shí)拍風(fēng)格算是獨(dú)樹一幟。

但是,可靈在理解物理世界方面仍然存在一些小瑕疵。例如,第1題中的女孩在跳舞抬腿動(dòng)作時(shí),出現(xiàn)了模糊和瞬移,不過(guò)相比其他模型,可靈在物理理解上的表現(xiàn)得算是優(yōu)秀了。

在易用性方面,可靈的優(yōu)勢(shì)比較明顯,它現(xiàn)在有了更加清晰的高畫質(zhì)版,以及首尾幀控制、鏡頭控制等新功能,且創(chuàng)作者單次生成的文生視頻時(shí)長(zhǎng)增加至10秒,官方還上線了加快生成模式,提供給會(huì)員使用。

7、即夢(mèng),綜合得分:4分

即夢(mèng)是抖音前CEO張楠親自掛帥的剪映所推出的產(chǎn)品,它在時(shí)長(zhǎng)上比別的AI要高一截,單次可以生成12秒視頻,是這次參評(píng)工具中最長(zhǎng)的。

即夢(mèng)基本能準(zhǔn)確識(shí)別Prompt中的關(guān)鍵詞;畫面質(zhì)量,比較細(xì)膩。

例如,第2題中的東京街景描畫得非常優(yōu)美。在風(fēng)格創(chuàng)意方面,即夢(mèng)也能做到讓人眼前一亮的效果,比如在第3題中,即夢(mèng)對(duì)透明魚缸頭盔、宇航服的描畫很有科幻色彩。

與很多AI視頻模型一樣,對(duì)物理世界的理解是即夢(mèng)的短板,完成運(yùn)動(dòng)幅度較大的視頻時(shí),即夢(mèng)會(huì)出現(xiàn)較為明顯的崩壞,例如作答第1題時(shí)的表現(xiàn)。從一致性上來(lái)看,即夢(mèng)也存在問(wèn)題,比如第2題的東京街頭,不少人在轉(zhuǎn)身之后都出現(xiàn)了另一張臉。

在易用性方面,即夢(mèng)視頻支持各種變焦、搖鏡等運(yùn)鏡控制,還有更多的尺寸選擇,操作上也很簡(jiǎn)單,非常適合愛(ài)玩視頻的抖友們。

/ 03 / 最終的測(cè)試結(jié)果:

圖片

高分組:可靈

中分組:即夢(mèng)、PixVerse、Gen-3 Alpha、Dream Machine

低分組:Genmo、Pika1.0

圖片

       原文標(biāo)題 : AI視頻模型大混戰(zhàn),誰(shuí)是你的 No.1?

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯(cuò)
x
*文字標(biāo)題:
*糾錯(cuò)內(nèi)容:
聯(lián)系郵箱:
*驗(yàn) 證 碼:

粵公網(wǎng)安備 44030502002758號(hào)