欧美精品乱码视频一二专区,国产91av视频在线,国产亚洲精品福利视频

詳解Sora，為什么是AGI的又一個(gè)里程碑時(shí)刻？

2024-02-19 08:50

光錐智能

關(guān)注

文｜郝鑫

編｜王一粟、劉雨琦

2024年伊始，OpenAI再向世界扔了一枚AI炸彈——視頻生成模型Sora。

一如一年前的ChatGPT，Sora被認(rèn)為是AGI（通用人工智能）的又一個(gè)里程碑時(shí)刻。

“Sora意味著AGI實(shí)現(xiàn)將從10年縮短到1年”，360董事長(zhǎng)周鴻祎作出預(yù)判。

但這個(gè)模型如此轟動(dòng)，并不只是因?yàn)锳I生成的視頻時(shí)間更長(zhǎng)、清晰度更高，而是OpenAI已經(jīng)超越過(guò)去所有AIGC的能力，生成了一個(gè)與真實(shí)物理世界相關(guān)的視頻內(nèi)容。

無(wú)厘頭的賽博朋克固然酷炫，但真實(shí)世界中的一切如何讓AI重現(xiàn)才更具意義。

為此，OpenAI提出了一個(gè)全新的概念——世界模擬器。

在OpenAI官方出具的技術(shù)報(bào)告中，對(duì)Sora的定位為“作為世界模擬器的視頻生成模型”，“我們的研究結(jié)果表明，擴(kuò)展視頻生成模型是構(gòu)建物理世界通用模擬器的一條可行之路。”

（圖源：OpenAI官網(wǎng)）

OpenAI認(rèn)為，Sora為能夠理解和模擬真實(shí)世界的模型奠定了基礎(chǔ)，這將是實(shí)現(xiàn)AGI的一個(gè)重要里程碑。憑借這一點(diǎn)，就徹底與AI視頻賽道的Runway、Pika等公司拉開(kāi)了一個(gè)段位。

從文字（ChatGPT）到圖片（DALL·E ）再到視頻（Sora），對(duì)OpenAI來(lái)說(shuō)，仿佛在搜集一張張的拼圖，試圖通過(guò)影像媒介形態(tài)徹底打破虛擬與現(xiàn)實(shí)的邊界，成為電影“頭號(hào)玩家”一般的存在。

如果說(shuō)蘋果Vision Pro是頭號(hào)玩家的硬件外顯，那么一個(gè)能自動(dòng)構(gòu)建仿真虛擬世界的AI系統(tǒng)，才是靈魂。

“語(yǔ)言模型近似人腦，視頻模型近似物理世界”，愛(ài)丁堡大學(xué)的博士生Yao Fu表示。

“OpenAI的野心大得超出了所有人的想象，但好像也只有它能做到”，多位AI創(chuàng)業(yè)者對(duì)光錐智能感嘆道。

Sora如何成為“世界模擬器”？

OpenAI新發(fā)布的Sora模型，一腳踹開(kāi)了2024年AI視頻賽道的大門，徹底與2023年以前的舊世界劃出了分界線。

在其一口氣釋出的48個(gè)演示視頻中，光錐智能發(fā)現(xiàn)過(guò)去AI視頻被詬病的問(wèn)題大部分得到了解決：更清晰的生成畫面、更逼真的生成效果、更準(zhǔn)確的理解能力、更順暢的邏輯理解能力、更穩(wěn)定和一致性的生成結(jié)果等等。

但這一切也不過(guò)是OpenAI顯現(xiàn)出的冰山一角，因?yàn)镺penAI從一開(kāi)始瞄準(zhǔn)的就不是視頻，而是所有存在的影像。

影像是一個(gè)更大的概念，視頻是其中的一個(gè)子集，例如大街上滾動(dòng)的大屏、游戲世界的虛擬場(chǎng)景等等。OpenAI要做的事情，是要以視頻為切入口，涵蓋一切影像，模擬、理解現(xiàn)實(shí)世界，也就是其強(qiáng)調(diào)的“世界模擬器”概念。

正如AI電影《山海奇境》制作人、星賢文化陳坤告訴光錐智能，“OpenAI在向我們展示它在視頻方面的能力，但真正的目的在于獲取人們的反饋數(shù)據(jù)，去探索、預(yù)測(cè)人們想要生成的視頻是什么樣的。就像大模型訓(xùn)練一樣，一旦工具開(kāi)放，就相當(dāng)于全世界的人在為其打工，通過(guò)不斷標(biāo)記、錄入，讓其世界模型變得越來(lái)越聰明。”

于是我們看到，AI視頻成為了理解物理世界的第一個(gè)階段，主要突出其作為“視頻生成模型”的屬性；發(fā)展到第二個(gè)階段，才能作為“世界模擬器”提供價(jià)值。

抓住Sora“視頻生成”屬性的核心在于——找不同，即Sora和Runway、Pika的差異性體現(xiàn)在哪里？這個(gè)問(wèn)題至關(guān)重要，因?yàn)槟撤N程度上解釋了Sora能夠碾壓的原因。

首先的一點(diǎn)，OpenAI沿用了訓(xùn)練大語(yǔ)言模型的思路，用大規(guī)模的視覺(jué)數(shù)據(jù)來(lái)訓(xùn)練一個(gè)具備通用能力的生成模型。

這與文生視頻領(lǐng)域“專人專用”的邏輯完全不同。去年，Runway也有過(guò)類似的計(jì)劃，被其稱之為“通用世界模型”，思路大致相似，但沒(méi)有后續(xù)，這回Sora倒是先一步完成了Runway的夢(mèng)想。

據(jù)紐約大學(xué)助理教授謝賽寧推算，Sora參數(shù)量約為30億，雖然對(duì)比GPT模型顯得微不足道，但是這個(gè)數(shù)量級(jí)已經(jīng)遠(yuǎn)超了Runway、Pika等一些公司，可以稱得上是降維打擊。

萬(wàn)興科技AI創(chuàng)新中心總經(jīng)理齊鏜泉，評(píng)價(jià)Sora的成功再次驗(yàn)證了“大力出奇跡”的可能性，“Sora依然遵循OpenAI的Scaling Law，靠大力出奇跡，大量數(shù)據(jù)，大模型和大量算力。Sora底層采用了游戲、無(wú)人駕駛和機(jī)器人領(lǐng)域驗(yàn)證的世界模型，構(gòu)建文生視頻模型，達(dá)到模擬世界的能力。”

其次，在Sora身上第一次展現(xiàn)了擴(kuò)散模型與大模型能力的完美融合。

AI視頻就像一部電影大片，取決于劇本和特效兩個(gè)重要元素。其中，劇本對(duì)應(yīng)著AI視頻生成過(guò)程中的“邏輯”，特效則對(duì)應(yīng)著“效果”。為了實(shí)現(xiàn)“邏輯”和“效果”，背后分化出了兩條技術(shù)路徑擴(kuò)散模型和大模型。

去年年底，光錐智能就曾預(yù)判到，為了同時(shí)能夠滿足效果和邏輯，擴(kuò)散和大模型兩條路線終將走向融合。沒(méi)想到，OpenAI如此迅速地就解決了這個(gè)難題。

（圖源：OpenAI官網(wǎng)）

OpenAI 在技術(shù)報(bào)告中畫重點(diǎn)提到：“我們將各種類型的視覺(jué)數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一表示法的方法，這種表示法可用于生成模型的大規(guī)模訓(xùn)練。”

具體來(lái)看，OpenAI將視頻畫面的每一幀都編碼轉(zhuǎn)化為了一個(gè)個(gè)的視覺(jué)補(bǔ)�。╬atches），每個(gè)補(bǔ)丁都類似于GPT中的一個(gè)token，成為了視頻、圖像中的最小衡量單位，并且可以隨時(shí)隨地被打破、被重組。找到了統(tǒng)一數(shù)據(jù)的方式，統(tǒng)一了度量衡，也就找到了打通擴(kuò)散模型和大模型的橋梁。

在整個(gè)生成的過(guò)程中，擴(kuò)散模型仍在負(fù)責(zé)生成效果的部分，增加大模型Transformer的注意力機(jī)制后，就多了對(duì)生成的預(yù)測(cè)、推理能力，這也就解釋了Sora為什么能夠從現(xiàn)有獲取的靜態(tài)圖像中生成視頻，還能擴(kuò)展現(xiàn)有視頻或填充缺失的畫面幀。

發(fā)展至今，視頻模型已經(jīng)呈現(xiàn)出復(fù)合的趨勢(shì)，模型走向融合的同時(shí)，技術(shù)也在走向復(fù)合。

把之前沉淀的技術(shù)積累運(yùn)用到視覺(jué)模型上，也成為了OpenAI的優(yōu)勢(shì)。在Sora文生視頻的訓(xùn)練過(guò)程中，OpenAI就引入了 DALL-E3和GPT的語(yǔ)言理解能力。據(jù)OpenAI表示，DALL-E3、GPT基礎(chǔ)上進(jìn)行訓(xùn)練，能夠使Sora準(zhǔn)確地按照用戶提示生成高質(zhì)量的視頻。

一套組合拳下來(lái)，結(jié)果就是出現(xiàn)了模擬能力，也就構(gòu)成了“世界模擬器”的基礎(chǔ)。

“我們發(fā)現(xiàn)，視頻模型在進(jìn)行大規(guī)模訓(xùn)練時(shí)，會(huì)表現(xiàn)出許多有趣的新興能力。這些能力使Sora能夠模擬物理世界中的人、動(dòng)物和環(huán)境的某些方面。這些特性的出現(xiàn)并沒(méi)有對(duì)三維、物體等產(chǎn)生任何明確的歸納偏差——它們純粹是規(guī)�，F(xiàn)象”，OpenAI表示道。

“模擬”之所以能夠如此炸裂，根本的原因在于，用大模型創(chuàng)造出不存在的事物人們已經(jīng)習(xí)以為常，但是能夠準(zhǔn)確地理解物理世界運(yùn)轉(zhuǎn)邏輯，例如力是如何相互作用的，摩擦是如何產(chǎn)生的，籃球是如何打出拋物線的等等，這些都是以前任何模型都無(wú)法完成的事情，也是Sora超越視頻生成層面的根本意義所在。

不過(guò)，從demo到實(shí)際成品，可能是驚喜也可能是驚嚇。Meta首席科學(xué)家楊立昆就直接對(duì)Sora提出了質(zhì)疑，他表示：“僅憑能夠根據(jù)提示生成逼真的視頻，并不能說(shuō)明系統(tǒng)真正理解了物理世界。生成過(guò)程與基于世界模型的因果預(yù)測(cè)不同，生成式模型只需要從可能性空間中找到一個(gè)合理的樣本即可，而無(wú)需理解和模擬真實(shí)世界的因果關(guān)系。”

齊鏜泉也表示，雖然OpenAI驗(yàn)證了基于世界模型的文生視頻大模型是可行的，但也存在物理交互的準(zhǔn)確性難點(diǎn)，盡管Sora能夠模擬一些基本的物理交互，但它在處理更復(fù)雜的物理現(xiàn)象時(shí)可能會(huì)遇到困難；長(zhǎng)期依賴關(guān)系的處理存在挑戰(zhàn)，即如何保持時(shí)間上的一致性和邏輯性；空間細(xì)節(jié)的精確性，處理空間細(xì)節(jié)方面如果不夠精確，可能影響到視頻內(nèi)容的準(zhǔn)確性和可信度。

顛覆視頻，但遠(yuǎn)不止視頻

Sora成為世界模擬器或許是很久以后的事情，但是就生成視頻而言，已經(jīng)對(duì)現(xiàn)在的世界產(chǎn)生了影響。

第一類就是解決之前技術(shù)上面無(wú)法突破的問(wèn)題，推動(dòng)一些行業(yè)邁向新的階段。

最典型的就是影視制作行業(yè)，Sora這回最具革命性的能力就是最長(zhǎng)生成視頻長(zhǎng)度達(dá)到了1分鐘。作為參考，大熱門Pika所能生成的長(zhǎng)度在3秒、Runway的Gen-2生成長(zhǎng)度在18秒，這意味著有了Sora以后，AI視頻將能成為真正的生產(chǎn)力，實(shí)現(xiàn)降本增效。

陳坤告訴光錐智能，在Sora誕生前，其利用AI視頻工具制作科幻電影的成本已經(jīng)下降至了一半，Sora落地后，更加值得期待。

Sora發(fā)布后，令他印象最深刻的是一個(gè)海豚騎車的demo。在那個(gè)視頻中，上半身是海豚，下半身是人的兩條腿，腿上還穿了鞋子，在一種極具詭異性的畫風(fēng)中，海豚完成了作為人騎自行車的動(dòng)作。

“這對(duì)我們來(lái)說(shuō)簡(jiǎn)直太神奇了！這個(gè)畫面創(chuàng)造出了一種又有想象空間，又符合物理定律的荒誕感，既是情理之中又出乎意料，這才是觀眾能發(fā)出驚嘆的影視作品”，陳坤道。

陳坤認(rèn)為Sora會(huì)像當(dāng)年的智能手機(jī)、抖音一樣，把所有內(nèi)容創(chuàng)作者門檻降低一大步，把內(nèi)容創(chuàng)作者呈數(shù)量級(jí)放大。

“未來(lái)內(nèi)容創(chuàng)作者可能都不需要拍攝，只需要說(shuō)一段話或者一段詞，就能把腦子里面獨(dú)特的想法表達(dá)出來(lái)，且可以被更多人看到。屆時(shí)，我覺(jué)得還有可能會(huì)出現(xiàn)比抖音更大的新的平臺(tái)。再往前一步，或許是Sora能夠了解每個(gè)人潛意識(shí)的想法，自動(dòng)去生成和創(chuàng)作內(nèi)容，根本不需要用戶去主動(dòng)尋求表達(dá)”，陳坤表示道。

同樣的行業(yè)還有游戲，OpenAI 技術(shù)報(bào)告的結(jié)尾是一個(gè)《我的世界》的游戲視頻，旁邊寫著這樣一句話：“ Sora可以通過(guò)基本策略同時(shí)控制Minecraft中的玩家，同時(shí)高保真地呈現(xiàn)世界及其動(dòng)態(tài)。只需在Sora的提示字幕中提及‘Minecraft’，就能零距離激發(fā)這些功能。”

AI游戲創(chuàng)業(yè)者陳希告訴我們，“任何游戲從業(yè)者看到這句話，都是一身冷汗！OpenAI 毫無(wú)保留地展露了它的野心”。陳希解讀分析認(rèn)為，短短的一句話傳達(dá)了兩件事情：Sora能控制游戲角色，同時(shí)能渲染游戲環(huán)境。

“就如OpenAI 所說(shuō)，Sora是一個(gè)模擬器，一個(gè)游戲引擎，一個(gè)想象力和現(xiàn)實(shí)世界的轉(zhuǎn)換接口。未來(lái)的游戲，只要言之所及，畫面就能被渲染出來(lái)。Sora現(xiàn)在學(xué)會(huì)了構(gòu)建一分鐘的世界，還能生成穩(wěn)定的角色，再配合自家的GPT-5，一個(gè)純AI生成的、數(shù)千平方公里、活躍著各色生物的地圖，聽(tīng)上去已經(jīng)不是異想天開(kāi)。當(dāng)然，畫面是否能實(shí)時(shí)生成，是否支持多人聯(lián)機(jī)，這些都是很現(xiàn)實(shí)的問(wèn)題。但無(wú)論怎么說(shuō)，新的游戲模式已經(jīng)呼之欲出，至少用Sora生成一個(gè)《完蛋我被美女包圍了》變得毫無(wú)問(wèn)題了”，陳希道。

第二類是基于模擬世界的能力，在更多領(lǐng)域中創(chuàng)造出新的事物。

愛(ài)丁堡大學(xué)的博士生Yao Fu表示：“生成式模型學(xué)習(xí)生成數(shù)據(jù)的算法，而不是記住數(shù)據(jù)本身。就像語(yǔ)言模型編碼生成語(yǔ)言的算法（在你的大腦中）一樣，視頻模型編碼生成視頻流的物理引擎。語(yǔ)言模型可以視為近似人腦，而視頻模型近似物理世界。”

學(xué)會(huì)了物理世界中的普遍規(guī)律，讓具身智能也更加接近人的智能。

例如在機(jī)器人領(lǐng)域，以前的傳導(dǎo)流程為，先給到機(jī)器人大腦一個(gè)握手的指令，再傳遞到手這個(gè)部位，但是由于機(jī)器人無(wú)法真正理解“握手”的含義，所以只能把指令轉(zhuǎn)化為“手的直徑縮小為多少厘米”。若世界模擬器成為現(xiàn)實(shí)后，機(jī)器人就可以直接跳過(guò)指令轉(zhuǎn)化的過(guò)程，一步到位理解人的指令需求。

跨維智能創(chuàng)始人、華南理工大學(xué)教授賈奎向光錐智能表示，顯式的物理模擬將來(lái)就有可能應(yīng)用到機(jī)器人領(lǐng)域，“Sora的物理模擬是隱式的，它展示出了只有其內(nèi)部對(duì)物理世界理解和模擬才能生成出來(lái)的效果，要對(duì)機(jī)器人直接有用，我覺(jué)得還是顯式的才行。”

“Sora能力還是通過(guò)海量視頻數(shù)據(jù)，還有recaptioning技術(shù)，實(shí)現(xiàn)出來(lái)的，甚至也沒(méi)有 3D 顯式建模，更不用說(shuō)物理模擬了。雖然其生成出來(lái)的效果，已經(jīng)達(dá)到/接近了通過(guò)物理模擬實(shí)現(xiàn)的效果。但物理引擎能做的事情不僅僅是生成視頻，還有很多訓(xùn)練機(jī)器人必須有的其他要素”，賈奎表示道。

雖然Sora還有許多局限性，但在虛擬和現(xiàn)實(shí)世界之間已經(jīng)建立了一個(gè)鏈接，這讓無(wú)論是頭號(hào)玩家式的虛擬世界，還是機(jī)器人更像人類，都充滿了更大的可能性。

原文標(biāo)題 : 詳解Sora，為什么是AGI的又一個(gè)里程碑時(shí)刻？