国产精品精品,国产一二三四2021精字窝

只有谷歌受傷的世界達成了，但“全能模型”到底該不該跟？

2024-05-20 14:47

腦極體

關(guān)注

最近AI領(lǐng)域備受矚目的新聞中，OpenAI和谷歌的新品發(fā)布會，無疑占據(jù)了最多的頭條。

我們團隊當(dāng)然也不例外，不僅第一時間觀看了兩家公司的發(fā)布會，還親身上手體驗了號稱“顛覆世界”“世界又科幻了”的GPT-4o。

一句話總結(jié)：

OpenAI發(fā)布會，失望；

谷歌發(fā)布會，無聊。

并不是我們要故作驚人之語。實際上，AI業(yè)內(nèi)專業(yè)人士普遍都有類似的看法。

一些國內(nèi)從事AI工程化項目的人表示，“不關(guān)心，因為又用不到”。而AI科學(xué)家和專家也有不少人直言，“看著看著睡著了，谷歌幾乎所有的東西都是對標(biāo)和追趕，沒有太多的新鮮感”。

又又又一次在與OpenAI的較量中處于下風(fēng)，一個只有谷歌受傷的世界達成了。

盡管兩大AI巨頭的新技術(shù)方向，仍然值得關(guān)注，但可以明確的是，隨著大型AI模型的產(chǎn)業(yè)化進程不斷深入，國內(nèi)外參與者也越來越冷靜，更加專注于自身的AI策略與節(jié)奏。

有人將這兩場發(fā)布會比作是一場斗地主游戲，OpenAI打出一對二，谷歌就跟四個王。那么，這一次較量的核心——多模態(tài)大模型，國內(nèi)AI行業(yè)是否要跟進呢？如果要跟進，又該提前考量到哪些問題呢？

每一次新產(chǎn)品問世，如果只跟著新聞“震驚”是很難進步的。不妨和我們一起，認(rèn)真給GPT-4o算筆賬。

全能模型，究竟“驚艷”在哪里？

谷歌反擊OpenAI的發(fā)布會，被稱為“腹瀉式更新”，一口氣推出了十來款新品及升級。之所以讓人看到睡著，是因為大家已經(jīng)在前一天被GPT-4o“驚艷”過了。

而這次谷歌開發(fā)者大會上所演示的其他產(chǎn)品，OpenAI早都發(fā)布過。對標(biāo)GPT-4o的Gemini Astra，表現(xiàn)又略遜一籌，也難怪大家興趣缺缺。顯然，這是一次針對谷歌的精準(zhǔn)狙擊。此前，谷歌已經(jīng)對外放出了語音助手demo演示的預(yù)熱視頻，而GPT-4o最讓人驚艷的地方就是“天花板級別”的人機自然語音交互。

那么，OpenAI機關(guān)算盡、谷歌有備而來的多模態(tài)大模型，究竟有什么神奇之處？

GPT-4o中的“o”代表“omni”，意為“全能”，以此為版本號，凸顯了GPT-4o的多功能特性，可以從三個方面理解：

1.多模態(tài)。

GPT-4o接受文本、音頻和圖像的任意組合作為輸入，實時對音頻、視覺和文本進行推理，生成相應(yīng)的輸出。相比ChatGPT的文生文、文生圖，Sora的文生視頻等，GPT-4o是一個原生多模態(tài)的融合體。這一點，谷歌的Gemini Astra也能實現(xiàn)，支持多模態(tài)的推理。在演示視頻中，谷歌的智能助手可以理解手機攝像頭拍攝的世界（視頻、圖像），并用文字詳細(xì)地講述出來。

當(dāng)然，多模態(tài)大模型并不是什么新鮮事物。不只這倆AI巨頭，國內(nèi)在多模態(tài)大模型領(lǐng)域也有一些研究和開發(fā)。此前就有浙大校友開源了多模態(tài)大模型LLaVA，對標(biāo)OpenAI的GPT-4V。既然多模態(tài)大模型并不稀奇，那GPT-4o憑啥“驚艷”？答案就在第二點。

2.低時延。

GPT-4o是一個端到端、全鏈路貫穿的多模態(tài)大模型。

此前，語音產(chǎn)品一般由三個獨立模型組成：SLM1將音頻轉(zhuǎn)錄為文本——LLM將文本輸出為文本——SLM2將生成文本轉(zhuǎn)換為音頻。每一步的網(wǎng)絡(luò)延遲疊加起來，結(jié)果就是AI推理速度跟不上人嘴巴說話的速度。大家可能都有過類似的經(jīng)歷，自己都說完了，AI大模型還沒識別完全，互動總被打斷，有時還會丟失很多信息，連基本的文字都聽不清，更別說從笑聲、停頓、嘆氣等因素中分析出人的情緒了，人當(dāng)然也就沒有了說下去的興致。

而GPT-4o的端到端，就是省去了中間的處理步驟，由同一個神經(jīng)網(wǎng)絡(luò)來接受并處理來自不同模態(tài)（如文本、視覺和音頻）的輸入數(shù)據(jù)，并直接輸出結(jié)果。這樣就可以將語音交互的響應(yīng)時延，控制在232 毫秒以內(nèi)，體感上比人類回應(yīng)還要迅速。

OpenAI演示完GPT-4o，大家紛紛表示，科幻電影中《Her》跟機器談情說愛的未來就要實現(xiàn)了。不過，谷歌并不這樣想。

（截圖自奧特曼的社交媒體）

在晚一天的谷歌發(fā)布會上，谷歌Gemini 1.5 Flash的響應(yīng)其實也很快速，同樣能幾乎沒有延遲地跟人類流暢互動，但還是比GPT-4o要長一些。不過谷歌聲稱，自己的兩段演示視頻均為“單次拍攝、實時錄制完成”。

我們猜測，這是在暗示OpenAI又在“貸款領(lǐng)先”了，GPT-4o實際可能無法很快真的落地，畢竟OpenAI搞誤導(dǎo)性營銷是有前科的，Sora就曾爆出，拿藝術(shù)家編輯過的視頻當(dāng)原視頻宣傳，演示效果并非完全由AI生成。

展示效果是真是假，有待時間驗證，不過OpenAI和谷歌在端到端方面的工作，證明了人機語音交互的超低時延是可以實現(xiàn)的，達到媲美人類交流的水平。而這，就為語音交互的多場景應(yīng)用，打下了新的技術(shù)根基。

3.多場景。

大家應(yīng)該都還記得，ChatGPT問世時舉世震驚的效果。大語言模型的強大理解能力和泛化性，可以促成NLP在多種文本任務(wù)上帶來顛覆式的影響，而這類任務(wù)幾乎遍布在各行各業(yè)。

再看GPT-4o，多模態(tài)大模型在音視頻理解方面尤其出色，也是一個非常泛在的通用型技術(shù)。而毫不夸張地說，GPT-4o將語音交互體驗做到了“天花板級別”，這幾乎可以給語音場景都帶來改變。

比如OpenAI所展示的輔導(dǎo)孩子數(shù)學(xué)題，可以替代家長輔導(dǎo)作業(yè)，讓家家都過上和諧的日子；《Her》電影中跟智能語音機器人談戀愛的場景，可以讓人人都擁有自己的網(wǎng)絡(luò)戀愛/在線情感撫慰師。延展開來，此前曾被嘲笑“人工智障”的手機語音助手，銀行、電信等行業(yè)的客服機器人，缺乏充足師資力量的偏遠(yuǎn)學(xué)校，游戲里跟玩家互動的NPC紙片人，以及能識別用戶情緒的精準(zhǔn)營銷……

凡有人聲處，皆可詠AI，正隨著端到端多模態(tài)大模型的進化與落地，讓更自然、更逼真、富有感情的人機交互成為可能。

從這個角度說，GPT-4o所代表的技術(shù)前瞻性，確實配得上“全能o”這個詞。既然如此，為什么說只有谷歌一家受傷了呢？

不慌不忙，只有谷歌受傷的世界達成了

OpenAI一有新品發(fā)布，國內(nèi)大眾的期待與緊張情緒便如同谷歌的皮猜（Sundar Pichai）一樣高漲，這幾乎已經(jīng)是慣例了。

預(yù)判國內(nèi)觀眾的預(yù)判，很多中文媒體也在OpenAI春季新品發(fā)布會剛發(fā)完的早晨，就炮制了一系列“顛覆世界”“炸裂登場”的新聞。有人說它要革谷歌的命，革Siri的命，革同傳的命，革心理咨詢師、情感輔導(dǎo)、私人教練等1V1咨詢的命……

或許還有不明真相的群眾信以為真，而谷歌也確實進行了反擊，但國內(nèi)AI業(yè)內(nèi)人士大多呵呵一笑。這可能是第一次，面對OpenAI的進攻，只有谷歌受傷的世界達成了。

為什么國內(nèi)AI從業(yè)者普遍對GPT-4o及對標(biāo)GPT-4o的Gemini Astra，反應(yīng)平平，甚至看發(fā)布會都能睡著？

首要原因，當(dāng)然是新產(chǎn)品不達預(yù)期。

許多人原本滿懷期待地等OpenAI放出GPT-5，就算沒有，也得是跟Sora一樣驚艷的東西，但GPT-4o更多的是在現(xiàn)有技術(shù)框架內(nèi)的一次迭代升級。而谷歌此前發(fā)布的Gemini也有多模態(tài)能力。可以說，雙方雖然都在多模態(tài)處理方面，做出了改進和增強，但并沒有實現(xiàn)根本性的技術(shù)飛躍。所以有人說，大家期待的是一個“核彈”，而OpenAI這次拿出的是一個“摔炮”。

另一個原因，是OpenAI“狼來了”玩太多次了。

OpenAI會營銷是共識，有不少人都在Sora翻車之后表示，“厭倦了OpenAI的精美Demo營銷”。投資人朱嘯虎OpenAI CEO Sam Altman奧特曼每次都把PR宣傳時間點拿捏得很準(zhǔn)，顯示自己這波在“大氣層”，但幾個月之后都沒有開放給公眾使用。

越來越多人認(rèn)識到這一點，也對OpenAI的“demo發(fā)布會”變得不信任、不耐煩了。

（截圖自社交媒體，網(wǎng)友對OpenAI的評論）

當(dāng)然，最關(guān)鍵的還是，經(jīng)過一年多的大模型落地實踐，國內(nèi)AI產(chǎn)業(yè)鏈上下游可能都對OpenAI和大模型“祛魅”了。

這就像打牌，面對別人擺下的龍門陣，剛剛坐上牌桌，對游戲規(guī)則和策略不夠熟悉，自然要先觀察和模仿對方的策略，趕緊先把大語言模型搞出來，也會下意識地聽取圍觀群眾的建議。明明自己才是干AI的，但一聽媒體分析師或網(wǎng)友說“落后了”，立馬焦慮，忙著對標(biāo)ChatGPT、對標(biāo)GPT-4，又容易“翻車”引發(fā)輿論危機。剛上牌桌，進退失據(jù)，亦步亦趨跟進OpenAI是難免的。

但一年多時間過去，很多真正做大模型和產(chǎn)業(yè)落地的人與企業(yè)，或許還沒徹底弄清楚中國大模型產(chǎn)業(yè)化、商業(yè)化應(yīng)該怎么做，但一個共識很清楚——像OpenAI、谷歌那樣做不行。最簡單的，GPT-4o能第一時間拿到英偉達最先進的顯卡，這就是國內(nèi)廠商很難擁有的資源。

此外，ToB領(lǐng)域?qū)δＰ涂煽匦缘囊蟆⑺接谢渴鸬男枨蟮�，國�?nèi)企業(yè)的智能化要從數(shù)據(jù)清洗、知識庫等基礎(chǔ)工作開始，而不是直接調(diào)用最先進模型的API……

這些問題，導(dǎo)致國內(nèi)AI產(chǎn)業(yè)界對追趕OpenAI“炸裂新品”的興趣，越來越小，找到了自己做大模型的節(jié)奏和策略。

這些背景綜合起來，導(dǎo)致只有緊跟在OpenAI身后苦苦追趕的谷歌，被GPT-4o傷得最深。

多模態(tài)大模型的收益比，到底怎么樣？

當(dāng)然，不再一味追著OpenAI的節(jié)奏疲于奔命，并不意味著OpenAI和谷歌都在發(fā)力的技術(shù)方向，就不重要了，就可以不關(guān)心了。

只不過，在盯緊趨勢的基礎(chǔ)上，還得統(tǒng)籌牌局，算好收益比，究竟何時出牌、什么出牌順序，對大模型商業(yè)化的潛在收益風(fēng)險比是最高的。

那么，GPT-4o及Gemini Astra這類端到端多模態(tài)大模型，對企業(yè)的潛在收益與風(fēng)險，究竟如何呢？

先說收益。

目前來看，與豐富的軟硬件生態(tài)相結(jié)合，能夠更快落地、價值最大化。

比如谷歌Gemini Astra盡管在理解能力、時延上不及GPT-4o，但谷歌憑借強大應(yīng)用生態(tài)的支持，讓跨模態(tài)理解生成，有了用武之地，股價也有所上漲。

硬件方面，谷歌Gemini的多模態(tài)能力與XR眼鏡整合，讓商業(yè)化遇阻的“谷歌眼鏡”再次回魂重塑；

軟件方面，GPT-4o被傳將與蘋果綁定，加速IOS的AI化進程。而谷歌則將多模態(tài)能力融入搜索，用戶可以通過語音、圖片等與搜索引擎交互，支持搜索視頻內(nèi)容。

（截圖自社交媒體，網(wǎng)友對GPT-4o的評論）

不過，這些都是展望。在實際落地、與軟硬件結(jié)合的過程中，AI公司可能會輸?shù)粢恍┗I碼，潛在風(fēng)險包括：

長期虧損。就連OpenAI都遭遇了流量危機，開始通過免費換用戶規(guī)模，這意味著在算力、人員等方面的長期投入。AGI是一個長期任務(wù)，可能需要十年、二十年的時間，如果在每一個階段，不能成功實現(xiàn)規(guī)模商業(yè)化，想一把賭個大的，靠后期非線性增長來扭虧為盈，很有可能“大業(yè)未成而中道崩阻”。

同質(zhì)化競爭。OpenAI與谷歌的大模型競爭，撕咬得很緊，而技術(shù)領(lǐng)域想要徹底封閉是不可能的，這意味著底層模型能力很快會趨同，這時候用戶會轉(zhuǎn)變?yōu)閮r格敏感型，進入殘酷的價格戰(zhàn)。如果沒有差異化的營收模式，一味跟進底層模型的絕對領(lǐng)先，利潤會越來越微薄。

可能有人會說，還沒做出國產(chǎn)版GPT-4o就惦記著商業(yè)化、賺錢，真的很庸俗。

必須得說明一下，從收益比最優(yōu)的角度，決定怎么出牌，OpenAI可算是熟手了。事實上，ChatGPT的推出是為了用聊天機器人來搶到關(guān)注度，而GPT-5遲遲不推出，除了坊間猜測的能力不達預(yù)期之外，也有對發(fā)布時機的考量。奧特曼已經(jīng)表達過多次，“GPT-5很厲害，但我們還沒有確定如何將這些產(chǎn)品推向市場”。

師夷“算賬”以制夷，國內(nèi)AI公司也得學(xué)會踩點市場節(jié)奏，做出更明智、收益比更高的商業(yè)策略，才能長期良性發(fā)展。網(wǎng)友大型“雙標(biāo)”要不得。

從國內(nèi)LLMtoB（面向B端市場的大模型）的一些實踐經(jīng)驗來看，GPT-4o在當(dāng)下確實還存在一些阻礙落地的實際問題。

比如可控性，AIGC生成的文本、圖片，都比較容易進行內(nèi)容控制，由其他模型或人類專家來把控內(nèi)容質(zhì)量與合規(guī)風(fēng)險，超低時延的實時語音交互如何保障內(nèi)容質(zhì)量？如果在輔導(dǎo)作業(yè)、醫(yī)生問診、心理咨詢等嚴(yán)肅場景中出現(xiàn)幻覺和胡說八道，甚至違法違規(guī)的內(nèi)容，該怎么及時防范？

奧特曼在GPT-4o的技術(shù)博客中提到，該模型在網(wǎng)絡(luò)安全等風(fēng)險維度上都“不超過中等水平”，也就是說，目前只能實現(xiàn)中等及以下的安全能力。無論是C端用戶，還是B端政企客戶，誰放心將喜怒哀樂、私密信息都告訴多模態(tài)大模型？怎么打消用戶的安全顧慮，還需要在數(shù)據(jù)源頭、模型訓(xùn)練、規(guī)則機制設(shè)計、產(chǎn)品功能上都有充分細(xì)致地打磨。

更要問一句，創(chuàng)業(yè)公司和開發(fā)者的努力總是被新的模型能力覆蓋掉，是不是來自AI大模型廠商的一種“背刺”？什么樣的智能語音產(chǎn)業(yè)生態(tài)，才能吸引他們來用？

這些落地問題不解決，所謂的《Her》一般的科幻未來，就只能一直存在于OpenAI的demo中了。

從實際情況來說，跟上技術(shù)路線并不算真難題。算好收益比，搞清楚自己和對手手里的牌面，以及多模態(tài)大模型的商業(yè)牌局，才是更難也更緊迫的問題。

GPT-4o這一波，國內(nèi)AI企業(yè)不用急著再上牌桌。

原文標(biāo)題 : 只有谷歌受傷的世界達成了，但“全能模型”到底該不該跟？