侵權(quán)投訴
訂閱
糾錯(cuò)
加入自媒體

中國(guó)版Wayve決戰(zhàn)端到端,等待數(shù)據(jù)的大力出奇跡

作者 |王博

編輯 |德新

圖片

「人工智能的定律只有一個(gè),就是規(guī)模定律(Scaling Law),大力出奇跡。端到端是描述方式,更應(yīng)該去考慮如何去生產(chǎn)更多的自動(dòng)駕駛合適的數(shù)據(jù),來(lái)喂養(yǎng)更大更合適的模型,取得更好效果!

這段話,出自毫末智行CEO顧維灝。

近日,顧在2024未來(lái)汽車先行者大會(huì)上,提到了他認(rèn)為的端到端競(jìng)爭(zhēng)的關(guān)鍵點(diǎn)。

端到端的出現(xiàn),讓自動(dòng)駕駛今年再獲資本熱捧。

不久前,自動(dòng)駕駛?cè)偲爻鲆惠?0.5億美金的融資消息,軟銀領(lǐng)投,英偉達(dá)、微軟跟投,獲投方是一家名為Wayve的英國(guó)自動(dòng)駕駛公司。

這是軟銀在自動(dòng)駕駛領(lǐng)域的最新一筆投資,之前其已在Cruise、Stack AV等公司身上花掉數(shù)十億美金。

Wayve自2017年成立至今,推出的核心產(chǎn)品是GAIA-1、LINGO-2兩個(gè)自動(dòng)駕駛大模型,主打端到端大模型。

這一點(diǎn),和毫末在端到端的布局頗為相像。

圖片

毫末已搭建自監(jiān)督感知大模型、自監(jiān)督認(rèn)知大模型,并開(kāi)始進(jìn)行端到端訓(xùn)練等,雖然命名方式不同,但與Wayve的思考路徑相似。

自動(dòng)駕駛將大模型引入后,解題思路完全改變。

從以自動(dòng)駕駛工程師手寫(xiě)規(guī)則,指導(dǎo)車輛如何駕駛為主,切換到以AI來(lái)答卷,讓神經(jīng)網(wǎng)絡(luò)大模型決定如何開(kāi)車,程序員終于可以「少掉頭發(fā)」。

10億美金融資,讓外人見(jiàn)識(shí)到自動(dòng)駕駛大模型的受關(guān)注程度。而其實(shí),在智駕標(biāo)桿特斯拉和自動(dòng)駕駛的熱土中國(guó)公司毫末這里,大模型上車已經(jīng)初試牛刀,勝出希望寄托在數(shù)據(jù)的大力出奇跡。

一、換種思路,解決頭疼問(wèn)題

大模型概念興起于NLP領(lǐng)域,直到ChatGPT出現(xiàn)后,GPT這一全新的訓(xùn)練范式迅速被自動(dòng)駕駛從業(yè)者認(rèn)同,行業(yè)上下如獲至寶。

在GPT被引入之前,2004年美國(guó)DARPA那場(chǎng)自動(dòng)駕駛比賽之后的十多年里,研發(fā)模式仍與當(dāng)年的DAPRA如出一轍。

以識(shí)別車道線為例,傳統(tǒng)操作步驟是,先采集車道線數(shù)據(jù),然后進(jìn)行人工標(biāo)注,再把標(biāo)注完的數(shù)據(jù)訓(xùn)練成一個(gè)模型,最后把模型部署上車,再使用規(guī)則控制車輛做出決策。

這可以稱之為小模型加手工規(guī)則。

GPT被引入自動(dòng)駕駛后,研發(fā)模式煥然一新。

在大模型領(lǐng)域一早布局的Wayve,成立于2017年,直接跳過(guò)了傳統(tǒng)的自動(dòng)駕駛研發(fā)模式,瞄準(zhǔn)大模型發(fā)力。

只不過(guò),業(yè)內(nèi)最先看到的是特斯拉。

在去年6月舉行的CVPR 2023上,特斯拉Autopilot軟件總監(jiān)Ashok Elluswamy透露,團(tuán)隊(duì)正在訓(xùn)練一個(gè)更通用的世界模型。

特斯拉引入大模型,一部分原因在于,傳統(tǒng)的自動(dòng)駕駛研發(fā)模式,在城市場(chǎng)景中遇到了困難。

仍以車道線場(chǎng)景為例,實(shí)時(shí)預(yù)測(cè)車道線一度是自動(dòng)駕駛頭疼的問(wèn)題。“車道是三維數(shù)據(jù),會(huì)分叉、合并,很難建模。”Ashok Elluswamy解釋道。

特斯拉的做法是,基于生成式大模型,采用自回歸Transformer,將車道令牌化,一次一個(gè)令牌地對(duì)車道進(jìn)行預(yù)測(cè),對(duì)分叉點(diǎn)、合并點(diǎn)進(jìn)行預(yù)測(cè)。

其實(shí),早于Ashok Elluswamy演講前一天,Wayve已在自家官方博客上發(fā)布GAIA-1,一個(gè)用于自動(dòng)駕駛的生成式大模型。

圖片

幾個(gè)月后,這一模型擴(kuò)展至90億參數(shù),Wayve開(kāi)始能夠生成逼真的駕駛場(chǎng)景視頻,展示自動(dòng)駕駛“在各種情境的反應(yīng)”,且可以更好地預(yù)測(cè)未來(lái)事件。

今年4月,在NVDIA GTC的舞臺(tái)上,Wayve CEO Alex Kendall演講時(shí)表示,「自動(dòng)駕駛行業(yè)花費(fèi)了太多時(shí)間聚焦在復(fù)雜解法上,比如手動(dòng)編碼規(guī)則和高精地圖!

他列出幾個(gè)自動(dòng)駕駛誤區(qū),第一個(gè)便是,以為解決感知問(wèn)題就搞定了自動(dòng)駕駛。

“要想創(chuàng)造一種讓人們感到高興并信任的體驗(yàn),關(guān)鍵不僅僅是能夠看到世界。真正的問(wèn)題在于決策,多智能體復(fù)雜推理,才是自動(dòng)駕駛問(wèn)題的核心。”他說(shuō)。

軟銀領(lǐng)投的那筆10.5億美金,也在不久后被官宣,Wayve開(kāi)始被更多自動(dòng)駕駛領(lǐng)域的從業(yè)者認(rèn)識(shí)和關(guān)注。

二、中國(guó)版Wayve,入局端到端

將大模型引入自動(dòng)駕駛,Wayve同行者不止有特斯拉,還有中國(guó)的自動(dòng)駕駛公司。

在國(guó)內(nèi),大家較早聽(tīng)聞大模型消息的玩家中,其中一家是開(kāi)頭提到的毫末。

毫末發(fā)布的DriveGPT這一生成式大模型,可用于自動(dòng)駕駛的感知、決策任務(wù)。

開(kāi)啟GPT時(shí)刻之前,毫末最初采用的是encoder+dedocer模型,輸入一串圖片,模型會(huì)輸出一串自動(dòng)駕駛決策動(dòng)作。

后來(lái),這家公司還采用基于encoder自編碼的訓(xùn)練方式,輸入感知結(jié)果,mask司機(jī)的駕駛行為,讓系統(tǒng)猜司機(jī)的駕駛行為。

ChatGPT出現(xiàn)后,毫末很快發(fā)現(xiàn)GPT的高效能力,就此入局。

生成式大模型有一大任務(wù),可以歸納為:“建立了一個(gè)神經(jīng)網(wǎng)絡(luò),以過(guò)去或其他輸入為條件,預(yù)測(cè)未來(lái)。”

不同的是,Wayve和特斯拉輸入的是視頻序列,也就是一段過(guò)去的視頻,神經(jīng)網(wǎng)絡(luò)會(huì)預(yù)測(cè)未來(lái)可能發(fā)生的事情,生成一段預(yù)測(cè)的視頻序列。

毫末生成的是BEV序列,向大模型輸入一段過(guò)去10秒的感知場(chǎng)景,大模型會(huì)生成一段未來(lái)2 - 3秒的場(chǎng)景。

無(wú)論各家輸入的是視頻還是BEV序列,邏輯是相同的。

這一方式,與人類司機(jī)駕駛根據(jù)道路狀況做出駕駛決的做法頗為相似。它一改傳統(tǒng)的手寫(xiě)規(guī)則,轉(zhuǎn)而讓神經(jīng)網(wǎng)絡(luò)決定如何開(kāi)車,相當(dāng)于借助大模型短暫預(yù)測(cè)了未來(lái)。

生成式大模型可以用于自動(dòng)駕駛認(rèn)知決策,這是一個(gè)很好的開(kāi)始。

同時(shí),毫末也在訓(xùn)練基于自監(jiān)督的通用感知大模型,并最終希望將感知大模型、認(rèn)知大模型打通,并引入大語(yǔ)言模型LLM來(lái)獲得世界知識(shí),實(shí)現(xiàn)端到端訓(xùn)練。

發(fā)布GAIA-1幾個(gè)月后,2023年9月,Wayve又在自家官方博客上發(fā)文,介紹了LINGO-1,一款開(kāi)環(huán)的Driving Commentator C(自動(dòng)駕駛評(píng)論員),這是一個(gè)基于視覺(jué)、語(yǔ)言、動(dòng)作的自動(dòng)駕駛交互模型,可以用于解釋自動(dòng)駕駛系統(tǒng)的行為邏輯。

今年4月, Wayve推出的LINGO-2,為自動(dòng)駕駛體驗(yàn)開(kāi)辟全新的控制和定制維度,也是一個(gè)在公共道路上進(jìn)行測(cè)試的視覺(jué)語(yǔ)言動(dòng)作模型(VLAM)。這一多模態(tài)大模型被用于增加決策的可解釋性。

在Wayve的官方視頻中,用戶可以和車輛進(jìn)行對(duì)話,對(duì)行駛路線等問(wèn)題進(jìn)行提問(wèn),LINGO-2會(huì)給出回應(yīng),并能實(shí)時(shí)解釋每一項(xiàng)決策背后的過(guò)程。

毫末的做法與之相似。

他們意識(shí)到,在構(gòu)建對(duì)真實(shí)物理世界的4D感知基礎(chǔ)上,通過(guò)多模態(tài)大模型,實(shí)現(xiàn)文、圖、視頻多模態(tài)信息的整合,從而完成4D向量空間到語(yǔ)義空間的對(duì)齊,實(shí)現(xiàn)跟人類一樣的“識(shí)別萬(wàn)物”的能力。

與Wavye類似,毫末也嘗試引入大語(yǔ)言模型LLM,并利用自動(dòng)駕駛領(lǐng)域數(shù)據(jù)finetune后,使得LLM成為一個(gè)老司機(jī),通過(guò)與LLM交互,能夠獲取豐富的世界知識(shí),甚至能提出決策規(guī)劃建議。

三、奔赴端到端,解決后續(xù)上車問(wèn)題

大模型時(shí)代,人們見(jiàn)證了初出茅廬ChatGPT 3.0,很快又見(jiàn)識(shí)到更強(qiáng)的文生視頻Sora,再到最近炸場(chǎng)的GPT-4o。

這些產(chǎn)品所采用的新技術(shù),為自動(dòng)駕駛持續(xù)輸送思想的養(yǎng)料。

從Wayve和毫末等公司的實(shí)踐看,大家都在遵循著大模型的思路,但仍會(huì)分階段地推進(jìn),比如會(huì)推出解決某個(gè)模塊任務(wù)大模型。

在探索自動(dòng)駕駛最為積極的中國(guó),玩家們會(huì)單獨(dú)布局面向感知的大模型,然后布局用于駕駛決策的規(guī)控大模型。雖然這一過(guò)程中,某些地方還會(huì)用到CNN卷積神經(jīng)網(wǎng)絡(luò),但整體會(huì)以Transformer為主。

所以,Wayve推出GAIA-1也好,LINGO-2也好,這些大模型也會(huì)進(jìn)行統(tǒng)一,成為端到端大模型。

而毫末發(fā)布的DriveGPT,同樣是將自動(dòng)駕駛生成式大模型、多模態(tài)大模型、LLM等統(tǒng)一起來(lái)后的產(chǎn)物。

之后,就是 自動(dòng)駕駛大模型上車,將大模型從云端搬到車端的過(guò)程。

鑒于人工智能大模型的競(jìng)賽,是涉及算法、數(shù)據(jù)、算力的挑戰(zhàn),自動(dòng)駕駛的競(jìng)爭(zhēng)也會(huì)圍繞這些維度展開(kāi)。

進(jìn)入端到端的大門,僅僅是第一步,緊接著就是數(shù)據(jù)的比拼。

正如顧維灝所說(shuō),自動(dòng)駕駛經(jīng)歷了硬件驅(qū)動(dòng)、軟件驅(qū)動(dòng),現(xiàn)在正進(jìn)入數(shù)據(jù)驅(qū)動(dòng)時(shí)代。“數(shù)據(jù)驅(qū)動(dòng)有一個(gè)很典型的特征就是它是大模型的,更多通過(guò)模型來(lái)實(shí)現(xiàn)整個(gè)的過(guò)程。“

更多的數(shù)據(jù),會(huì)讓自動(dòng)駕駛玩家們開(kāi)始比拼算力,囤積成千上萬(wàn)塊GPU,從而在云端完成自動(dòng)駕駛大模型的訓(xùn)練。還要不斷進(jìn)行訓(xùn)練投入,傳聞ChatGPT訓(xùn)練一次,需要花費(fèi)1200萬(wàn)美金。自動(dòng)駕駛的訓(xùn)練費(fèi)用自然也不會(huì)少。

接下來(lái)就是大模型上車。

按照毫末的說(shuō)法,動(dòng)輒千億級(jí)參數(shù)的大模型,要在保持效果接近的前提下,縮小到億級(jí)才可能上車。

從量產(chǎn)層面看,目前僅有行業(yè)標(biāo)桿特斯拉推出FSD V12,宣布將城市街道駕駛堆棧升級(jí)為端到端神經(jīng)網(wǎng)絡(luò),經(jīng)過(guò)數(shù)百萬(wàn)個(gè)視頻訓(xùn)練,取代了30多萬(wàn)行代碼,可以視為端到端落地的最新動(dòng)向。

從一些國(guó)內(nèi)自動(dòng)駕駛公司的計(jì)劃看,預(yù)計(jì)在今年下半年,更多的端到端自動(dòng)駕駛方案也將量產(chǎn)上車。

資本正在為自動(dòng)駕駛大模型定價(jià),相信Wayve融資僅是一個(gè)開(kāi)始。在國(guó)內(nèi),毫末等Wayve的同行者,也許很快會(huì)獲得資本的押注。畢竟端到端大模型這條路,現(xiàn)在看是最有希望抵達(dá)自動(dòng)駕駛彼岸的方向。

參考文獻(xiàn):

Wayve CEO干貨分享:自動(dòng)駕駛已浪費(fèi)太多時(shí)間

VLAM會(huì)是自動(dòng)駕駛的黑盒解藥嗎?

Wayve:從源頭講起,如何實(shí)現(xiàn)以對(duì)象為中心的自監(jiān)督感知方法?

特斯拉自動(dòng)駕駛的“通用世界模型”和視頻生成技術(shù)|Ashok23年CVPR主題演講

Scaling GAIA-1: 9-billion parameter generative world model for autonomous driving

Wayve - NeRF 為自動(dòng)駕駛構(gòu)建城市規(guī)模的神經(jīng)輻射場(chǎng)

“大模型本質(zhì)就是兩個(gè)文件!”特斯拉前AI總監(jiān)爆火LLM科普

毫末智行自動(dòng)駕駛公開(kāi)課(第二期):數(shù)據(jù)、大算力、大模型驅(qū)動(dòng)下的自動(dòng)駕駛

       原文標(biāo)題 : 中國(guó)版Wayve決戰(zhàn)端到端,等待數(shù)據(jù)的大力出奇跡

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

文章糾錯(cuò)
x
*文字標(biāo)題:
*糾錯(cuò)內(nèi)容:
聯(lián)系郵箱:
*驗(yàn) 證 碼:

粵公網(wǎng)安備 44030502002758號(hào)