侵權(quán)投訴
訂閱
糾錯(cuò)
加入自媒體

端到端時(shí)代,理想智駕如何換道超車(chē)?

作者 |德新

編輯 |王博

圖片

經(jīng)過(guò)100萬(wàn)到200萬(wàn)級(jí)別短視頻Clips的訓(xùn)練,理想智駕搭載端到端+VLM視覺(jué)語(yǔ)言模型技術(shù)的第一個(gè)版本(OTA 6.1.0 E2E-VLM Beta 1),已經(jīng)向千人級(jí)別的內(nèi)測(cè)用戶(hù)開(kāi)放。

這可能是目前在國(guó)內(nèi),作為一個(gè)普通車(chē)主有機(jī)會(huì)用上的絕少數(shù)搭載了端到端技術(shù)的智駕軟件版本。

從2023年下半年到眼下,在短短一年之內(nèi),端到端和大模型,迅速成為智駕行業(yè)對(duì)技術(shù)發(fā)展的共識(shí)。

關(guān)于理想的端到端智駕系統(tǒng),理想團(tuán)隊(duì)曾在7月初的一場(chǎng)線上發(fā)布會(huì)上分享過(guò)「端到端 + VLM」雙系統(tǒng)的設(shè)計(jì)思路。

一個(gè)月后,伴隨新軟件版本向千人團(tuán)開(kāi)放,理想智駕副總裁郎咸朋、理想智駕技術(shù)研發(fā)負(fù)責(zé)人賈鵬在北京接受了多家媒體的采訪。

站在百萬(wàn)級(jí)Clips訓(xùn)練數(shù)據(jù)的節(jié)點(diǎn)上,郎咸朋說(shuō),「我們還在摸索數(shù)據(jù)提升和性能提升的邊界,現(xiàn)在還(遠(yuǎn)遠(yuǎn))沒(méi)有看到上限!

目前理想積累了超過(guò)12億公里可用的駕駛場(chǎng)景數(shù)據(jù),通過(guò)對(duì)已有的80萬(wàn)車(chē)主駕駛行為的評(píng)分,其中約3%駕駛行為分在90分以上的車(chē)主,可以稱(chēng)為「老司機(jī)」。

車(chē)隊(duì)老司機(jī)的駕駛數(shù)據(jù),成為端到端模型訓(xùn)練源源不斷的燃料。

一、與特斯拉不同,雙系統(tǒng)設(shè)計(jì)

純粹的端到端的智駕系統(tǒng),存在一個(gè)天然的缺陷:其訓(xùn)練的數(shù)據(jù)是基于已知的駕駛場(chǎng)景,如果是沒(méi)有見(jiàn)過(guò)的場(chǎng)景,系統(tǒng)就沒(méi)法很好地工作。

理想在內(nèi)部一直有PD與RD兩支團(tuán)隊(duì),前者負(fù)責(zé)產(chǎn)品交付,后者主導(dǎo)技術(shù)預(yù)研。

大約不到一年之前,在RD主導(dǎo)的技術(shù)分享會(huì)上,內(nèi)部最早提到了慢思考與快思考兩套系統(tǒng)的設(shè)計(jì)理念

去年10月的戰(zhàn)略會(huì),理想內(nèi)部明確了智能駕駛是公司接下來(lái)重要的發(fā)展方向。而向AI和端到端技術(shù)的切換,也在今年上半年正式提上智駕團(tuán)隊(duì)的日程。雙系統(tǒng)的設(shè)計(jì),很自然地成為理想端到端智駕研發(fā)的基礎(chǔ)思考。

今年,理想團(tuán)隊(duì)對(duì)特斯拉FSD的體驗(yàn),也讓團(tuán)隊(duì)更加堅(jiān)信了雙系統(tǒng)的設(shè)計(jì)。

圖片

賈鵬說(shuō),「我們開(kāi)V12.3發(fā)現(xiàn),它東西海岸的表現(xiàn)差異非常大。西海岸特別好,舊金山附近非常順,基本沒(méi)有太多接管;但是到了東海岸,到波士頓、紐約,它表現(xiàn)急劇下降;到紐約后,紐約非常復(fù)雜,接管率會(huì)高非常多!

紐約跟國(guó)內(nèi)的上海、廣州相比還算相對(duì)簡(jiǎn)單。那么在中國(guó)做自動(dòng)駕駛,在車(chē)端芯片算力有限的情況下,僅僅靠一個(gè)端到端的模型,真的可以嗎?

理想智駕的雙系統(tǒng)設(shè)計(jì),是在端到端模型的基礎(chǔ)上,再加一個(gè)有泛化能力、邏輯思考能力的系統(tǒng),也就是VLM(視覺(jué)語(yǔ)言大模型)。VLM不直接輸出控制信號(hào),但會(huì)給端到端的模型提供決策依據(jù)。

賈鵬介紹車(chē)端的端到端與VLM模型之間的關(guān)系:

「兩個(gè)系統(tǒng)都是實(shí)時(shí)運(yùn)行。端到端因?yàn)槟P托∫恍,它幀率比較高,比如跑十幾赫茲;VLM參數(shù)量就大得多,是22億參數(shù),目前能跑到3 - 4赫茲之間!

尤其在一些大的復(fù)雜場(chǎng)景,比如高速收費(fèi)站選通道走ETC還是人工、施工路段、學(xué)校路段、連續(xù)坑洼路段,VLM會(huì)給到端到端模型一些信息輸入。

HiEV在實(shí)車(chē)體驗(yàn)理想的端到端+VLM內(nèi)測(cè)版本時(shí),也發(fā)現(xiàn)系統(tǒng)會(huì)針對(duì)施工、學(xué)校等特殊路段給出提醒。理想的工作人員介紹:目前這部分信息直接來(lái)自于VLM,而不是來(lái)自導(dǎo)航信息。

賈鵬認(rèn)為,接下來(lái)車(chē)端的模型會(huì)有兩個(gè)趨勢(shì):

第一,模型規(guī)模變大。系統(tǒng)一和系統(tǒng)二兩個(gè)模型有可能合一,從松耦合走向緊耦合;

第二,借鑒多模態(tài)大模型的趨勢(shì),向原生多模態(tài)發(fā)展,既能做語(yǔ)言也能做語(yǔ)音,也能做視覺(jué),也能做激光雷達(dá)。這樣一套范式能夠支撐機(jī)器人、具身智能的應(yīng)用,走向通用人工智能。

二、理想的世界模型

端到端和VLM都是車(chē)端的模型,稱(chēng)為系統(tǒng)1和系統(tǒng)2。

而理想的云端模型,內(nèi)部稱(chēng)之為系統(tǒng)3,也就是大家熟知的「世界模型」。

圖片

端到端時(shí)代,迭代后的新模型版本是完全的黑盒,沒(méi)有中間結(jié)果。這也意味著,對(duì)新版本的評(píng)價(jià)和驗(yàn)證工作,假設(shè)在原來(lái)多模塊架構(gòu)的情況下下,只需要評(píng)估其中改動(dòng)更新的1%,那現(xiàn)在變成了需要100%地進(jìn)行驗(yàn)證。

「肯定不可能每發(fā)一個(gè)版本,就搞很多車(chē)全國(guó)各地跑跑,跑也跑不過(guò)來(lái),而且能力也不是這么測(cè)試的。」郎咸朋說(shuō)。

理想的世界模型設(shè)計(jì),類(lèi)比人類(lèi)的駕照考試、教師資格證考試或者律師考試,核心是建立對(duì)專(zhuān)業(yè)能力的評(píng)價(jià)體系。世界模型被用于能力重建,或者說(shuō)生成考題。

「我們有自己的真題庫(kù),是人在路上駕駛的正確行為。還有錯(cuò)題庫(kù),是正常的測(cè)試和開(kāi)車(chē)過(guò)程中,用戶(hù)接管、退出的數(shù)據(jù)。

還有一些模擬題,根據(jù)所有的數(shù)據(jù)舉一反三,比如這個(gè)地方出匝道老有問(wèn)題,那針對(duì)匝道的場(chǎng)景再生成一些內(nèi)容。」

有了這些題目之后,團(tuán)隊(duì)了解模型迭代前的上一個(gè)版本的能力,在哪些題上會(huì)出錯(cuò);而訓(xùn)練完的新模型,要檢驗(yàn)之前的題還會(huì)不會(huì)錯(cuò),同時(shí)保證之前對(duì)的題依然正確。

再根據(jù)新版模型的打分,決定是否可以迭代到車(chē)端,投入到更大范圍的千人早鳥(niǎo)測(cè)試,再進(jìn)一步下發(fā)給更多用戶(hù)。

這樣的考核,蘊(yùn)含了大量的里程數(shù),首先考題本身具有一定規(guī)模,其次這些題目「基本上是上萬(wàn)公里,但不是真正只跑幾萬(wàn)公里就能得出來(lái)的,是綜合的結(jié)果」。

就像高考一樣,高考題的設(shè)計(jì),并不是把高中的每一本書(shū)都考一遍,但需要實(shí)現(xiàn)能力評(píng)估的作用。

而「世界模型」作為考題,它的設(shè)計(jì)也是一項(xiàng)復(fù)雜的工作。

理想目前的「出題團(tuán)隊(duì)」是一支混合團(tuán)隊(duì),包含了產(chǎn)品團(tuán)隊(duì)、主觀評(píng)價(jià)團(tuán)隊(duì),也包括一部分當(dāng)前在無(wú)圖版本中負(fù)責(zé)功能開(kāi)發(fā)的工程師。

理想認(rèn)為智駕在未來(lái)很長(zhǎng)一段時(shí)間內(nèi),大部分的工作會(huì)集中在一頭和一尾。

「中間模型本身的設(shè)計(jì),可能沒(méi)有那么多人!官Z鵬說(shuō),「一頭是數(shù)據(jù),一頭是考試。大部分人都在做這兩件事!

三、端到端時(shí)代的智駕開(kāi)發(fā)模式

12億公里的行駛數(shù)據(jù)庫(kù),再加上80萬(wàn)車(chē)主中3%的老司機(jī),成為一個(gè)龐大的數(shù)據(jù)資源池子。

理想當(dāng)前的OTA 6.1.0版,使用了100多萬(wàn)條Clips來(lái)訓(xùn)練。

什么概念呢?200萬(wàn)條短視頻基本上對(duì)應(yīng)40億幀,如果采用人工標(biāo)注3D框的方式,單人每天大概可以標(biāo)注3幀。所以無(wú)論從時(shí)間還是金錢(qián)的角度,端到端的訓(xùn)練數(shù)據(jù)必須是自動(dòng)標(biāo)注了。

在百萬(wàn)條Clips中,理想主要使用了兩類(lèi)數(shù)據(jù):一類(lèi)是30秒,一類(lèi)是1分鐘的數(shù)據(jù)。

人類(lèi)的大部分駕駛決策集中在5秒以?xún)?nèi),30秒就意味著覆蓋幾個(gè)小的場(chǎng)景;但一些長(zhǎng)決策,比如當(dāng)前本車(chē)在最左車(chē)道,之后要從最右車(chē)道下匝道,這樣的行為有時(shí)需要一分鐘或者更久。長(zhǎng)決策則需要將有持續(xù)關(guān)系的數(shù)據(jù)拼接在一起,讓模型能夠理解場(chǎng)景的前后關(guān)系。

數(shù)據(jù)規(guī)模和數(shù)據(jù)配比,是影響模型表現(xiàn)的其中兩個(gè)關(guān)鍵因素

理想之前的端到端模型,在80萬(wàn)Clips訓(xùn)練數(shù)據(jù)規(guī)模時(shí),還實(shí)現(xiàn)不了過(guò)環(huán)島;但到了100萬(wàn)Clips規(guī)模時(shí),突然驚喜地發(fā)現(xiàn)模型能夠自主通過(guò)環(huán)島了。

另一個(gè)案例則是,剛開(kāi)始做端到端模型訓(xùn)練時(shí),團(tuán)隊(duì)發(fā)現(xiàn)訓(xùn)練出來(lái)的模型,一般情況下開(kāi)得可以,但在等紅燈的時(shí)候,車(chē)輛行為有一些奇怪,總是非常急躁想要變道或者加塞。

后來(lái)團(tuán)隊(duì)才意識(shí)到,原來(lái)訓(xùn)練時(shí),因?yàn)榈燃t燈時(shí)周?chē)鷪?chǎng)景沒(méi)有變化,所以當(dāng)時(shí)刪掉了很多等紅燈前十幾秒或者一分鐘的數(shù)據(jù)。

「我們發(fā)現(xiàn)訓(xùn)練端到端模型,跟古代煉丹沒(méi)什么區(qū)別。」郎咸朋類(lèi)比了古代煉制火藥,「一硝二磺三木炭,做出來(lái)的炸藥威力比較大;其他配比,可能也能點(diǎn)個(gè)火。」

因此,數(shù)據(jù)的配比十分關(guān)鍵。

修復(fù)紅綠燈的案例,在于恢復(fù)車(chē)輛等待紅燈變綠之前的信息,而要定位這樣的問(wèn)題,跟過(guò)去智駕的開(kāi)發(fā)方式也有很大差別。

理想為此設(shè)計(jì)了一套專(zhuān)門(mén)的工具鏈:當(dāng)一個(gè)問(wèn)題案例(bad case)出現(xiàn)時(shí),內(nèi)部有一套分診臺(tái)Triage的機(jī)制,來(lái)自動(dòng)地分析是屬于哪一類(lèi)問(wèn)題的場(chǎng)景,這個(gè)分診機(jī)制也是通過(guò)模型訓(xùn)練實(shí)現(xiàn)的,這樣定位出需要補(bǔ)充或者替代什么樣的數(shù)據(jù),再進(jìn)行下一步的訓(xùn)練,這個(gè)過(guò)程可能涉及同時(shí)訓(xùn)練多個(gè)版本的模型,「現(xiàn)在最多同時(shí)訓(xùn)十來(lái)個(gè)模型,再通過(guò)評(píng)分系統(tǒng)來(lái)打分!

而如何通過(guò)數(shù)據(jù)鏈和基礎(chǔ)設(shè)施,把所需要的數(shù)據(jù)高效地挖出來(lái),則是一項(xiàng)需要多年積累的能力。

「某種意義上甚至大于模型的能力,因?yàn)闆](méi)有這些良好的基建和數(shù)據(jù),再好的模型也訓(xùn)練不出來(lái)!估上膛笳J(rèn)為。

四、10億級(jí)美元投入,華蔚小理決戰(zhàn)端到端

從7月底到本周,在幾乎不到10天的時(shí)間內(nèi),蔚來(lái)、小鵬、理想、華為先后召開(kāi)發(fā)布會(huì),公布了各自在端到端智駕上的進(jìn)展。

端到端上車(chē)的效果也是十分明顯的。HiEV在體驗(yàn)理想端到端+VLM內(nèi)測(cè)版本時(shí),明顯感受到它在一些相對(duì)復(fù)雜場(chǎng)景的處理上更加細(xì)膩、擬人。

端到端將支撐智駕功能,從之前的「點(diǎn)到點(diǎn)」晉級(jí)到「車(chē)位到車(chē)位」,也意味著斷點(diǎn)更少、連續(xù)性更強(qiáng),并且可以隨時(shí)啟動(dòng)(不要求車(chē)輛在車(chē)道線內(nèi)居中后開(kāi)啟)。

端到端還帶來(lái)了整個(gè)鏈路執(zhí)行速度的提升。

賈鵬告訴我們,過(guò)去分模塊的系統(tǒng)從傳感器信息進(jìn)入到控制信號(hào)輸出大概需要300 - 400毫秒,改為端到端后這個(gè)時(shí)間變成了100多毫秒。人很難感知到這樣短的時(shí)間變化,但對(duì)于系統(tǒng)來(lái)說(shuō),這意味著更早發(fā)現(xiàn)、更加安全的能力,以及提前規(guī)劃、更加絲滑的控制。

并且,當(dāng)前端到端模型上車(chē),仍然在非常早期的階段,我們還難以想象千萬(wàn)級(jí)Clips訓(xùn)練獲得的模型將實(shí)現(xiàn)什么樣讓人驚喜的效果。

端到端系統(tǒng)的上限在哪里?

「VLM現(xiàn)在應(yīng)該是站在了一個(gè)無(wú)人區(qū)的邊界。我們?cè)谧龅倪^(guò)程中,發(fā)現(xiàn)數(shù)據(jù)規(guī)模帶來(lái)的性能提升,現(xiàn)在還沒(méi)有看到上限!估上膛笳f(shuō)。

目前就車(chē)端而言,上限在于芯片的算力以及內(nèi)存帶寬。

理想目前車(chē)端的端到端模型大概在3億左右的參數(shù)量,3億參數(shù)模型其能消化的訓(xùn)練數(shù)據(jù),存在上限。VLM則要比端到端模型參數(shù)規(guī)模高一個(gè)級(jí)別,而跑在云端的世界模型,參數(shù)規(guī)模要大得多,可以說(shuō)是幾乎沒(méi)有上限。

理想預(yù)估,明年在云端的訓(xùn)練算力上將會(huì)有一個(gè)指數(shù)級(jí)的上升,因?yàn)閷?duì)于世界模型,理想情況下是要重建物理世界所有的信息,其需要的數(shù)據(jù)和算力消耗是難以預(yù)估的。

「如果做到 L3和L4級(jí)的自動(dòng)駕駛,一年光訓(xùn)練算力花銷(xiāo)就得到10億美金。將來(lái)拼的就是算力和數(shù)據(jù),背后拼的是錢(qián)。歸根到底,拼的還是盈利能力!

       原文標(biāo)題 : 端到端時(shí)代,理想智駕如何換道超車(chē)?

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

文章糾錯(cuò)
x
*文字標(biāo)題:
*糾錯(cuò)內(nèi)容:
聯(lián)系郵箱:
*驗(yàn) 證 碼:

粵公網(wǎng)安備 44030502002758號(hào)