国国产自偷自偷免费一区,国产手机在线永久免费视频

自動(dòng)駕駛革命：解密端到端背后的數(shù)據(jù)、算力和AI奇跡

2024-03-06 10:25

作者 |毫末智行數(shù)據(jù)智能科學(xué)家賀翔

編輯 |祥威

最近，特斯拉FSD V12的發(fā)布引發(fā)了業(yè)界對(duì)端到端自動(dòng)駕駛的熱議，業(yè)界紛紛猜測(cè)FSD V12的強(qiáng)大能力是如何訓(xùn)練出來(lái)的。從馬斯克的測(cè)試視頻可以大致歸納一下FSD V12系統(tǒng)的一些核心特征：

·訓(xùn)練數(shù)據(jù)：1000萬(wàn)段、分布多樣、高質(zhì)量的視頻，數(shù)據(jù)的采集、篩選、質(zhì)量、分布是系統(tǒng)成功的重中之重

·訓(xùn)練方式：采用端到端訓(xùn)練，不再有感知、規(guī)控等模塊

·車(chē)端代碼：V11有30萬(wàn)行代碼來(lái)處理各類(lèi)場(chǎng)景，而V12則非常簡(jiǎn)單，不再針對(duì)任何場(chǎng)景定制策略，完全依靠數(shù)據(jù)編程

·運(yùn)行效率：50幀/秒，效率極高

這些特征如此炫酷，引領(lǐng)著自動(dòng)駕駛技術(shù)風(fēng)向。那么究竟什么是端到端自動(dòng)駕駛，如何實(shí)現(xiàn)端到端自動(dòng)駕駛呢？筆者作為自動(dòng)駕駛領(lǐng)域的從業(yè)人員，將從實(shí)戰(zhàn)應(yīng)用的角度出發(fā)，探討端到端如何落地。

一、自動(dòng)駕駛的傳統(tǒng)做法

從第一性原理來(lái)講，自動(dòng)駕駛就是一個(gè)序列到序列的映射過(guò)程，輸入的是一個(gè)傳感器信號(hào)序列，可能包括多個(gè)攝像頭采集到的視頻、Lidar采集到的點(diǎn)云、以及GPS、IMU等各類(lèi)信息，輸出的是一個(gè)駕駛決策序列，例如可以是駕駛動(dòng)作序列、也可以輸出軌跡序列再轉(zhuǎn)為操作動(dòng)作。

這個(gè)過(guò)程與大部分AI任務(wù)基本一致，這種映射過(guò)程就相當(dāng)于一個(gè)函數(shù) y = f(x)。但是實(shí)現(xiàn)這種函數(shù)往往難度比較大、任務(wù)極其復(fù)雜，對(duì)于這種復(fù)雜的任務(wù)，一般可以通過(guò)2類(lèi)方式來(lái)解決：

·分治法：將復(fù)雜任務(wù)分解成多個(gè)子任務(wù)，逐個(gè)解決，再組合起來(lái)，相當(dāng)于 y = f(x)*g(x)…

·端到端：直接尋找一個(gè)函數(shù)實(shí)現(xiàn)y = f(x)

傳統(tǒng)分治法

分治法是將自動(dòng)駕駛?cè)蝿?wù)進(jìn)行切分，定義多個(gè)子任務(wù)，每個(gè)子任務(wù)負(fù)責(zé)解決駕駛過(guò)程的某些特定問(wèn)題，再進(jìn)行系統(tǒng)集成來(lái)完成整個(gè)自動(dòng)駕駛?cè)蝿?wù)。傳統(tǒng)上，這些子任務(wù)包括：

·地圖/定位：自動(dòng)駕駛的汽車(chē)需要知道駕駛環(huán)境的地圖，其包含的信息一般比我們?nèi)粘Ｊ褂玫膶?dǎo)航地圖要多，例如車(chē)道數(shù)量、車(chē)端邊界、道路曲率、交通路牌、交通信號(hào)燈、停止線、道路拓?fù)涞刃畔�。�?dāng)前，有些公司采用厘米級(jí)高清地圖，也有些公司采用更加輕量級(jí)的地圖，也有很多公司提出了無(wú)圖方案。然后，自動(dòng)駕駛的汽車(chē)需要準(zhǔn)確地知道其自身的位置和方向。傳統(tǒng)上有使用全球定位系統(tǒng)(GPS)、慣性測(cè)量單元(IMU)的方式，也有結(jié)合感知技術(shù)，進(jìn)行圖片、Lidar點(diǎn)云匹配的方式來(lái)估計(jì)自身位置。

·感知/預(yù)測(cè)：自動(dòng)駕駛的汽車(chē)需要看懂周?chē)鸟{駛環(huán)境，感知任務(wù)負(fù)責(zé)識(shí)別障礙物、車(chē)道線、紅綠燈等關(guān)鍵的交通元素。尤其對(duì)于動(dòng)態(tài)障礙物，除了需要實(shí)時(shí)監(jiān)控并跟蹤其位置，還需要對(duì)其未來(lái)變化做出預(yù)測(cè)，這與人類(lèi)駕駛汽車(chē)是一樣的，需要對(duì)未來(lái)趨勢(shì)做一個(gè)預(yù)判，才能采取正確的駕駛決策。這對(duì)于在下游任務(wù)的預(yù)測(cè)至關(guān)重要。

·規(guī)劃/決策：自動(dòng)駕駛的汽車(chē)需要結(jié)合定位、感知、預(yù)測(cè)的結(jié)果，來(lái)規(guī)劃未來(lái)的行駛路徑，從而避開(kāi)障礙物保證安全。規(guī)劃過(guò)程需要考慮體感、安全、效率等各種維度的因素。傳統(tǒng)的自動(dòng)駕駛方案一般通過(guò)分場(chǎng)景的方式，來(lái)定制不同的駕駛決策，將復(fù)雜的世界抽象為少數(shù)幾類(lèi)典型場(chǎng)景，不同的場(chǎng)景采取不同的駕駛決策。

·控制：最終，我們需要將駕駛決策轉(zhuǎn)為車(chē)輛特定的動(dòng)作來(lái)操控車(chē)輛。

以百度的apollo為例，整體系統(tǒng)架構(gòu)如圖所示，可見(jiàn)，要完成復(fù)雜的自動(dòng)駕駛?cè)蝿?wù)，需要先完成大量相對(duì)簡(jiǎn)單的子任務(wù)，這些子任務(wù)可以先進(jìn)行獨(dú)立開(kāi)發(fā)測(cè)試，然后再將這些子任務(wù)集成到一個(gè)系統(tǒng)里進(jìn)行驗(yàn)證。這種方式通過(guò)把復(fù)雜的任務(wù)切分、簡(jiǎn)化、分而治之，大幅度降低了系統(tǒng)開(kāi)發(fā)難度，同時(shí)可以針對(duì)每個(gè)模塊都的輸入輸出進(jìn)行白盒化分析，系統(tǒng)具備很好的可解釋性，這對(duì)自動(dòng)駕駛而言至關(guān)重要，一旦發(fā)生事故，必須要進(jìn)行深入分析，找到原因。

但是，這種方式也有明顯的弊端，例如模塊太多、集成困難、錯(cuò)誤累加等等，同時(shí)由于系統(tǒng)設(shè)計(jì)時(shí)引入了太多的人為先驗(yàn)經(jīng)驗(yàn)，導(dǎo)致自動(dòng)駕駛能力上限比較低，系統(tǒng)的泛化性比較差，對(duì)于沒(méi)有見(jiàn)過(guò)的場(chǎng)景往往無(wú)法處理。

二、「端到端」技術(shù)興起

相比之下，端到端自動(dòng)駕駛不進(jìn)行任務(wù)切分，希望直接輸入傳感器數(shù)據(jù)、輸出駕駛決策（動(dòng)作或者軌跡），從而拋棄傳統(tǒng)自動(dòng)駕駛里的感知、預(yù)測(cè)、規(guī)劃、控制等各類(lèi)子任務(wù)。這種方式有明顯的優(yōu)勢(shì)，例如：

·效果上：不但系統(tǒng)更簡(jiǎn)單，還能實(shí)現(xiàn)全局最優(yōu)。

·效率上：由于任務(wù)更少、避免了大量重復(fù)處理，可以提高計(jì)算效率。

·數(shù)據(jù)收益：不需要大量的人工策略、只需要采集足夠多的優(yōu)質(zhì)駕駛數(shù)據(jù)來(lái)訓(xùn)練即可，可以通過(guò)規(guī)�；姆绞剑ú粩鄶U(kuò)展數(shù)據(jù)）來(lái)不斷提升系統(tǒng)的能力上限。

一個(gè)典型的端到端自動(dòng)駕駛系統(tǒng)如圖所示：

輸入：大部分自動(dòng)駕駛汽車(chē)都裝載了相機(jī)、Lidar、毫米波雷達(dá)等各類(lèi)傳感器，采集這些傳感器的數(shù)據(jù)，輸入深度學(xué)習(xí)系統(tǒng)即可。

輸出: 可以直接輸出轉(zhuǎn)向角、油門(mén)、剎車(chē)等控制信號(hào)，也可以先輸出軌跡再結(jié)合不同的車(chē)輛動(dòng)力學(xué)模型，將軌跡轉(zhuǎn)為轉(zhuǎn)向角、油門(mén)、剎車(chē)等控制信號(hào)。

可見(jiàn)，端到端自動(dòng)駕駛系統(tǒng)就像人類(lèi)的大腦，通過(guò)眼睛、耳朵等傳感器接受信息，經(jīng)過(guò)大腦處理后，下達(dá)指令給手腳執(zhí)行命令，整個(gè)系統(tǒng)簡(jiǎn)單的都沒(méi)啥可介紹的……。但是這種簡(jiǎn)單也隱藏了巨大的風(fēng)險(xiǎn)，例如可解釋性很差，無(wú)法像傳統(tǒng)自動(dòng)駕駛?cè)蝿?wù)一樣將中間結(jié)果拿出來(lái)進(jìn)行分析；對(duì)數(shù)據(jù)的要求非常高，需要高質(zhì)量的、分布多樣的、海量的訓(xùn)練數(shù)據(jù)，否則AI就會(huì)實(shí)現(xiàn)垃圾進(jìn)垃圾出。

與傳統(tǒng)的自動(dòng)駕駛方式對(duì)比可見(jiàn)，同樣的輸入、同樣的輸出，傳統(tǒng)自動(dòng)駕駛包含多個(gè)任務(wù)（多個(gè)模塊），但是端到端只有一個(gè)任務(wù)。此處容易產(chǎn)生一個(gè)誤區(qū)，即認(rèn)為傳統(tǒng)的自動(dòng)駕駛是多模塊的、端到端自動(dòng)駕駛是單模塊的，把分模塊與分任務(wù)的概念搞混了。

傳統(tǒng)的自動(dòng)駕駛是分任務(wù)的，必然是多個(gè)模塊。端到端自動(dòng)駕駛可以用單模塊來(lái)實(shí)現(xiàn)，當(dāng)然也可以用多模塊來(lái)實(shí)現(xiàn)，其區(qū)別在于是否端到端訓(xùn)練。分任務(wù)系統(tǒng)是每個(gè)任務(wù)獨(dú)立訓(xùn)練、獨(dú)立優(yōu)化、獨(dú)立測(cè)評(píng)的，而端到端系統(tǒng)是把所有模塊看成一個(gè)整體進(jìn)行端到端訓(xùn)練、端到端測(cè)評(píng)的。

例如2023年CVPR best paper提出的UniAD就是一種分模塊端到端訓(xùn)練方式，這種方式通過(guò)端到端訓(xùn)練避免了多任務(wù)訓(xùn)練的融合難題實(shí)現(xiàn)全局最優(yōu)，又保留了分模塊系統(tǒng)的優(yōu)勢(shì)、可以拋出中間模塊的結(jié)果進(jìn)行白盒化分析，反而更具靈活性對(duì)部署也更友好，如圖所示：

分任務(wù)的自動(dòng)駕駛系統(tǒng)更像model centric系統(tǒng)，開(kāi)發(fā)者通過(guò)不斷優(yōu)化各個(gè)模型來(lái)提升各個(gè)任務(wù)的效果。而端到端自動(dòng)駕駛則更像data centric系統(tǒng)，通過(guò)對(duì)數(shù)據(jù)的調(diào)優(yōu)來(lái)提升系統(tǒng)效果。

早年，由于自動(dòng)駕駛積累的數(shù)據(jù)還非常少，端到端系統(tǒng)的效果往往比較差。最近幾年，隨著帶高階輔助駕駛功能的量產(chǎn)車(chē)大規(guī)模落地，通過(guò)海量量產(chǎn)車(chē)可以采集到豐富的駕駛數(shù)據(jù)，覆蓋各類(lèi)場(chǎng)景，再加上最近幾年AI算力的蓬勃發(fā)展，端到端自動(dòng)駕駛在海量數(shù)據(jù)、海量算力的加持下，取得了突破性進(jìn)展。

以特斯拉為例，通過(guò)遍布全球的幾百萬(wàn)輛量產(chǎn)車(chē)，可以采集到足夠豐富、足夠多樣的數(shù)據(jù)，再?gòu)闹羞x出優(yōu)質(zhì)數(shù)據(jù)，在云端使用數(shù)萬(wàn)張GPU、以及自研的DOJO進(jìn)行訓(xùn)練和驗(yàn)證，使得端到端自動(dòng)駕駛能夠從paper變成product。

到 2023 年初，特斯拉就聲稱(chēng)已經(jīng)分析了從特斯拉客戶的汽車(chē)中收集的 1000 萬(wàn)個(gè)視頻片段（clips），特斯拉判斷完成一個(gè)端到端自動(dòng)駕駛的訓(xùn)練至少需要100萬(wàn)個(gè)、分布多樣、高質(zhì)量的clips才能正常工作。

特斯拉通過(guò)分布在全球的幾百萬(wàn)量產(chǎn)車(chē)，基于影子模式，每當(dāng)自動(dòng)駕駛決策與人類(lèi)司機(jī)不一致時(shí)，就會(huì)采集并回傳一個(gè)clip，已經(jīng)累積了200P以上的數(shù)據(jù)，不管是數(shù)據(jù)規(guī)模、數(shù)據(jù)分布還是數(shù)據(jù)質(zhì)量上都遙遙領(lǐng)先。為了能在云端處理這些數(shù)據(jù)，當(dāng)前特斯拉擁有近10萬(wàn)張A100，位居全球top5，預(yù)計(jì)到今年底會(huì)擁有100EFlops的算力，并針對(duì)自動(dòng)駕駛自研了Dojo，在算力上同樣遙遙領(lǐng)先。

在2022年，毫末智行也開(kāi)始了對(duì)端到端自動(dòng)駕駛以及自動(dòng)駕駛大模型的探索，走過(guò)了一條從看圖說(shuō)話到完型填空到寫(xiě)小作文的道路。

最早，毫末將端到端自動(dòng)駕駛簡(jiǎn)單地定義為一個(gè)看圖說(shuō)話任務(wù)，希望輸入一串圖片、輸出一串駕駛決策，這種方式與機(jī)器翻譯輸入一串中文輸出一串英文非常類(lèi)似，所以可以選擇端到端的序列模型，通過(guò)對(duì)輸入圖片進(jìn)行編碼，再解碼輸出駕駛決策。

但是訓(xùn)練之后，發(fā)現(xiàn)難以找到足夠的數(shù)據(jù)來(lái)訓(xùn)練模型，因?yàn)槭掷锊杉降臄?shù)據(jù)絕大部分駕駛行為都是雷同的，例如大部分都是直行，能用的數(shù)據(jù)不到2%。雖然項(xiàng)目效果未達(dá)預(yù)期，但是訓(xùn)練過(guò)程發(fā)現(xiàn)端到端訓(xùn)練需要消耗大量的算力，于是又開(kāi)始著手解決算力問(wèn)題，并且在2022年底跟火山引擎合作落地了業(yè)界領(lǐng)先的智算中心，等2023年大模型爆發(fā)再加上美國(guó)的制裁，算力市場(chǎng)已經(jīng)一卡難求了，這也算一個(gè)意外收獲。

三、端到端自動(dòng)駕駛的挑戰(zhàn)

從特斯拉的開(kāi)發(fā)經(jīng)驗(yàn)來(lái)看，端到端自動(dòng)駕駛真不是一般的企業(yè)能玩的，其所需的數(shù)據(jù)規(guī)模、算力規(guī)模遠(yuǎn)遠(yuǎn)超出國(guó)內(nèi)企業(yè)的承受能力。除了成本高昂，端到端自動(dòng)駕駛的技術(shù)難度也非常高，想要從實(shí)現(xiàn)從paper到product落地，相當(dāng)于跨越從二踢腳到登月的難度。

·數(shù)據(jù)難題

端到端訓(xùn)練首先需要解決數(shù)據(jù)問(wèn)題。早年自動(dòng)駕駛企業(yè)大多依賴(lài)采集車(chē)采集數(shù)據(jù)，這種數(shù)據(jù)是不真實(shí)的、分布有偏的、低質(zhì)量的，只能做個(gè)demo，難以進(jìn)行大規(guī)模端到端訓(xùn)練。最近幾年，隨著量產(chǎn)車(chē)的規(guī)�；涞�，業(yè)界很多公司都開(kāi)始轉(zhuǎn)向采用量產(chǎn)車(chē)通過(guò)影子模式采集數(shù)據(jù)，但這種模式依然面臨艱巨的挑戰(zhàn)。首先是采集策略問(wèn)題，即如何平衡數(shù)據(jù)的長(zhǎng)尾問(wèn)題（有效性）和數(shù)據(jù)的規(guī)模問(wèn)題（成本），如果采集策略比較寬松，我們往往發(fā)現(xiàn)采集回來(lái)的數(shù)據(jù)大部分是垃圾數(shù)據(jù)，根本沒(méi)有使用價(jià)值，如果采集策略過(guò)于嚴(yán)格，又擔(dān)心丟失大量有價(jià)值的數(shù)據(jù)。其次是數(shù)據(jù)的質(zhì)量問(wèn)題，如何定義數(shù)據(jù)質(zhì)量是個(gè)艱巨的產(chǎn)品問(wèn)題，如何精準(zhǔn)地挑選出高質(zhì)量的數(shù)據(jù)又是一個(gè)復(fù)雜的技術(shù)問(wèn)題。然后是數(shù)據(jù)分布問(wèn)題，如何從海量clips中提取有效的特征、如何統(tǒng)計(jì)數(shù)據(jù)的分布、應(yīng)該考慮哪些維度，都需要大量的工作。對(duì)大部分自動(dòng)駕駛企業(yè)，還會(huì)面臨嚴(yán)重的數(shù)據(jù)泛化問(wèn)題，因?yàn)椴煌能?chē)型傳感器配置差異巨大，采集的數(shù)據(jù)往往難以復(fù)用，而國(guó)內(nèi)車(chē)企普遍車(chē)型眾多，最后很可能是采了一堆數(shù)據(jù)放在那沒(méi)法使用，看起來(lái)是數(shù)據(jù)資產(chǎn)，其實(shí)都是存儲(chǔ)成本。毫不夸張地說(shuō)，數(shù)據(jù)會(huì)占據(jù)端到端自動(dòng)駕駛開(kāi)發(fā)中80%以上的研發(fā)成本。

·算力難題

在美國(guó)多輪制裁之下，國(guó)內(nèi)采購(gòu)GPU難上加難，大部分企業(yè)手里擁有的算力資源非常有限，擁有超過(guò)1000張A100的企業(yè)寥寥無(wú)幾，甚至全國(guó)加起來(lái)都沒(méi)有特斯拉一家企業(yè)多。如何在算力受限的情況下，進(jìn)行端到端自動(dòng)駕駛的研發(fā)，是一個(gè)值得深入討論的問(wèn)題。

·算法難題

即使有了數(shù)據(jù)、有了算力，如何設(shè)計(jì)合適的自動(dòng)駕駛算法來(lái)進(jìn)行端到端訓(xùn)練，依然沒(méi)有統(tǒng)一的答案。業(yè)界做過(guò)很多的嘗試，包括模仿學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等等。模仿學(xué)習(xí)是模仿人類(lèi)專(zhuān)家的行為，從中學(xué)習(xí)最優(yōu)策略，例如可以挑選一批高質(zhì)量的駕駛行為數(shù)據(jù)來(lái)訓(xùn)練模型。強(qiáng)化學(xué)習(xí)則是通過(guò)與環(huán)境的交互和獎(jiǎng)罰不斷試錯(cuò)進(jìn)行學(xué)習(xí)，可以設(shè)定一個(gè)獎(jiǎng)勵(lì)機(jī)制，例如更少的碰撞、更高的效率等，在仿真環(huán)境里進(jìn)行大規(guī)模試錯(cuò)。

·驗(yàn)證難題

端到端自動(dòng)駕駛的評(píng)估也是一個(gè)十分困難的問(wèn)題。自動(dòng)駕駛測(cè)評(píng)分為2類(lèi)：閉環(huán)評(píng)估和開(kāi)環(huán)評(píng)估，主要區(qū)別在于閉環(huán)評(píng)估可以接受到反饋信號(hào)從而形成反饋閉環(huán)。開(kāi)環(huán)評(píng)估可以對(duì)不同的任務(wù)通過(guò)輸入輸出來(lái)進(jìn)行評(píng)估，例如單獨(dú)評(píng)估感知、預(yù)測(cè)、規(guī)劃的效果，并與真實(shí)數(shù)據(jù)或者標(biāo)注數(shù)據(jù)進(jìn)行對(duì)比，傳統(tǒng)的自動(dòng)駕駛可以通過(guò)開(kāi)環(huán)評(píng)估迭代。而端到端自動(dòng)駕駛則難以進(jìn)行開(kāi)環(huán)評(píng)估，甚至也有人認(rèn)為開(kāi)環(huán)評(píng)估的端到端自動(dòng)駕駛根本沒(méi)有意義。閉環(huán)評(píng)估一般通過(guò)在仿真引擎構(gòu)建的虛擬世界里建立反饋閉環(huán)，但是仿真不真是業(yè)界一大難題，很難推廣到現(xiàn)實(shí)世界中的各種場(chǎng)景。例如在接近大貨車(chē)時(shí)，即使自動(dòng)駕駛能完美地通過(guò)，乘客往往也會(huì)有嚴(yán)重的恐慌心理，這種心理很難模擬。而如果采用實(shí)車(chē)閉環(huán)測(cè)評(píng)，一方面測(cè)評(píng)成本太高，另一方面危險(xiǎn)場(chǎng)景的hard case使用實(shí)車(chē)測(cè)評(píng)危險(xiǎn)太大。

·可解釋性難題

如前文所述，可解釋性是端到端自動(dòng)駕駛的一個(gè)弱點(diǎn)。尤其是對(duì)于單模塊端到端自動(dòng)駕駛模型，實(shí)現(xiàn)可解釋性極為困難，雖然可以將注意力權(quán)重可視化來(lái)提供部分解釋性，但可靠性和實(shí)用性仍然十分有限，難以對(duì)事故、售后定責(zé)等問(wèn)題給出有效的證據(jù)。對(duì)于分模塊的端到端系統(tǒng)，雖然可以將中間結(jié)果拋出以提供更多的信息，但是這種信息往往是神經(jīng)網(wǎng)絡(luò)的隱層特征，跟直觀的、真實(shí)的證據(jù)鏈還是有一定的差距，難以跟客戶解釋清楚。

·上車(chē)難題

終于在云端完成了端到端自動(dòng)駕駛的訓(xùn)練了，仿真效果也很好，最后是如何把這套系統(tǒng)搬到車(chē)上并且高效的運(yùn)行。云端系統(tǒng)為了處理數(shù)以百萬(wàn)計(jì)的clips，一般都采用復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)、巨大的網(wǎng)絡(luò)參數(shù)（高達(dá)10億甚至更多），再用成千上萬(wàn)張A100進(jìn)行訓(xùn)練。但是車(chē)端往往只有非常低的算力、非常低的功耗，卻要求極高的幀率（每秒處理的圖片數(shù)量）、極低的延遲，這導(dǎo)致端到端自動(dòng)駕駛上車(chē)十分困難，只有經(jīng)過(guò)大規(guī)模的量化剪枝等提效手段之后才有可能。

這些最難的部分，特斯拉還沒(méi)公開(kāi)談過(guò)是如何解決的。今年的特斯拉AI Day，大家可以期待一下特斯拉的端到端如何破解以上難題。在這之前，筆者談一下毫末是如何做的。

四、自動(dòng)駕駛端到端的探索

為了降低訓(xùn)練難度，毫末考慮將端到端大模型進(jìn)行拆分，分為2個(gè)階段，一個(gè)階段解決感知問(wèn)題（看懂世界），一個(gè)階段解決認(rèn)知問(wèn)題（駕駛決策），這樣做的好處有2個(gè)：

1.可以先獨(dú)立訓(xùn)練，再進(jìn)行聯(lián)合finetue，降低訓(xùn)練難度；

2.不同的階段可以采用不同的數(shù)據(jù)，大幅降低數(shù)據(jù)成本。

在感知階段，主要任務(wù)是把視覺(jué)信號(hào)轉(zhuǎn)為感知結(jié)果，可以利用海量的帶高清視頻的采集數(shù)據(jù)和量產(chǎn)車(chē)回傳的各類(lèi)corner case視頻來(lái)訓(xùn)練。而在認(rèn)知階段，則根據(jù)感知結(jié)果來(lái)進(jìn)行駕駛決策，不需要輸入視頻，只需要輸入感知結(jié)果和駕駛行為即可，這種數(shù)據(jù)可以通過(guò)量產(chǎn)車(chē)進(jìn)行大規(guī)模定向采集。通過(guò)這種拆解，既降低了任務(wù)的難度，又能充分利用不同的數(shù)據(jù)。

對(duì)于感知大模型，毫末從第一性原理出發(fā)，認(rèn)為要實(shí)現(xiàn)端到端自動(dòng)駕駛，感知就必須跟人類(lèi)一樣，同時(shí)具備識(shí)別二維紋理和三維結(jié)構(gòu)、認(rèn)識(shí)萬(wàn)物這三個(gè)條件，并且最好是純視覺(jué)的�；谶@樣的原則，我們建立了自監(jiān)督感知大模型，將車(chē)載攝像頭的二維視頻數(shù)據(jù)進(jìn)行編碼，然后通過(guò)NeRF渲染來(lái)預(yù)測(cè)視頻的下一幀圖像，構(gòu)建了4D特征空間。再通過(guò)多模態(tài)技術(shù)將視覺(jué)信號(hào)與文本信號(hào)對(duì)齊，實(shí)現(xiàn)識(shí)別萬(wàn)物。

對(duì)于認(rèn)知大模型，輸入的是感知結(jié)果、輸出的是駕駛決策，由于感知結(jié)果和駕駛決策都是結(jié)構(gòu)化文本，其處理的都是文本符號(hào)，我們自然而然地想到了引入NLP相關(guān)的技術(shù)。

在2023年之前，BERT模型在互聯(lián)網(wǎng)領(lǐng)域取得了非常成功的應(yīng)用，于是我們嘗試將BERT類(lèi)的掩碼模型引入自動(dòng)駕駛認(rèn)知模型，通過(guò)量產(chǎn)車(chē)回傳海量的<感知結(jié)果、司機(jī)動(dòng)作>數(shù)據(jù)對(duì)。這樣輸入歷史10秒的<感知結(jié)果、司機(jī)動(dòng)作>、再用掩碼蓋住未來(lái)幾秒的司機(jī)駕駛動(dòng)作，然后讓模型來(lái)預(yù)測(cè)駕駛動(dòng)作，如果模型預(yù)測(cè)對(duì)了，就說(shuō)明模型學(xué)會(huì)了開(kāi)車(chē)，我們稱(chēng)之為完形填空。

但是訓(xùn)練效果并沒(méi)有達(dá)到預(yù)期，分析后發(fā)現(xiàn)，與NLP任務(wù)完全不同，NLP通過(guò)mask部分單詞，然后結(jié)合上下文可以把詞猜出來(lái)，確實(shí)是完形填空。但是自動(dòng)駕駛場(chǎng)景下，mask歷史動(dòng)作是毫無(wú)意義的，只能mask未來(lái)動(dòng)作，即只有上文沒(méi)有下文，這其實(shí)是寫(xiě)作文，大家都知道寫(xiě)作文的難度比完形填空高太多了。

而且，人類(lèi)駕駛汽車(chē)不僅依賴(lài)歷史感知結(jié)果，還更多的依賴(lài)對(duì)未來(lái)的預(yù)判，老司機(jī)往往對(duì)未來(lái)幾秒的交通環(huán)境有非常好的預(yù)判，例如隔壁車(chē)道的車(chē)會(huì)不會(huì)突然變道、路邊的行人會(huì)不會(huì)橫穿馬路等。基于這種預(yù)判，老司機(jī)再采取合理的駕駛動(dòng)作。這種預(yù)判，從模型上講就是一種生成式模型。于是我們將算法調(diào)整為GPT生成式模型，將歷史感知結(jié)果使用BEV方式表達(dá)出來(lái)，再將BEV序列輸入模型，讓模型預(yù)測(cè)幾秒鐘之后未來(lái)世界可能發(fā)生的變化，這樣就構(gòu)建一個(gè)自回歸的生成式模型，如下圖所示：

然后，將感知和認(rèn)識(shí)進(jìn)行聯(lián)合訓(xùn)練就可以實(shí)現(xiàn)端到端自動(dòng)駕駛了。但是，我們發(fā)現(xiàn)僅通過(guò)這種方式進(jìn)行訓(xùn)練，想要達(dá)到非常好的駕駛效果，需要的數(shù)據(jù)規(guī)模、算力規(guī)模都極為龐大，我們根本無(wú)法承受。

例如，在傳統(tǒng)的分任務(wù)自動(dòng)駕駛范式下，感知算法識(shí)別塑料袋后，可以人為設(shè)計(jì)一個(gè)塑料袋可以壓過(guò)去的駕駛策略，這樣訓(xùn)練成本很低，但是在端到端范式下想要讓自動(dòng)駕駛識(shí)別塑料袋并學(xué)習(xí)到塑料袋是可以壓過(guò)去，需要大量數(shù)據(jù)進(jìn)行訓(xùn)練，成本極高，這也是特斯拉手握數(shù)萬(wàn)卡的原因之一。

塑料袋、泡沫等軟性材質(zhì)是可以壓過(guò)去的、交警的手勢(shì)優(yōu)先級(jí)是高于紅綠燈的、救護(hù)車(chē)是要避讓的，這些其實(shí)都屬于人類(lèi)社會(huì)的世界知識(shí)，這些知識(shí)都是人類(lèi)經(jīng)過(guò)長(zhǎng)期學(xué)習(xí)之后獲得的。

傳統(tǒng)的基于人工策略的自動(dòng)駕駛成本很低，就是因?yàn)橥ㄟ^(guò)人工策略直接把人類(lèi)社會(huì)積累的知識(shí)用在了自動(dòng)駕駛上，省去了訓(xùn)練成本。但是駕駛知識(shí)包羅萬(wàn)象，如果要基于人類(lèi)知識(shí)為世間萬(wàn)物定制各類(lèi)策略，也是一件不可能的事情。

那如何既能利用人類(lèi)社會(huì)沉淀的知識(shí)，又能降低端到端自動(dòng)駕駛的訓(xùn)練成本呢？考慮到大語(yǔ)言模型中壓縮了幾乎全人類(lèi)的知識(shí)，如果能將跟駕駛決策相關(guān)的知識(shí)提取出來(lái)，應(yīng)該能大幅度降低訓(xùn)練成本。

于是，毫末在端到端自動(dòng)駕駛中又引入了大語(yǔ)言模型，通過(guò)感知大模型識(shí)別萬(wàn)物后，將這些信息輸入LLM，通過(guò)LLM來(lái)提取世界知識(shí)，并作為輔助特征來(lái)指導(dǎo)駕駛決策。如圖所示，這個(gè)系統(tǒng)極為復(fù)雜，算力消耗非常大，目前還只能在云端運(yùn)行，未來(lái)幾年將加快向車(chē)端的落地。

五、未來(lái)趨勢(shì)

過(guò)去一年，大語(yǔ)言模型的發(fā)展思路給端到端自動(dòng)駕駛很多啟發(fā)，在模型、數(shù)據(jù)上都值得借鑒。

·大模型

在自然語(yǔ)言處理領(lǐng)域，Chatgpt作為基礎(chǔ)模型展示了極強(qiáng)的泛化能力。最近，學(xué)術(shù)界的研究在語(yǔ)言-視覺(jué)大模型上也取得了突破性進(jìn)展，這種基礎(chǔ)模型無(wú)疑會(huì)讓自動(dòng)駕駛?cè)缁⑻硪怼?/p>

特斯拉、Wayve等公司也提出將World Model作為自動(dòng)駕駛基礎(chǔ)模型的思路。World model是一種基于視頻來(lái)預(yù)測(cè)未來(lái)世界的模型，例如特斯拉的world model可以根據(jù)prompt給出的動(dòng)作來(lái)做出反饋，并生成未來(lái)的世界圖像，而且能保證多視角、時(shí)序的一致性。

·借助大語(yǔ)言模型LLM

大語(yǔ)言模型壓縮了人類(lèi)的大部分知識(shí)，當(dāng)然也包括駕駛知識(shí)�？梢酝ㄟ^(guò)與LLM進(jìn)行交互，提取駕駛常識(shí)。例如傳統(tǒng)的占用網(wǎng)絡(luò)，遇到前方一個(gè)大塑料袋時(shí)，往往會(huì)以為空間被占用，但是基于LLM，我們可以獲取塑料袋的物理知識(shí)，從而知道不必躲閃。通過(guò)這種方式，相當(dāng)于副駕坐了一位見(jiàn)多識(shí)廣的陪練，隨時(shí)可以告訴你遇到corner case應(yīng)該如何處理，但是通過(guò)語(yǔ)言模型指導(dǎo)自動(dòng)駕駛依舊風(fēng)險(xiǎn)巨大，因?yàn)長(zhǎng)LM提供的答案幻覺(jué)十分嚴(yán)重。

·數(shù)據(jù)生成

端到端自動(dòng)駕駛可以說(shuō)是數(shù)據(jù)為王，為了解決長(zhǎng)尾數(shù)據(jù)問(wèn)題，業(yè)界也在嘗試用AIGC技術(shù)構(gòu)造數(shù)據(jù)。面對(duì)一個(gè)尚未解決的問(wèn)題，如果現(xiàn)實(shí)環(huán)境難以采集到類(lèi)似的數(shù)據(jù)，例如車(chē)禍，可以考慮使用AIGC技術(shù)來(lái)定向生成類(lèi)似場(chǎng)景的數(shù)據(jù)，來(lái)快速提升效果。也可以使用仿真引擎來(lái)構(gòu)造類(lèi)似的場(chǎng)景，生成數(shù)據(jù)。

·Zeroshot/fewshot learning

然而，不管數(shù)據(jù)規(guī)模有多大，自動(dòng)駕駛模型始終都會(huì)遇到超出數(shù)據(jù)分布的場(chǎng)景，每次遇到問(wèn)題都去找數(shù)據(jù)來(lái)訓(xùn)模型顯然不夠優(yōu)雅，最好的方式是自動(dòng)駕駛模型具備足夠的泛化能力，只需要少量樣本，甚至不需要樣本就能解決這種分布之外的場(chǎng)景。大模型的出現(xiàn)，讓這種能力成為可能。

長(zhǎng)期來(lái)看，縱然各種挑戰(zhàn)仍在，但筆者相信，端到端自動(dòng)駕駛是未來(lái)最有希望實(shí)現(xiàn)無(wú)人駕駛的途徑之一，大模型將對(duì)自動(dòng)駕駛的技術(shù)發(fā)展產(chǎn)生深度影響。

原文標(biāo)題 : 自動(dòng)駕駛革命：解密端到端背后的數(shù)據(jù)、算力和AI奇跡