国产日韩a欧美在线人成视频,国产精品YJizz视频网一二区,最近中文字幕完整版免费视频

自駕技術(shù)突破的第一刀，砍向自駕人

2024-06-24 16:41

在 2024 年 6 月 8 日的中國汽車重慶論壇上，理想汽車 CEO 李想發(fā)表演講時表示：“最近團(tuán)隊致力于自動駕駛技術(shù)的突破，他們曾思考這樣一個問題：人類開車為什么不涉及學(xué)習(xí) corner case？如果我們不能解決這個問題，所有自動駕駛團(tuán)隊每天干的活都是靠人工去調(diào)試各種各樣的 corner case，而且放的人越多，corner case 越多，和真正的自動駕駛就越遙遠(yuǎn)。”他接著說：“當(dāng)人工智能技術(shù)在不斷的發(fā)展的時候，我們會發(fā)現(xiàn)，其實人類開車的方式，不是過去那么多年里我們用的自動駕駛研發(fā)的一個方式。這是一個根本的不同。因為人開車沒那么辛苦，沒那么累，不需要養(yǎng)幾千人的團(tuán)隊去搞 corner case。”

聯(lián)想到最近理想汽車大規(guī)模裁員的動作，此番表態(tài)似乎是李想在為裁員做出回應(yīng)。過去，我和業(yè)內(nèi)朋友們討論自動駕駛技術(shù)對社會發(fā)展的價值時，往往會有朋友提出：“屆時大量出租車、網(wǎng)約車司機(jī)失業(yè)，帶來的社會影響怎么辦？”誰也沒想到，最先被自動駕駛技術(shù)優(yōu)化掉的，并不是司機(jī)們，反而是為自動駕駛技術(shù)的發(fā)展掉光一茬又一茬頭發(fā)的算法工程師們，堪稱 2024 年最佳地獄笑話了。李想所說的“自動駕駛技術(shù)的突破”，就是最近非常火熱的端到端自動駕駛技術(shù)。那么，什么是“端到端自動駕駛”？為什么端到端的到來，讓李想有這個底氣去大規(guī)模裁掉自動駕駛團(tuán)隊人員呢？本文將從以下幾個方面展開論述，看完這篇，你就理解為什么端到端讓李想認(rèn)為做自駕，不再需要那么多人了。

傳統(tǒng)的模塊化自動駕駛方案，以及其局限性

端到端是什么，是怎么實現(xiàn)的

端到端對自駕行業(yè)的影響端到端自動駕駛之前，我們是怎么做的要想理解什么是端到端自動駕駛，我們首先要思考，什么是“非端到端的自動駕駛”？非端到端的自動駕駛，我們這里稱為傳統(tǒng)的自動駕駛技術(shù)，一般稱作模塊化自動駕駛技術(shù)。也就是大家所熟知的，分為感知、定位、規(guī)劃、控制幾大模塊。感知模塊負(fù)責(zé)接收傳感器的信號，分析出傳感器探測到的物體是什么。感知模塊把這個信息傳遞給規(guī)劃模塊，規(guī)劃模塊做出判斷和決策后，將指令傳遞給控制模塊，再由控制模塊去執(zhí)行。自駕圈過去幾年的技術(shù)演進(jìn)，是無圖，還是重圖，是純視覺，還是雷達(dá)全家桶，其實都沒有脫離這個模塊化自動駕駛技術(shù)。

比如說，純視覺好還是上激光雷達(dá)更好？技術(shù)上的分歧點在于，純視覺夠不夠感知到所有物體？需不需要使用激光雷達(dá)去輔助感知？過去幾年，我們自動駕駛相關(guān)技術(shù)的發(fā)展，無論是激光雷達(dá)，還是所謂的 4D 毫米波雷達(dá)，還是雙目攝像頭，其實都是在加強(qiáng)這個感知模塊。硬件的感知能力加強(qiáng)了，但機(jī)器本身，他只知道那里有東西，并不能識別那個東西，需要人為去給機(jī)器定義。通俗地解釋，就是我們給機(jī)器去設(shè)定好一個規(guī)則，去告訴機(jī)器，有這些特征參數(shù)的，是 A 物體，有那些特征參數(shù)的，是 B 物體。

這就是感知算法工程師的工作。在端到端到來之前，我們加強(qiáng)機(jī)器感知能力的方法，都是通過打補(bǔ)丁的方式，不斷地去增加規(guī)則。比如特斯拉，放棄了激光雷達(dá)，僅靠純視覺去識別物體。帶來的問題是，只有標(biāo)注過的、見過的物體，機(jī)器能夠識別。一棵樹，長在路邊，橫在路中間，豎在路中間，我們?nèi)祟惗伎梢砸谎壅J(rèn)出來那是一棵樹。但如果只標(biāo)注過長在路邊的樹，對于橫在路中間的樹，機(jī)器可能就識別不出來了。比如，2020 年臺灣的一名特斯拉車主黃先生啟用 Autopilot 時，就撞上了一輛側(cè)翻的白色卡車。對機(jī)器來說，行駛的卡車、停著的卡車，都能識別出來，但是側(cè)翻的卡車，以前沒人給標(biāo)注過啊。

算法工程師當(dāng)然可以很快打上補(bǔ)丁，告訴機(jī)器這是側(cè)翻的卡車，下次遇到了要提前避讓。但是，下次再遇到四腳朝天的卡車呢？或者側(cè)翻的轎車、泥頭車、靈車？算法工程師們，不可能把所有的 corner case 都窮舉完，總有更加奇葩的案例會發(fā)生，總不可能每展現(xiàn)一次 corner case，就要消耗一名特斯拉車主吧？所以，特斯拉在 2022 年的 AI DAY 上，分享了一個重要的技術(shù)，occupancy network，被稱作是下一代的感知范式。

這里通俗地解釋一下 occupancy：把汽車周圍的空間劃分成許多小格子，每個格子都有自己的位置和標(biāo)記。標(biāo)記分為兩種狀態(tài)，被占用和空閑。如果一個格子是被占用的狀態(tài)，那就意味著這個格子的空間是有物體的。隨著汽車的移動，不斷地通過傳感器去更新這些格子的狀態(tài)。這么一來，機(jī)器就可以建模任意形狀的物體和任意形式的物體運(yùn)動，不再依賴通過人工標(biāo)注的方式去讓機(jī)器學(xué)習(xí)。看起來，特斯拉的 occupancy network 已經(jīng)完美解決了如何感知了，對不對？但是 occupancy 依然有局限性。

比如車前面飄過去一個塑料袋，或者一片落葉，人類駕駛員可以輕松判斷做出無視的決策，但機(jī)器會把它識別成障礙物。那怎么辦？還是打補(bǔ)丁，告訴機(jī)器，有這些特征的是塑料袋，是落葉，可以無視。這就又回到了上面的問題，自然界的規(guī)則是無窮無盡的，永遠(yuǎn)都會有還沒考慮到的 corner case。上面說了這么多，還只是感知模塊的問題。規(guī)劃和決策模塊，這里面的規(guī)則就更復(fù)雜了。傳統(tǒng)自動駕駛技術(shù)下的規(guī)控算法，一般被稱為 rule-based 算法。

我們通俗地去理解，就是 if A then B，else C。當(dāng)然，規(guī)控算法本身是非常非常復(fù)雜的，不是簡單的 if else 語句，這里只是方便非工程專業(yè)的讀者理解。規(guī)控這里面的算法所遇到的 Corner Case，就更多更復(fù)雜了。我們的算法工程師去定義規(guī)控規(guī)則的時候，還是要基于我們設(shè)想的場景，去告訴機(jī)器，這個場景下要怎么做。比如通過識別車道線、識別交通標(biāo)識，以及車道與車道之間的連接關(guān)系，告訴車輛此時應(yīng)該直行、左轉(zhuǎn)還是右轉(zhuǎn)。那么問題來了，現(xiàn)實世界中，周邊除了那些靜止的環(huán)境要素，還有大量的動態(tài)環(huán)境要素。比如直行的時候，突然旁邊有輛車切入�；蛘呔G燈過路口的時候，突然有個外賣小哥闖紅燈橫穿過來。

簡單通俗地去理解，就是每一個場景，都需要一個 if else 去告訴機(jī)器該怎么做�，F(xiàn)在假設(shè)這么一個場景，路口有交警指揮交通，要求直行車輛全部右轉(zhuǎn)。這對于人類駕駛員來說，是一個再普通不過的場景，哪怕一個新手司機(jī)也能立刻判斷要怎么做。但自動駕駛汽車可能就不行了，因為規(guī)則告訴它，這是直行車道，且周圍沒有其他障礙物或者車輛干涉，此時應(yīng)該直行。如果算法要解決這個問題，怎么辦呢？首先要讓機(jī)器能夠識別交警。OK，我們給機(jī)器設(shè)定規(guī)則，穿天藍(lán)色衣服站在路口比劃手勢的，是交警，識別交警的手勢并做出對應(yīng)的路徑規(guī)劃。首先光是實現(xiàn)這一步識別，就非常非常麻煩……然后，某一年，交警換制服了，改成綠色了。又或者，某個特殊場景下，交警沒有穿制服，比如重大車禍現(xiàn)場，某個休假中的交警路過，臨時指揮交通。

又或者，不是交警，而是穿黃色衣服的路政工人指揮車輛離開前方路段。那繼續(xù)打補(bǔ)丁，告訴機(jī)器穿黃色衣服的人是路政，然后下次又遇到了美團(tuán)外賣小哥，又得告訴機(jī)器如何區(qū)分路政人員和美團(tuán)外賣�？偠灾�，規(guī)則是無窮無盡的，這里能拿出來舉例的，可能都已經(jīng)打上算法補(bǔ)丁了，還有更多更多的場景，可以非常非常奇葩，發(fā)生的概率非常低，沒有實際發(fā)生之前，人已經(jīng)沒有辦法提前設(shè)想出來了，自然也就沒辦法給機(jī)器設(shè)定規(guī)則。傳統(tǒng)的自動駕駛技術(shù)，越是常見的場景，算法就訓(xùn)練的越成熟。

所以早些年，大家看到做自動駕駛的公司如雨后春筍一般，一茬接一茬的冒出來。每家初創(chuàng)公司都可以很快在一些簡單場景下實現(xiàn)自動駕駛。融到錢以后，再去一點點研究 corner case，不斷地打補(bǔ)丁。然而，通過這種打補(bǔ)丁的方式，收益率是越來越低的。越往后，就需要投入越多的人力，去發(fā)現(xiàn)并解決一個 corner case。這也是為什么最近幾年，大家感覺大部分自駕公司似乎沒什么技術(shù)上的明顯突破，一直都在 L2+，L2+++，L2.9999。理論上來說，只要設(shè)定的規(guī)則足夠多，能夠把自然界 99.99999.....% 的場景都覆蓋到，那么通過這種模塊化的技術(shù)路線，自動駕駛也是可以實現(xiàn)的。

這種方式下，自然就需要非常龐大的研發(fā)團(tuán)隊。比如比亞迪就曾經(jīng)公布過，4000 人的智駕團(tuán)隊，每個月的工資要發(fā) 10 億。如此高昂且需要持續(xù)投入的成本，也就限制了自駕技術(shù)的發(fā)展。另外，模塊化的自動駕駛，由于感知、規(guī)劃、決策各個模塊是單獨開發(fā)和優(yōu)化的，系統(tǒng)的集成就變得非常復(fù)雜。不同模塊之間的信息傳遞存在誤差累計，進(jìn)而也會影響整體性能。最后，當(dāng)出現(xiàn)問題時，快速定位問題原因并給出解決方案也是一個難題。做感知的認(rèn)為是規(guī)控錯了，做規(guī)控的認(rèn)為是感知錯誤導(dǎo)致規(guī)控錯了。

這幾個問題比較技術(shù)，本篇就不展開來介紹了。端到端的自動駕駛是什么上面說了這么多，都是在解釋傳統(tǒng)自動駕駛發(fā)展中遇到的技術(shù)瓶頸。那么，端到端自動駕駛又是什么呢？與傳統(tǒng)的分模塊的思路不同，端到端自動駕駛以感知的傳感器數(shù)據(jù)為輸入，直接輸出車輛的控制指令，中間過程是個黑盒，由神經(jīng)網(wǎng)絡(luò)來完成，人類不參與其中的規(guī)則定義。端到端的概念本身其實提出較早，但由于決策過程無法追溯，一直沒有被用于工程實踐。

大模型的出現(xiàn)以及快速發(fā)展，給端到端自動駕駛帶來巨大轉(zhuǎn)機(jī)。特斯拉發(fā)布的 FSD 12，則是率先將端到端自動駕駛率先工程落地。端到端和chat gpt這類語言大模型并不是一回事，但是，他們在技術(shù)層面上的應(yīng)用原理是非常類似的。端到端自動駕駛和chat gpt都使用了深度學(xué)習(xí)技術(shù)，尤其是神經(jīng)網(wǎng)絡(luò)模型，來處理和生成數(shù)據(jù)。兩者都使用了大模型，都依賴大量的數(shù)據(jù)來訓(xùn)練模型。端到端自動駕駛從大量的駕駛案例中學(xué)習(xí)駕車的操作規(guī)律，chat gpt則是從文本中學(xué)習(xí)人類的語言規(guī)律。

為了方便理解，這里，首先解釋一下語言大模型的工作原理。在上世紀(jì) 50-60 年代，人工智能專家通過給機(jī)器定義語法規(guī)則，來實現(xiàn)讓機(jī)器按照語法輸出人類語言。這種方式跟傳統(tǒng)模塊化自動駕駛類似，本質(zhì)上都是人類給機(jī)器定義規(guī)則，機(jī)器去執(zhí)行規(guī)則。但是問題來了，人類輸出語言，其實并不是完全按照語法規(guī)則，語法規(guī)則只是對人類輸出的語言信息的規(guī)律總結(jié)。而機(jī)器本身并不能理解語言本身的含義。所以機(jī)器按照設(shè)定好的語法規(guī)則輸出的語言，可以是語法完全正確但是沒有任何意義，不承載任何信息的廢話。比如著名的語言學(xué)家 Charmsky 舉了一個例子：colorless green ideas sleep furiously，無色的綠色點子狂暴地睡覺。

這句話完全符合語法規(guī)則，但沒有任何意義，正常人類的對話不可能輸出這樣的句子。另外，人類本身也不會完全按照語法規(guī)則去輸出語言。比如每年網(wǎng)絡(luò)上層出不窮的熱梗：YYDS，絕絕子，尊嘟假嘟，姬霓太美……這些詞原本沒有任何意義，但是人們給它賦予了含義，懂這個梗的一看就能明白什么意思。語言的目的是傳遞信息，雖然有些梗很爛很惡俗，但確實傳遞了信息。上面兩個案例就說明，語法規(guī)則并不能完全定義人類語言。如果用定義語法規(guī)則的方式去告訴機(jī)器怎么輸出語言，那機(jī)器可能會輸出完全符合語法但毫無意義的語言，而且每次出現(xiàn)新的語法規(guī)則，就要給機(jī)器更新一個新的語法規(guī)則，這就太麻煩了。這和傳統(tǒng)自動駕駛算法去不斷加規(guī)則所遇到的瓶頸，是不是很像？那么 GPT 又是怎么做的呢？

GPT，全稱為“Generative Pre-trained Transformer”，是一種基于 Transformer 架構(gòu)的預(yù)訓(xùn)練語言模型。它本質(zhì)上是一種預(yù)測語言模型。我們把 GPT 想象成是一個超級過目不忘的學(xué)霸，GPT 本身并不能理解語言，它通過閱讀互聯(lián)網(wǎng)上無數(shù)的文本資料，包括小說、新聞、論壇帖子等，總結(jié)出了語言的規(guī)律，哪些詞經(jīng)常一起出現(xiàn)，句子怎么組織才自然。然后，GPT 預(yù)測文本中接下來可能出現(xiàn)的單詞。比如你給它一個句子的前半部分，它就能猜測后面可能跟著哪個詞。GPT 還能根據(jù)上下文理解詞義。比如“蘋果”這個詞，在不同的上下文中可能指的是水果，也可能是指科技公司。更通俗一點去理解，可以類比我們的聯(lián)想輸入法。輸入一個詞，后面會聯(lián)想出你可能想要輸入的下一個詞。這種聯(lián)想輸入法，其實就是一個最簡單的語義模型了。

聯(lián)想輸入法只能根據(jù)前面的一個或兩個詞語去預(yù)測下一個詞，而大模型預(yù)測下一個詞的信息，不僅僅是局限于前面一兩個詞，而是之前所有的內(nèi)容。大模型通過學(xué)習(xí)前面的詞，預(yù)測下一個詞，涉及詞匯向量和運(yùn)算。這，叫做統(tǒng)計語言模型。大模型通過閱讀大量人類的語言文本，就能從中找出語言的規(guī)律。

比如：他非常喜歡你，只因你太____。大模型通過大量閱讀總結(jié)的規(guī)律，首先學(xué)習(xí)到了，“太”這個副詞往往會接形容詞，所以大模型接話不會接“只因你太打籃球”，或者“你太唱跳 rap”，大模型通過語言規(guī)律的總結(jié)，知道這里應(yīng)該接一個表達(dá)情緒的形容詞。又通過總結(jié)規(guī)律發(fā)現(xiàn)，“喜歡”這個詞是正面情緒，往往會接褒義的詞，所以大模型也不會接“只因你太蠢”或“只因你太沮喪”。

最后，語言大模型大概率就會給出“只因你太美”。所以，通過大量的數(shù)據(jù)輸入訓(xùn)練后的大模型，就可以根據(jù)前面的內(nèi)容不斷往后面接詞。上面盡可能通俗簡化地講了語言大模型的工作原理。實際的語言模型當(dāng)然遠(yuǎn)遠(yuǎn)比上面描述的要復(fù)雜得多。那么，這跟端到端自動駕駛又有什么關(guān)系呢？跟訓(xùn)練語言大模型類似，從傳感器輸入開始，信號給到神經(jīng)網(wǎng)絡(luò)。人類不在神經(jīng)網(wǎng)絡(luò)中定義規(guī)則，不去告訴它應(yīng)該識別什么，應(yīng)該怎么做。我們只是把這個場景下，人類的操作給它看。就像語言大模型總結(jié)出語言規(guī)律一樣，AI 也能通過大量的素材，總結(jié)出，當(dāng)某一些特定的傳感器信號，或是像素群出現(xiàn)的時候，人類就會進(jìn)行一定的操作。

語言大模型用的訓(xùn)練數(shù)據(jù)是人類的文本，而端到端自動駕駛需要的訓(xùn)練數(shù)據(jù)，則是大量人類開車的視頻片段。這種訓(xùn)練方式，使得 AI 能夠像人類一樣思考。之前，特斯拉的FSD也是基于傳統(tǒng)的模塊自動駕駛方案，但是，特斯拉最新發(fā)布的FSD Beta v12 已經(jīng)率先采用并落地了端到端自動駕駛。特斯拉在此前的FSD多個版本中，通過純視覺感知方案，利用影子模式實時收集數(shù)據(jù)，已經(jīng)積累了大量數(shù)據(jù)用于訓(xùn)練模型。據(jù)媒體報道，特斯拉訓(xùn)練用到上千萬個視頻片段。

馬斯克在此前的試駕直播中表示，F(xiàn)SD Beta V12是有史以來第一個端到端AI自動駕駛系統(tǒng)（Full AI End-to-End），從頭到尾都是通過AI實現(xiàn)。我們沒有編程，沒有程序員寫一行代碼來識別道路、行人等概念，全部交給了神經(jīng)網(wǎng)絡(luò)自己思考。V12的C++代碼只有2000行，而V11有30萬行。也就是說，從傳統(tǒng)模塊化自動駕駛轉(zhuǎn)向端到端后，特斯拉的FSD所需要的代碼，僅僅不到原來的1%！既然不需要那么多代碼了，自然也就不需要那么多寫代碼的人了。這大概就是李想裁人的底氣。端到端自動駕駛的未來展望說了這么多，現(xiàn)在回到標(biāo)題。端到端，給自動駕駛行業(yè)帶來了什么？首先，是對從業(yè)者的影響。因為不再需要給 AI 制定規(guī)則了，自然也就不再需要那么多算法工程師。

就像chat gpt的出現(xiàn)，讓大量翻譯人員失業(yè)一樣，端到端的到來，也會取代大量基層算法工程師的職能。所以不僅僅是李想才有底氣大規(guī)模裁研發(fā)人員，后續(xù)其他做自駕的 OEM 或者自駕 tier 1可能都會跟進(jìn)。當(dāng)然，這并不是所有的算法工程師就都要下崗了。因為訓(xùn)練的數(shù)據(jù)量還不足以支撐端到端自動駕駛的直接落地，短期內(nèi)會有一個過渡期，即端到端實現(xiàn)自駕功能，但依然人為設(shè)定一套規(guī)則進(jìn)行兜底。其次，是對產(chǎn)業(yè)鏈的影響。我認(rèn)為，純視覺與雷達(dá)之爭可以休矣。純視覺方案一定大于雷達(dá)方案。攝像頭捕捉到的信息密度，是遠(yuǎn)遠(yuǎn)大于雷達(dá)的。雷達(dá)捕捉的信息強(qiáng)在精度。

設(shè)想這么一個場景，你開車在路上的時候，你的眼角余光看到路邊停著的車輛后邊冒出來一個腦袋在移動，有經(jīng)驗的司機(jī)可能就猜到這是有人準(zhǔn)備過馬路，只是身子被停在路邊的車輛擋住了，然后司機(jī)就會選擇減速觀察。神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到了這個規(guī)律，它會發(fā)現(xiàn)每次路邊靜止的車輛附近出現(xiàn)移動的像素點時，人類司機(jī)就會做出一些減速操作。這類場景，只有純視覺可以捕捉到全量的場景信息，并且讓 AI 總結(jié)出，視頻的最角落的幾個像素信息也會影響人類操作，進(jìn)而學(xué)習(xí)這個機(jī)制。而雷達(dá)就只能等這個人出現(xiàn)在車子面前，探測到實體后，做出剎車的動作。這就是自駕經(jīng)典難題“鬼探頭”。

但這并不是說以后自動駕駛就不需要雷達(dá)了。在性價比足夠高的情況下，可以加幾顆雷達(dá)去增加安全冗余，但端到端本身，并不需要雷達(dá)。所以，幾十塊錢的毫米波雷達(dá)，OEM 是不介意用幾顆的。但至今仍要 2-3000 一顆的激光雷達(dá)，唯一出路就是繼續(xù)卷價格，卷到價格低到 OEM 愿意接受它當(dāng)個備胎為止。目前，端到端本身還有一些局限性，比如訓(xùn)練數(shù)據(jù)不足，在某些場景下，其表現(xiàn)還不如原來模塊化自動駕駛。另外，可測試性，可解釋性等問題也是業(yè)內(nèi)人士爭論的焦點。本文不再展開。

結(jié)語大模型的興起改變了許多行業(yè)，也為沉寂多年的自動駕駛行業(yè)帶來了新的可能。特斯拉的 FSD V12 的率先落地，也讓大家更加堅信自動駕駛必將實現(xiàn)。那么，完全的自動駕駛是先有端到端實現(xiàn)？還是由模塊化技術(shù)方案實現(xiàn)？還是由兩者的結(jié)合呢？歡迎留言討論。

*未經(jīng)準(zhǔn)許嚴(yán)禁轉(zhuǎn)載和摘錄-參考資料：

原文標(biāo)題 : 自駕技術(shù)突破的第一刀，砍向自駕人