侵權(quán)投訴
訂閱
糾錯
加入自媒體

自駕技術(shù)突破的第一刀,砍向自駕人

在 2024 年 6 月 8 日的中國汽車重慶論壇上,理想汽車 CEO 李想發(fā)表演講時表示:“最近團(tuán)隊致力于自動駕駛技術(shù)的突破,他們曾思考這樣一個問題:人類開車為什么不涉及學(xué)習(xí) corner case?如果我們不能解決這個問題,所有自動駕駛團(tuán)隊每天干的活都是靠人工去調(diào)試各種各樣的 corner case,而且放的人越多,corner case 越多,和真正的自動駕駛就越遙遠(yuǎn)。”他接著說:“當(dāng)人工智能技術(shù)在不斷的發(fā)展的時候,我們會發(fā)現(xiàn),其實人類開車的方式,不是過去那么多年里我們用的自動駕駛研發(fā)的一個方式。這是一個根本的不同。因為人開車沒那么辛苦,沒那么累,不需要養(yǎng)幾千人的團(tuán)隊去搞 corner case。”

聯(lián)想到最近理想汽車大規(guī)模裁員的動作,此番表態(tài)似乎是李想在為裁員做出回應(yīng)。過去,我和業(yè)內(nèi)朋友們討論自動駕駛技術(shù)對社會發(fā)展的價值時,往往會有朋友提出:“屆時大量出租車、網(wǎng)約車司機(jī)失業(yè),帶來的社會影響怎么辦?”誰也沒想到,最先被自動駕駛技術(shù)優(yōu)化掉的,并不是司機(jī)們,反而是為自動駕駛技術(shù)的發(fā)展掉光一茬又一茬頭發(fā)的算法工程師們,堪稱 2024 年最佳地獄笑話了。李想所說的“自動駕駛技術(shù)的突破”,就是最近非常火熱的端到端自動駕駛技術(shù)。那么,什么是“端到端自動駕駛”?為什么端到端的到來,讓李想有這個底氣去大規(guī)模裁掉自動駕駛團(tuán)隊人員呢?本文將從以下幾個方面展開論述,看完這篇,你就理解為什么端到端讓李想認(rèn)為做自駕,不再需要那么多人了。

傳統(tǒng)的模塊化自動駕駛方案,以及其局限性

端到端是什么,是怎么實現(xiàn)的

端到端對自駕行業(yè)的影響端到端自動駕駛之前,我們是怎么做的要想理解什么是端到端自動駕駛,我們首先要思考,什么是“非端到端的自動駕駛”?非端到端的自動駕駛,我們這里稱為傳統(tǒng)的自動駕駛技術(shù),一般稱作模塊化自動駕駛技術(shù)。也就是大家所熟知的,分為感知、定位、規(guī)劃、控制幾大模塊。感知模塊負(fù)責(zé)接收傳感器的信號,分析出傳感器探測到的物體是什么。感知模塊把這個信息傳遞給規(guī)劃模塊,規(guī)劃模塊做出判斷和決策后,將指令傳遞給控制模塊,再由控制模塊去執(zhí)行。自駕圈過去幾年的技術(shù)演進(jìn),是無圖,還是重圖,是純視覺,還是雷達(dá)全家桶,其實都沒有脫離這個模塊化自動駕駛技術(shù)。

比如說,純視覺好還是上激光雷達(dá)更好?技術(shù)上的分歧點在于,純視覺夠不夠感知到所有物體?需不需要使用激光雷達(dá)去輔助感知?過去幾年,我們自動駕駛相關(guān)技術(shù)的發(fā)展,無論是激光雷達(dá),還是所謂的 4D 毫米波雷達(dá),還是雙目攝像頭,其實都是在加強(qiáng)這個感知模塊。硬件的感知能力加強(qiáng)了,但機(jī)器本身,他只知道那里有東西,并不能識別那個東西,需要人為去給機(jī)器定義。通俗地解釋,就是我們給機(jī)器去設(shè)定好一個規(guī)則,去告訴機(jī)器,有這些特征參數(shù)的,是 A 物體,有那些特征參數(shù)的,是 B 物體。

這就是感知算法工程師的工作。在端到端到來之前,我們加強(qiáng)機(jī)器感知能力的方法,都是通過打補(bǔ)丁的方式,不斷地去增加規(guī)則。比如特斯拉,放棄了激光雷達(dá),僅靠純視覺去識別物體。帶來的問題是,只有標(biāo)注過的、見過的物體,機(jī)器能夠識別。一棵樹,長在路邊,橫在路中間,豎在路中間,我們?nèi)祟惗伎梢砸谎壅J(rèn)出來那是一棵樹。但如果只標(biāo)注過長在路邊的樹,對于橫在路中間的樹,機(jī)器可能就識別不出來了。比如,2020 年臺灣的一名特斯拉車主黃先生啟用 Autopilot 時,就撞上了一輛側(cè)翻的白色卡車。對機(jī)器來說,行駛的卡車、停著的卡車,都能識別出來,但是側(cè)翻的卡車,以前沒人給標(biāo)注過啊。

算法工程師當(dāng)然可以很快打上補(bǔ)丁,告訴機(jī)器這是側(cè)翻的卡車,下次遇到了要提前避讓。但是,下次再遇到四腳朝天的卡車呢?或者側(cè)翻的轎車、泥頭車、靈車?算法工程師們,不可能把所有的 corner case 都窮舉完,總有更加奇葩的案例會發(fā)生,總不可能每展現(xiàn)一次 corner case,就要消耗一名特斯拉車主吧?所以,特斯拉在 2022 年的 AI DAY 上,分享了一個重要的技術(shù),occupancy network,被稱作是下一代的感知范式。

這里通俗地解釋一下 occupancy:把汽車周圍的空間劃分成許多小格子,每個格子都有自己的位置和標(biāo)記。標(biāo)記分為兩種狀態(tài),被占用和空閑。如果一個格子是被占用的狀態(tài),那就意味著這個格子的空間是有物體的。隨著汽車的移動,不斷地通過傳感器去更新這些格子的狀態(tài)。這么一來,機(jī)器就可以建模任意形狀的物體和任意形式的物體運(yùn)動,不再依賴通過人工標(biāo)注的方式去讓機(jī)器學(xué)習(xí)。看起來,特斯拉的 occupancy network 已經(jīng)完美解決了如何感知了,對不對?但是 occupancy 依然有局限性。

比如車前面飄過去一個塑料袋,或者一片落葉,人類駕駛員可以輕松判斷做出無視的決策,但機(jī)器會把它識別成障礙物。那怎么辦?還是打補(bǔ)丁,告訴機(jī)器,有這些特征的是塑料袋,是落葉,可以無視。這就又回到了上面的問題,自然界的規(guī)則是無窮無盡的,永遠(yuǎn)都會有還沒考慮到的 corner case。上面說了這么多,還只是感知模塊的問題。規(guī)劃和決策模塊,這里面的規(guī)則就更復(fù)雜了。傳統(tǒng)自動駕駛技術(shù)下的規(guī)控算法,一般被稱為 rule-based 算法。

我們通俗地去理解,就是 if A then B,else C。當(dāng)然,規(guī)控算法本身是非常非常復(fù)雜的,不是簡單的 if else 語句,這里只是方便非工程專業(yè)的讀者理解。規(guī)控這里面的算法所遇到的 Corner Case,就更多更復(fù)雜了。我們的算法工程師去定義規(guī)控規(guī)則的時候,還是要基于我們設(shè)想的場景,去告訴機(jī)器,這個場景下要怎么做。比如通過識別車道線、識別交通標(biāo)識,以及車道與車道之間的連接關(guān)系,告訴車輛此時應(yīng)該直行、左轉(zhuǎn)還是右轉(zhuǎn)。那么問題來了,現(xiàn)實世界中,周邊除了那些靜止的環(huán)境要素,還有大量的動態(tài)環(huán)境要素。比如直行的時候,突然旁邊有輛車切入;蛘呔G燈過路口的時候,突然有個外賣小哥闖紅燈橫穿過來。

簡單通俗地去理解,就是每一個場景,都需要一個 if else 去告訴機(jī)器該怎么做,F(xiàn)在假設(shè)這么一個場景,路口有交警指揮交通,要求直行車輛全部右轉(zhuǎn)。這對于人類駕駛員來說,是一個再普通不過的場景,哪怕一個新手司機(jī)也能立刻判斷要怎么做。但自動駕駛汽車可能就不行了,因為規(guī)則告訴它,這是直行車道,且周圍沒有其他障礙物或者車輛干涉,此時應(yīng)該直行。如果算法要解決這個問題,怎么辦呢?首先要讓機(jī)器能夠識別交警。OK,我們給機(jī)器設(shè)定規(guī)則,穿天藍(lán)色衣服站在路口比劃手勢的,是交警,識別交警的手勢并做出對應(yīng)的路徑規(guī)劃。首先光是實現(xiàn)這一步識別,就非常非常麻煩……然后,某一年,交警換制服了,改成綠色了。又或者,某個特殊場景下,交警沒有穿制服,比如重大車禍現(xiàn)場,某個休假中的交警路過,臨時指揮交通。

又或者,不是交警,而是穿黃色衣服的路政工人指揮車輛離開前方路段。那繼續(xù)打補(bǔ)丁,告訴機(jī)器穿黃色衣服的人是路政,然后下次又遇到了美團(tuán)外賣小哥,又得告訴機(jī)器如何區(qū)分路政人員和美團(tuán)外賣?偠灾,規(guī)則是無窮無盡的,這里能拿出來舉例的,可能都已經(jīng)打上算法補(bǔ)丁了,還有更多更多的場景,可以非常非常奇葩,發(fā)生的概率非常低,沒有實際發(fā)生之前,人已經(jīng)沒有辦法提前設(shè)想出來了,自然也就沒辦法給機(jī)器設(shè)定規(guī)則。傳統(tǒng)的自動駕駛技術(shù),越是常見的場景,算法就訓(xùn)練的越成熟。

所以早些年,大家看到做自動駕駛的公司如雨后春筍一般,一茬接一茬的冒出來。每家初創(chuàng)公司都可以很快在一些簡單場景下實現(xiàn)自動駕駛。融到錢以后,再去一點點研究 corner case,不斷地打補(bǔ)丁。然而,通過這種打補(bǔ)丁的方式,收益率是越來越低的。越往后,就需要投入越多的人力,去發(fā)現(xiàn)并解決一個 corner case。這也是為什么最近幾年,大家感覺大部分自駕公司似乎沒什么技術(shù)上的明顯突破,一直都在 L2+,L2+++,L2.9999。理論上來說,只要設(shè)定的規(guī)則足夠多,能夠把自然界 99.99999.....% 的場景都覆蓋到,那么通過這種模塊化的技術(shù)路線,自動駕駛也是可以實現(xiàn)的。

這種方式下,自然就需要非常龐大的研發(fā)團(tuán)隊。比如比亞迪就曾經(jīng)公布過,4000 人的智駕團(tuán)隊,每個月的工資要發(fā) 10 億。如此高昂且需要持續(xù)投入的成本,也就限制了自駕技術(shù)的發(fā)展。另外,模塊化的自動駕駛,由于感知、規(guī)劃、決策各個模塊是單獨開發(fā)和優(yōu)化的,系統(tǒng)的集成就變得非常復(fù)雜。不同模塊之間的信息傳遞存在誤差累計,進(jìn)而也會影響整體性能。最后,當(dāng)出現(xiàn)問題時,快速定位問題原因并給出解決方案也是一個難題。做感知的認(rèn)為是規(guī)控錯了,做規(guī)控的認(rèn)為是感知錯誤導(dǎo)致規(guī)控錯了。

這幾個問題比較技術(shù),本篇就不展開來介紹了。端到端的自動駕駛是什么上面說了這么多,都是在解釋傳統(tǒng)自動駕駛發(fā)展中遇到的技術(shù)瓶頸。那么,端到端自動駕駛又是什么呢?與傳統(tǒng)的分模塊的思路不同,端到端自動駕駛以感知的傳感器數(shù)據(jù)為輸入,直接輸出車輛的控制指令,中間過程是個黑盒,由神經(jīng)網(wǎng)絡(luò)來完成,人類不參與其中的規(guī)則定義。端到端的概念本身其實提出較早,但由于決策過程無法追溯,一直沒有被用于工程實踐。

大模型的出現(xiàn)以及快速發(fā)展,給端到端自動駕駛帶來巨大轉(zhuǎn)機(jī)。特斯拉發(fā)布的 FSD 12,則是率先將端到端自動駕駛率先工程落地。端到端和chat gpt這類語言大模型并不是一回事,但是,他們在技術(shù)層面上的應(yīng)用原理是非常類似的。端到端自動駕駛和chat gpt都使用了深度學(xué)習(xí)技術(shù),尤其是神經(jīng)網(wǎng)絡(luò)模型,來處理和生成數(shù)據(jù)。兩者都使用了大模型,都依賴大量的數(shù)據(jù)來訓(xùn)練模型。端到端自動駕駛從大量的駕駛案例中學(xué)習(xí)駕車的操作規(guī)律,chat gpt則是從文本中學(xué)習(xí)人類的語言規(guī)律。

為了方便理解,這里,首先解釋一下語言大模型的工作原理。在上世紀(jì) 50-60 年代,人工智能專家通過給機(jī)器定義語法規(guī)則,來實現(xiàn)讓機(jī)器按照語法輸出人類語言。這種方式跟傳統(tǒng)模塊化自動駕駛類似,本質(zhì)上都是人類給機(jī)器定義規(guī)則,機(jī)器去執(zhí)行規(guī)則。但是問題來了,人類輸出語言,其實并不是完全按照語法規(guī)則,語法規(guī)則只是對人類輸出的語言信息的規(guī)律總結(jié)。而機(jī)器本身并不能理解語言本身的含義。所以機(jī)器按照設(shè)定好的語法規(guī)則輸出的語言,可以是語法完全正確但是沒有任何意義,不承載任何信息的廢話。比如著名的語言學(xué)家 Charmsky 舉了一個例子:colorless green ideas sleep furiously,無色的綠色點子狂暴地睡覺。

這句話完全符合語法規(guī)則,但沒有任何意義,正常人類的對話不可能輸出這樣的句子。另外,人類本身也不會完全按照語法規(guī)則去輸出語言。比如每年網(wǎng)絡(luò)上層出不窮的熱梗:YYDS,絕絕子,尊嘟假嘟,姬霓太美……這些詞原本沒有任何意義,但是人們給它賦予了含義,懂這個梗的一看就能明白什么意思。語言的目的是傳遞信息,雖然有些梗很爛很惡俗,但確實傳遞了信息。上面兩個案例就說明,語法規(guī)則并不能完全定義人類語言。如果用定義語法規(guī)則的方式去告訴機(jī)器怎么輸出語言,那機(jī)器可能會輸出完全符合語法但毫無意義的語言,而且每次出現(xiàn)新的語法規(guī)則,就要給機(jī)器更新一個新的語法規(guī)則,這就太麻煩了。這和傳統(tǒng)自動駕駛算法去不斷加規(guī)則所遇到的瓶頸,是不是很像?那么 GPT 又是怎么做的呢?

GPT,全稱為“Generative Pre-trained Transformer”,是一種基于 Transformer 架構(gòu)的預(yù)訓(xùn)練語言模型。它本質(zhì)上是一種預(yù)測語言模型。我們把 GPT 想象成是一個超級過目不忘的學(xué)霸,GPT 本身并不能理解語言,它通過閱讀互聯(lián)網(wǎng)上無數(shù)的文本資料,包括小說、新聞、論壇帖子等,總結(jié)出了語言的規(guī)律,哪些詞經(jīng)常一起出現(xiàn),句子怎么組織才自然。然后,GPT 預(yù)測文本中接下來可能出現(xiàn)的單詞。比如你給它一個句子的前半部分,它就能猜測后面可能跟著哪個詞。GPT 還能根據(jù)上下文理解詞義。比如“蘋果”這個詞,在不同的上下文中可能指的是水果,也可能是指科技公司。更通俗一點去理解,可以類比我們的聯(lián)想輸入法。輸入一個詞,后面會聯(lián)想出你可能想要輸入的下一個詞。這種聯(lián)想輸入法,其實就是一個最簡單的語義模型了。

聯(lián)想輸入法只能根據(jù)前面的一個或兩個詞語去預(yù)測下一個詞,而大模型預(yù)測下一個詞的信息,不僅僅是局限于前面一兩個詞,而是之前所有的內(nèi)容。大模型通過學(xué)習(xí)前面的詞,預(yù)測下一個詞,涉及詞匯向量和運(yùn)算。這,叫做統(tǒng)計語言模型。大模型通過閱讀大量人類的語言文本,就能從中找出語言的規(guī)律。

比如:他非常喜歡你,只因你太____。大模型通過大量閱讀總結(jié)的規(guī)律,首先學(xué)習(xí)到了,“太”這個副詞往往會接形容詞,所以大模型接話不會接“只因你太打籃球”,或者“你太唱跳 rap”,大模型通過語言規(guī)律的總結(jié),知道這里應(yīng)該接一個表達(dá)情緒的形容詞。又通過總結(jié)規(guī)律發(fā)現(xiàn),“喜歡”這個詞是正面情緒,往往會接褒義的詞,所以大模型也不會接“只因你太蠢”或“只因你太沮喪”。

最后,語言大模型大概率就會給出“只因你太美”。所以,通過大量的數(shù)據(jù)輸入訓(xùn)練后的大模型,就可以根據(jù)前面的內(nèi)容不斷往后面接詞。上面盡可能通俗簡化地講了語言大模型的工作原理。實際的語言模型當(dāng)然遠(yuǎn)遠(yuǎn)比上面描述的要復(fù)雜得多。那么,這跟端到端自動駕駛又有什么關(guān)系呢?跟訓(xùn)練語言大模型類似,從傳感器輸入開始,信號給到神經(jīng)網(wǎng)絡(luò)。人類不在神經(jīng)網(wǎng)絡(luò)中定義規(guī)則,不去告訴它應(yīng)該識別什么,應(yīng)該怎么做。我們只是把這個場景下,人類的操作給它看。就像語言大模型總結(jié)出語言規(guī)律一樣,AI 也能通過大量的素材,總結(jié)出,當(dāng)某一些特定的傳感器信號,或是像素群出現(xiàn)的時候,人類就會進(jìn)行一定的操作。

語言大模型用的訓(xùn)練數(shù)據(jù)是人類的文本,而端到端自動駕駛需要的訓(xùn)練數(shù)據(jù),則是大量人類開車的視頻片段這種訓(xùn)練方式,使得 AI 能夠像人類一樣思考。之前,特斯拉的FSD也是基于傳統(tǒng)的模塊自動駕駛方案,但是,特斯拉最新發(fā)布的FSD Beta v12 已經(jīng)率先采用并落地了端到端自動駕駛。特斯拉在此前的FSD多個版本中,通過純視覺感知方案,利用影子模式實時收集數(shù)據(jù),已經(jīng)積累了大量數(shù)據(jù)用于訓(xùn)練模型。據(jù)媒體報道,特斯拉訓(xùn)練用到上千萬個視頻片段。

馬斯克在此前的試駕直播中表示,F(xiàn)SD Beta V12是有史以來第一個端到端AI自動駕駛系統(tǒng)(Full AI End-to-End),從頭到尾都是通過AI實現(xiàn)。我們沒有編程,沒有程序員寫一行代碼來識別道路、行人等概念,全部交給了神經(jīng)網(wǎng)絡(luò)自己思考。V12的C++代碼只有2000行,而V11有30萬行也就是說,從傳統(tǒng)模塊化自動駕駛轉(zhuǎn)向端到端后,特斯拉的FSD所需要的代碼,僅僅不到原來的1%既然不需要那么多代碼了,自然也就不需要那么多寫代碼的人了。這大概就是李想裁人的底氣。端到端自動駕駛的未來展望說了這么多,現(xiàn)在回到標(biāo)題。端到端,給自動駕駛行業(yè)帶來了什么?首先,是對從業(yè)者的影響。因為不再需要給 AI 制定規(guī)則了,自然也就不再需要那么多算法工程師。

就像chat gpt的出現(xiàn),讓大量翻譯人員失業(yè)一樣,端到端的到來,也會取代大量基層算法工程師的職能。所以不僅僅是李想才有底氣大規(guī)模裁研發(fā)人員,后續(xù)其他做自駕的 OEM 或者自駕 tier 1可能都會跟進(jìn)。當(dāng)然,這并不是所有的算法工程師就都要下崗了。因為訓(xùn)練的數(shù)據(jù)量還不足以支撐端到端自動駕駛的直接落地,短期內(nèi)會有一個過渡期,即端到端實現(xiàn)自駕功能,但依然人為設(shè)定一套規(guī)則進(jìn)行兜底。其次,是對產(chǎn)業(yè)鏈的影響。我認(rèn)為,純視覺與雷達(dá)之爭可以休矣。純視覺方案一定大于雷達(dá)方案。攝像頭捕捉到的信息密度,是遠(yuǎn)遠(yuǎn)大于雷達(dá)的。雷達(dá)捕捉的信息強(qiáng)在精度。

設(shè)想這么一個場景,你開車在路上的時候,你的眼角余光看到路邊停著的車輛后邊冒出來一個腦袋在移動,有經(jīng)驗的司機(jī)可能就猜到這是有人準(zhǔn)備過馬路,只是身子被停在路邊的車輛擋住了,然后司機(jī)就會選擇減速觀察。神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到了這個規(guī)律,它會發(fā)現(xiàn)每次路邊靜止的車輛附近出現(xiàn)移動的像素點時,人類司機(jī)就會做出一些減速操作。這類場景,只有純視覺可以捕捉到全量的場景信息,并且讓 AI 總結(jié)出,視頻的最角落的幾個像素信息也會影響人類操作,進(jìn)而學(xué)習(xí)這個機(jī)制。而雷達(dá)就只能等這個人出現(xiàn)在車子面前,探測到實體后,做出剎車的動作。這就是自駕經(jīng)典難題“鬼探頭”。

但這并不是說以后自動駕駛就不需要雷達(dá)了。在性價比足夠高的情況下,可以加幾顆雷達(dá)去增加安全冗余,但端到端本身,并不需要雷達(dá)。所以,幾十塊錢的毫米波雷達(dá),OEM 是不介意用幾顆的。但至今仍要 2-3000 一顆的激光雷達(dá),唯一出路就是繼續(xù)卷價格,卷到價格低到 OEM 愿意接受它當(dāng)個備胎為止。目前,端到端本身還有一些局限性,比如訓(xùn)練數(shù)據(jù)不足,在某些場景下,其表現(xiàn)還不如原來模塊化自動駕駛。另外,可測試性,可解釋性等問題也是業(yè)內(nèi)人士爭論的焦點。本文不再展開。

結(jié)語大模型的興起改變了許多行業(yè),也為沉寂多年的自動駕駛行業(yè)帶來了新的可能。特斯拉的 FSD V12 的率先落地,也讓大家更加堅信自動駕駛必將實現(xiàn)。那么,完全的自動駕駛是先有端到端實現(xiàn)?還是由模塊化技術(shù)方案實現(xiàn)?還是由兩者的結(jié)合呢?歡迎留言討論。

*未經(jīng)準(zhǔn)許嚴(yán)禁轉(zhuǎn)載和摘錄-參考資料:

       原文標(biāo)題 : 自駕技術(shù)突破的第一刀,砍向自駕人

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

文章糾錯
x
*文字標(biāo)題:
*糾錯內(nèi)容:
聯(lián)系郵箱:
*驗 證 碼:

粵公網(wǎng)安備 44030502002758號