侵權(quán)投訴
訂閱
糾錯
加入自媒體

親歷中國智駕大戰(zhàn),吳新宙加入NVIDIA半年后首秀

‍作者 |張祥威

編輯 |德新

吳新宙近日現(xiàn)身NVIDIA GTC,這是其從小鵬汽車離開加入NVIDIA之后的首次公開亮相。

吳目前擔(dān)任NVIDIA汽車事業(yè)部副總裁,全面負責(zé)NVIDIA的車載計算產(chǎn)品線DRIVE平臺的產(chǎn)品定義以及工程落地工作。吳新宙最廣為人知的經(jīng)歷,是在中國市場與小鵬汽車一起打造彼時最強的智駕系統(tǒng),可以說是推動智駕量產(chǎn)數(shù)一數(shù)二的領(lǐng)軍人物。

在GTC的現(xiàn)場,吳新宙發(fā)表了題為《加速向AI定義汽車時代轉(zhuǎn)變》的演講,介紹了NVIDIA對于AI以及汽車變革的思考

汽車如何從軟件定義汽車向AI定義汽車轉(zhuǎn)變?

未來的自動駕駛技術(shù)棧如何變成端到端的范式?

如何真正打造能夠長時間連續(xù)決策的智能汽車?

在吳新宙看來,自動駕駛的研發(fā)重心將向云端轉(zhuǎn)移,隨著軟件定義汽車的成熟,以及要解決更多的Corner Case,自動駕駛會迎來新的開發(fā)范式。生成式AI和LLM,將有可能解決這些更復(fù)雜的問題,打造一個真正類人的高階自動駕駛技術(shù)棧。

以下是吳新宙在GTC上的演講,HiEV做了不改變原意的刪減:

一、三大趨勢重新定義汽車

歡迎大家參加NVIDIA GTC的DRIVE開發(fā)者日。

我是吳新宙,擔(dān)任NVIDIA汽車事業(yè)部副總裁。我是最近在6個月前加入的NVIDIA,負責(zé)整個汽車業(yè)務(wù)部門,主要職責(zé)是為Drive平臺制定產(chǎn)品定義,以及做好相應(yīng)的工程落地。

今天,我將談?wù)?strong>「AI定義汽車」,這一不可逆轉(zhuǎn)的未來趨勢,以及NVIDIA在這一領(lǐng)域正在做什么,從而加速向人工智能定義車輛的轉(zhuǎn)變。

按照議程,首先我將談一談我們的發(fā)展歷程,以及驅(qū)動下一波創(chuàng)新并將其應(yīng)用于AI定義汽車的主要因素是什么,之后是NVIDIA在這個領(lǐng)域做了什么。

過去十年的汽車行業(yè)發(fā)生著諸多令人驚嘆的變化,也許是百年汽車業(yè)未曾見過的。我認為,過去10年,三大趨勢對汽車行業(yè)進行了重新定義。

第一,電動化。為了建設(shè)一個更清潔、更環(huán)保的世界,汽車行業(yè)已經(jīng)采取措施引入越來越多的電動汽車。這里有一些數(shù)據(jù),我認為總體預(yù)測來看,到2030年在全球范圍內(nèi)的新能源滲透率將在20% - 30%之間。

但在中國,今年3月份的新能源車滲透率將超過50%,是一個令人印象深刻的里程碑。

第二,智能化。這一點也非常重要,基本上是為座艙和自動駕駛引入更智能的能力,本質(zhì)上是對人類出行的輔助。

我們都知道摩爾定律,Jensen也談到加速計算是如何定義摩爾定律。汽車行業(yè)很好地代表了這種,超級摩爾定律在過去十年中帶來了諸多迅速的變化。

就NVIDIA而言,我們的第一個產(chǎn)品是Tegra Parker,然后又推出了25 TOPS的Xavier。在那之前,市場上的產(chǎn)品都是2 TOPS級別。當(dāng)我們推出Orin X時,與Xavier相比,算力又擴大了10倍。

今天我將談?wù)勏乱淮脚_,也是最新一代的為汽車而生的超級計算機,大概是Orin X的4到5倍

我們每兩年都會看到,在汽車的計算需求尤其是自動駕駛方面,會有10倍的增長。

眾所周知,自動駕駛處于進行時,我有一些中國市場的經(jīng)驗。今天在中國,如果一輛車沒有一些先進的ADAS功能就很難賣出去。例如,像華為這樣的頭部品牌,選配與不選配高階智駕功能的比例,基本是4:1。

這說明,ADAS能幫人開車,緩解駕駛焦慮和疲勞,我認為這股浪潮最終會在全球范圍內(nèi)發(fā)生,我們將在未來十年看到,對汽車智能化功能的需求越來越多。

第三,OTA能力。購買可以O(shè)TA的車,意味著買車不是買硬件,而是買服務(wù)。買完車后,它在持續(xù)學(xué)習(xí)、進化,不斷獲得新功能。今天擁有一輛能進化的汽車,是非常令人興奮的。

這就是今天的現(xiàn)狀。

二、邁向「AI定義汽車時代」

我認為下一個趨勢,也正是我的GTC的演講主題,就是我們正在從軟件定義汽車走向AI定義汽車。

有三個因素推動了這一趨勢的發(fā)展:

第一,對于幾乎所有主機廠而言,隨著軟件定義汽車逐漸成熟,甚至幾乎每輛車都可以變得非常舒適,軟件定義汽車已經(jīng)無處不在。

第二,自動駕駛堆棧的演變,從一個經(jīng)典的堆棧開始,然后我們使用AI來增強感知的組件,它會進入一個端到端的自動駕駛模型的堆棧。

實際上在最近,讓所有人驚訝的是,這種情況發(fā)生得如此之快,而且還在持續(xù)發(fā)生。

這就是生成式AI。有了Transformer、LLM、VLM和穩(wěn)定擴散,我們看到了很多基于生成式AI的驚人的基本能力和新能力。與我們熟悉的基于卷積的人工智能相比有本質(zhì)區(qū)別,它實際上是關(guān)于在空間和時間上創(chuàng)造交叉注意力的能力。

為什么這很重要呢?

卷積網(wǎng)絡(luò)仍然是基于接近度的,試圖找到特征,查詢特征,空間或時間,顯然我們使用的是IM類型的時間結(jié)論。但有了Transformer,我們可以獲得圖像中任何兩個像素在時間和空間上的相關(guān)性,這將大大增強我們理解復(fù)雜事物的能力。與時態(tài)相同的是,具有注意力交叉的能力。

現(xiàn)在我們可以進行長期推理了,這是一個非常困難的問題,人工智能幾十年來要實現(xiàn)的目標,是能夠跨時間,也就是跨秒、跨分鐘甚至跨小時進行推理。有了LLM,我們已經(jīng)證明網(wǎng)絡(luò)能夠在整個人類文學(xué)中進行訓(xùn)練,這是一個非常重要的突破,如今,我們又在目睹AI在視頻領(lǐng)域的突破。

我想說的第三件事,那就是訓(xùn)練的能力,擁有基礎(chǔ)設(shè)施和計算機能力,能夠通過大量數(shù)據(jù)進行訓(xùn)練。

我認為這是另一件非常重要的事情,這無關(guān)生成式AI,而是我們存在的基石,大家知道人工智能是如何迅速地向我們走來的。

三、自動駕駛的開發(fā)重心向云端轉(zhuǎn)移

那么,以上這些對自動駕駛堆棧意味著什么呢?

正如我所說,自動駕駛從一個經(jīng)典的或基于規(guī)則算法的堆棧開始。

然后是AI增強堆棧。我們首先使用卷積基礎(chǔ)網(wǎng)絡(luò)進行感知,然后使用基于Transformer的網(wǎng)絡(luò)進行感知BEV的體現(xiàn),F(xiàn)在,這一趨勢也正體現(xiàn)在規(guī)劃中。

即使在某種意義上有這兩種功能,基本上仍然存在來自當(dāng)前堆棧體系結(jié)構(gòu)的相當(dāng)多的限制。

我把它們分為三類。

第一,堆棧,我們試圖做的是真正量化人類的駕駛行為。這是什么意思?有一個模塊叫做行為規(guī)劃。相信你們中的許多人都在做自動駕駛,所以這個概念對這里的許多觀眾來說應(yīng)該不是什么新鮮事。

對于行為規(guī)劃,它實際上是試圖定義一些行為,然后建立一個狀態(tài)機來在它們之間轉(zhuǎn)換,基于不同的條件,例如,LCC,一種車道居中控制。

然后我們開始引入變道,你可以認為這是另一種模式。

在城市里,這一兩種行為并不能解決問題。

所以,最終人們會引入幾十種不同的行為。例如,當(dāng)變道時,如果知道相鄰車道有車不讓你這樣做,你會在車道上停留一段時間,直到觀察清楚對方要做什么,然后采取下一步行動。

所以,為了更好地進行行為規(guī)劃,一個好的堆棧會引入越來越多的行為,讓它變得越來越像人,但發(fā)現(xiàn)在這種看似像人的行為背后,它仍然是一組離散的行為,系統(tǒng)在它們之間轉(zhuǎn)換。

這實際上并不聰明,因為即使對于最先進的堆棧,有時你仍然會覺得這是非人駕駛,對吧?因為我們很難量化人的行為。

第二,這也是眾所周知的,受限的泛化能力。我們在很大程度上依賴于數(shù)據(jù)標注的數(shù)據(jù)集,尤其是我們看到和理解基本復(fù)雜事物的能力非常有限。如果該數(shù)據(jù)未被學(xué)習(xí)和訓(xùn)練,則對其進行標注。我們應(yīng)該引入基礎(chǔ)模型,我會在下面的PPT中進行更多討論。

第三,在自動駕駛堆棧中做出連貫的長期決策的能力,這是非常困難的,因為這個堆棧的大部分,我們現(xiàn)在擁有的堆棧,它仍然是一種瞬態(tài)的內(nèi)存系統(tǒng),我有時把它描述為一條魚7秒的記憶,這就是堆棧的現(xiàn)狀。

在很多方面,對于一個真正類人的高階自動駕駛堆棧,需要更多的功能。我們中間的許多人可能都有在機場找租車還車處或在機場找停車場的糟糕記憶。你目標很簡單,但你知道,通常導(dǎo)航不會馬上把你帶到那里,或者機場正在施工,你必須依靠你所看到的現(xiàn)狀,并努力在幾十分鐘內(nèi)做出一致的決定,找到合適的路徑,這種能力一直是人工智能的一大限制。

有了生成式AI和LLM,我認為我們將能夠解決這樣復(fù)雜的問題,我們將能夠制造一個機器人或一輛可以長時間做出連續(xù)決策的人工智能汽車。

簡言之,我們所做的事情有一些局限性。即使目前的第一塊和第二塊取得了非凡的成就,但隨著生成式AI的新能力,天花板會更高。

什么是AI定義汽車?

基本上,我們在未來看到的是模型,自動駕駛堆棧將成為端到端的模型,它將在具有大量數(shù)據(jù)的云中進行訓(xùn)練。更重要的是,它還將在具有模擬能力的云中進行驗證。NVIDIA在Omniverse和Drive Sim上的投入已有多年,我認為仿真的黃金時段已經(jīng)到來,但在未來會更加重要。

有了仿真功能和端到端大模型,你可以發(fā)現(xiàn),自動駕駛的開發(fā)重心將進入云端,而不是讓龐大的工程師和龐大的車隊在路上行駛。現(xiàn)在,您需要云計算中的大型服務(wù)器,這對NVIDIA來說是好事,我們正在實現(xiàn)這一點。這就是未來的道路。

很明顯,在車輛中,我們將進行模型部署,在未來,OTA基本上只會進行模型更新,但讓數(shù)據(jù)返回到云中非常重要,以不斷完善云中的大模型。這就是我們所看到的未來。

所以,對于軟件來說,劃分一個我們所知道的車輛,我已經(jīng)花了10年的時間來研究它,部署工作真的非常繁重。幾乎所有的組件都需要大量的編碼、工程師和工程,這個堆棧非常深,在路上找到他們的Corner Case識別確實需要很多時間。

L2的ADAS系統(tǒng)不一定是完美無瑕的,但當(dāng)我們朝著L3和L4的方向前進時,當(dāng)我們讓人脫手時,基于安全性和Corner Case等要求,識別能力就變得非常重要。

正如我們所了解,Corner Case將變得越來越少,越來越難以識別。我們必須依靠龐大的車隊才能找到這些Corner Case,但這是一個非常困難的過程,必須能夠開發(fā)一種非常復(fù)雜的機制,無論何時發(fā)生這種事情,都能夠識別或觸發(fā)記錄。

四、從車端到云端,支持生成式AI落地

然后,需要計算機、基礎(chǔ)設(shè)施能夠分析,并嘗試在云中解決這些案例,這是一項艱巨的工作。

比如,測試基本上是大規(guī)模的里程覆蓋。所以通常情況下,人們或汽車廠商只愿意在他們測試過的區(qū)域發(fā)布軟件,這是一種常見的做法。意味著用要數(shù)百輛的測試車隊進行數(shù)十萬英里的測試。

你需要一個非常高效的基礎(chǔ)設(shè)施實現(xiàn),以便能夠支持測試和數(shù)據(jù)回傳,并使用這些測試數(shù)據(jù)來支持開發(fā),我們稱之為數(shù)據(jù)飛輪

我們希望在AI定義汽車時代,簡化傳統(tǒng)的大規(guī)模的運營和OTA部署工作,讓大量的工程師成為云計算的巨大力量。我們將大部分訓(xùn)練在云端進行,測試將主要在模擬中進行驗證,OTA更多是為了大模型。NVIDIA正在做一些事情來實現(xiàn)這一點,那就是加速人工智能時代定義汽車這一趨勢。

所以,Drive平臺幾乎是端到端的,從芯片到安全平臺,再到全棧,我的團隊很大一部分工作是開發(fā)Full Stack-NDAS 堆棧和數(shù)據(jù)中心基礎(chǔ)設(shè)施。

我會快速談一下這些不同的要素。

Thor,這是我們這一代的超級計算機。它具有1000 Tops的計算機功能,是上一代芯片Orin X的4倍。包括630K DMIPSCPU算力,是Orin X的2.5倍。我們的主機廠合作伙伴越來越多,包括中國的自動駕駛開發(fā)商OEM,包括理想汽車和比亞迪。

我們所做的一個重要改變是在Thor和Blackwell Hopper中,基本上是FP4,浮點4位,支持計算機的操作系統(tǒng)。這實際上非常重要,因為當(dāng)內(nèi)存帶寬限制為4位時可以進行更有效的計算。

有了這些改進,就可以實現(xiàn)4倍于Orin X的提升。通過一些技巧,我們希望基于LLAMA-7B模型實現(xiàn)9倍的提升,Thor可以原生支持Transformer,相信可以成為支持人工智能的開放Soc

這就是NVIDIA的Drive平臺,從芯片到云。我們有兩臺計算機,一臺在車里,另一臺在云中。

我們正在做很多工作,比如,在推理芯片和云端芯片中,引入大規(guī)模的生成式AI兼容計算能力,我們正在非常努力地使這一過程中的每一步都成為安全客戶端。在軟件方面,我們正在引入生成式AI和基礎(chǔ)模型,以填補推理模型和模擬的未來能力。

未來,我們希望Drive是一個開放的平臺。如果OEM希望一直合作,我們是非常開放的。如果只是想從我們現(xiàn)有的東西中獲得一部分服務(wù),我們也很樂意與之合作。

我們會再次看到,汽車的計算機將開始引入這種端到端的基于模型的能力。同時,仿真能力也非常重要,我們將努力地實現(xiàn)像素場景和行為等的保真度。此外,我們還將引入基礎(chǔ)模型作為人工智能模型。謝謝大家。

*文中圖片來自NVIDIA 2024 GTC大會吳新宙演講

       原文標題 : 親歷中國智駕大戰(zhàn),吳新宙加入NVIDIA半年后首秀

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

文章糾錯
x
*文字標題:
*糾錯內(nèi)容:
聯(lián)系郵箱:
*驗 證 碼:

粵公網(wǎng)安備 44030502002758號