JIZZJIZZJIZZ亚洲18,天堂俺去俺来也www久久婷婷

Waymo首次公布技術細節(jié)，自動駕駛老司機是這樣煉成的

2018-12-12 08:49

車智

關注

03 “合成壞司機”

從真實世界的駕駛中獲得的“好司機”駕駛行為中，通常只包含在良好情況下駕駛的例子，因為出于明顯的原因，我們不希望我們的“好司機”駕駛陷入近碰撞或爬坡限制，只是為了向神經網絡展示如何在這些情況下恢復。

為了訓練網絡走出困境，模擬或綜合合適的訓練數據是有意義的。一種簡單的方法是加入一些例子，在這些例子中，我們干擾了“好司機”實際的駕駛軌跡。這種擾動使得軌跡的起點和終點保持不變，偏離主要發(fā)生在中間。這教會神經網絡如何從干擾中恢復。

不僅如此，這些擾動還會產生與其他物體或道路限制物發(fā)生合成碰撞的例子，我們通過增加阻止此類碰撞的顯式損失來教會網絡避免這些碰撞。這些損失使我們能夠利用領域知識來指導學習在新的情況下更好地泛化。

通過將當前Agent位置（紅點）從lane center拉出，然后擬合一個新的平滑軌跡，使agent沿lane center回到原來的目標位置，從而對軌跡進行擾動。這項工作演示了一種使用合成數據的方法。除了我們的方法之外，還可以對高度交互或罕見情況進行廣泛的模擬，同時使用強化學習（RL）調整驅動策略。

然而，做RL需要我們精確地模擬環(huán)境中其他道路參與者的真實行為，包括其他車輛、行人和騎自行車的人。由于這個原因，我們在當前的工作中專注于一種純粹的監(jiān)督學習方法，記住我們的模型可以用來創(chuàng)建自然行為的“智能代理”來引導RL。

04 實驗結果

我們看到純模仿學習模型是如何在停著的車輛周圍無法移動，并在偏離軌道時卡住的。通過一系列的綜合例子和輔助例子，ChauffeurNet的模型現在可以成功地繞過停著的車輛（1），并從軌跡偏離中恢復過來，沿著彎曲的道路（2）平穩(wěn)地繼續(xù)前進。

在下面的示例中，我們將在模擬器的閉環(huán)設置中演示ChauffeurNet對日志示例中正確的因果因素的響應。在3的動畫中，我們看到ChauffeurNet 代理在停車標志（紅色標記）前完全停止。在4的動畫中，我們從渲染的道路上移除stop－sign，并看到Agent不再完全停止，從而驗證網絡正在響應正確的因果因素。

動圖5中，我們看到ChauffeurNet代理停在其他車輛（黃色框）后面，然后在其他車輛前進時繼續(xù)前進。動圖6，我們從呈現的輸入中移除其他車輛，看到代理自然地沿著路徑繼續(xù)，因為它的路徑中沒有其他對象，驗證網絡對場景中其他車輛的響應。

動圖7中，ChauffeurNet代理停止等待交通燈從黃色變?yōu)榧t色（注意交通燈渲染的強度變化，以車道中心的曲線顯示），而不是盲目地跟在其他車輛后面。

在模擬測試之后，我們將主計劃模塊替換為ChauffeurNet，并使用它在我們的私人測試軌道上駕駛一輛克萊斯勒Pacifica小型貨車。這些視頻展示了車輛成功地沿著彎曲的車道行駛，處理停車標志和轉彎。

動圖8演示了一個日志示例上PerceptionRNN的預測�；叵胍幌�，PerceptionRNN可以預測其他動態(tài)對象的未來運動。紅色的軌跡表示場景中動態(tài)物體過去的軌跡；綠色的軌跡表示每個物體在未來兩秒鐘內的預測軌跡。

備注：5、6、7、8的動圖都超過2M，壓縮了好久，剪輯都沒辦法達到微信要求的規(guī)格，所以請移步文后找到傳送門。后面的動圖是，越來越復雜，顯示出Waymo在這方面的思考和變量增加對技術要求的提升，從而訓練出更好的自動駕駛老司機。

05 總結

長尾理論、因果關系與終身學習

全自動駕駛系統(tǒng)需要能夠處理現實世界中出現的長尾情況。雖然深度學習在許多應用中取得了相當大的成功，但是如何處理缺乏培訓數據的情況仍然是一個懸而未決的問題。

此外，深度學習識別訓練數據中的相關性，但它不能通過純粹的觀察相關性建立因果模型，也不能在模擬中主動測試反應事實。了解“好司機”為什么會有這樣的行為，以及他們對什么做出了反應，這對于建立一個因果駕駛模型至關重要。

因此，僅僅有大量的“好司機”駕駛行為來模仿是不夠的，理解為什么可以更容易地了解如何改進這樣的系統(tǒng)，這對于安全關鍵的應用程序尤其重要。此外，如果這些改進能夠以增量的和有針對性的方式執(zhí)行，那么系統(tǒng)就可以繼續(xù)學習和不斷改進，這種持續(xù)終生學習是機器學習社區(qū)中一個活躍的研究領域。