深度強(qiáng)化學(xué)習(xí)“落地”高空,全自動(dòng)環(huán)境監(jiān)測(cè)或成現(xiàn)實(shí)
在電影《飛屋環(huán)游記》中,男主人公用一大堆氣球?qū)⒆约旱男∧疚輲咸炜?并通過(guò)增減氣球、手動(dòng)施力來(lái)改變氣球的飛行方向,去實(shí)現(xiàn)他未曾實(shí)現(xiàn)的夢(mèng)想......
當(dāng)然,電影世界具有一定的幻想色彩。但是,如今還真有這樣一種巨型氣球,它雖然不能帶著小木屋飛上天空,卻更加智能、用處更大——讓全自動(dòng)環(huán)境實(shí)時(shí)監(jiān)測(cè)成為可能。
平流層氣球(stratospheric balloon),又稱(chēng)高空氣球,可以在大氣平流層中自主飛行數(shù)月,具有低成本、高效益的特點(diǎn),這使其成為通信、地球觀(guān)測(cè)、收集氣象數(shù)據(jù)和許多其他應(yīng)用的寵兒。但是,如何實(shí)現(xiàn)高空氣球的自主導(dǎo)航,一直是科學(xué)研究的一個(gè)難題。
近日,來(lái)自谷歌研究院(Google Research )和 Alphabet 旗下公司 Loon 的研究人員組成的科研團(tuán)隊(duì),成功開(kāi)發(fā)出的一種基于深度強(qiáng)化學(xué)習(xí)的高性能人工智能控制器,能讓高空氣球一連數(shù)周待在原地,并根據(jù)環(huán)境因素進(jìn)行實(shí)時(shí)決策并實(shí)現(xiàn)自主導(dǎo)航。這一研究結(jié)果提高了全自動(dòng)環(huán)境監(jiān)測(cè)成為現(xiàn)實(shí)的可能性,代表深度強(qiáng)化學(xué)習(xí)向現(xiàn)實(shí)世界應(yīng)用邁進(jìn)了非常重要的一步。
該研究成果以“Autonomous navigation of stratospheric balloons using reinforcement learning”為題,于 12 月 3 日在線(xiàn)發(fā)表在頂級(jí)期刊 Nature 上。
(來(lái)源:Nature)
續(xù)航瓶頸,無(wú)法滿(mǎn)足需求
高空氣球中應(yīng)用最廣泛的當(dāng)屬“超壓”氣球,氣球內(nèi)填充氦氣,常被用來(lái)在高層大氣開(kāi)展實(shí)驗(yàn)。這些氣球遇到氣流風(fēng)時(shí),往往會(huì)偏離航道,之后便只能返回地面駐點(diǎn)。而此次研究所采用的深度強(qiáng)化學(xué)習(xí)方法,可以訓(xùn)練人工智能系統(tǒng)進(jìn)行實(shí)時(shí)決策。對(duì)于超壓氣球來(lái)說(shuō),這些決策包括采取哪些行動(dòng)來(lái)保持其在空中的位置不變。
Loon 超壓氣球是谷歌于 2013 年成立的高空氣球項(xiàng)目的成果之一,旨在將其作為通信中繼平臺(tái),為還未接入互聯(lián)網(wǎng)的偏遠(yuǎn)地區(qū)提供一種相對(duì)廉價(jià)的通信服務(wù)。傳統(tǒng)上,Loon 的上下垂直飛行通過(guò)泵出固定體積的氣囊來(lái)實(shí)現(xiàn),而左右水平運(yùn)動(dòng)則由氣球所處位置的風(fēng)向所決定。因此,為了實(shí)現(xiàn)導(dǎo)航目的,飛行控制器必須通過(guò)上升和下降的方式,以找到并跟隨對(duì)其有利的氣流。
然而,這種簡(jiǎn)單的導(dǎo)航方式無(wú)法滿(mǎn)足氣球長(zhǎng)時(shí)間(有時(shí)長(zhǎng)達(dá)幾個(gè)月)控制的目標(biāo)。例如,傳統(tǒng)“控位法”(Station-keeping)需要將氣球固定在某個(gè)地面位置的正上方。為了完成這一任務(wù),氣球就必須不斷地通過(guò)風(fēng)場(chǎng)變化采取間接飛行路徑,以保證位置不變。
圖|通過(guò)“控位法”保持超壓氣球位置。a) 超壓氣球在風(fēng)場(chǎng)航行的原理圖。氣球通過(guò)不斷移動(dòng)來(lái)保持在離駐點(diǎn)較近的地方。其高度范圍用上下虛線(xiàn)表示;b) 氣球飛行路徑平面示意圖。藍(lán)色區(qū)域表示駐點(diǎn)方圓 50 公里范圍。陰影箭頭代表風(fēng)場(chǎng)。風(fēng)場(chǎng)不斷變化,要求氣球?qū)崟r(shí)規(guī)劃路線(xiàn)。(來(lái)源:Nature)
不僅如此,氣球還需要在晝夜交替中管理自身電力,由于氣球下降時(shí)會(huì)使用存儲(chǔ)在電池中的太陽(yáng)能,一旦電力不夠,氣球也就無(wú)法再自主控制飛行。另外,一個(gè)好的飛行控制器必須能夠權(quán)衡收集目標(biāo)觀(guān)測(cè)結(jié)果的性?xún)r(jià)比。因此,上述傳統(tǒng)控制技術(shù)本身非智能化的性質(zhì)就限制了其最終表現(xiàn)。
AI 賦能,帶來(lái)質(zhì)的飛躍
為提高超壓氣球的續(xù)航能力,論文作者之一、谷歌研究院科學(xué)家 Marc Bellemare 及其合作者訓(xùn)練了一種人工智能控制器,這種控制器能根據(jù)風(fēng)的歷史記錄、預(yù)報(bào)、局部風(fēng)向觀(guān)測(cè)以及氦氣損失和電池疲勞等其他因素,來(lái)實(shí)時(shí)決定氣球是否需要移動(dòng)。
首先,研究人員將 StationSeeker 算法用于這一人工智能控制器中。該算法為控制器提供了較好的“洞察力”,StationSeeker 會(huì)憑借風(fēng)向與駐點(diǎn)形成的銳角來(lái)跟蹤風(fēng)向,只要?dú)馇蛱幱隈v點(diǎn)范圍內(nèi),它就會(huì)主動(dòng)去尋找移動(dòng)較為緩慢的氣流。
而后,研究人員對(duì)該控制器進(jìn)行了模擬訓(xùn)練,在模擬試驗(yàn)中使用強(qiáng)化學(xué)習(xí)來(lái)訓(xùn)練飛行控制器。強(qiáng)化學(xué)習(xí)擅長(zhǎng)自動(dòng)產(chǎn)生控制策略,可以處理高維度的異質(zhì)數(shù)據(jù),并在需要長(zhǎng)期觀(guān)測(cè)時(shí)優(yōu)化對(duì)應(yīng)的控制策略。
為了獲得最先進(jìn)的控制器,研究人員結(jié)合了深度強(qiáng)化學(xué)習(xí)領(lǐng)域的最新進(jìn)展,即強(qiáng)調(diào)在學(xué)習(xí)過(guò)程中使用深度神經(jīng)網(wǎng)絡(luò)。該控制器使用的神經(jīng)網(wǎng)絡(luò)分為 7 層、每層具有 600 個(gè)校正線(xiàn)性單元,而且試驗(yàn)證明,使用較小的網(wǎng)絡(luò)或非分布算法會(huì)使得性能降低。
圖|神經(jīng)網(wǎng)絡(luò)規(guī)模對(duì) TWR50(氣球位于駐點(diǎn) 50 公里以?xún)?nèi)范圍時(shí)節(jié)省的時(shí)間)的影響(來(lái)源:Nature)
此次模擬試驗(yàn)包括對(duì)超壓氣球控制器在一個(gè)固定的位置上進(jìn)行兩天模擬,在此期間,控制器以 3 分鐘的間隔接收輸入數(shù)據(jù)和發(fā)出命令。因此,飛行控制器能夠置身于晝夜循環(huán)場(chǎng)景中,這意味著氣球必須從艱難的夜間條件中恢復(fù)工作,且最終產(chǎn)生的飛行路徑則會(huì)接近真實(shí)場(chǎng)景。
最后,作者將該技術(shù)應(yīng)用到分布于全球各地的 Loon 氣球上,包括一項(xiàng)在太平洋上空進(jìn)行的為期 39 天的受控實(shí)驗(yàn)(共 2884 飛行小時(shí))。分析結(jié)果證明,受到 StationSeeker 控制的氣球能夠成功實(shí)現(xiàn)自主導(dǎo)航,一旦被吹偏航道,它們能以比傳統(tǒng)控制器控制的氣球更快的速度回到駐點(diǎn)。
其中,控制器最佳表現(xiàn)達(dá)到 55.1% TWR50。要知道,1% 的性能提升相當(dāng)于節(jié)省 14.4 分鐘的返回時(shí)間,因此,這一差異相當(dāng)于每 24 小時(shí)內(nèi)的返回時(shí)間平均減少 3.5 小時(shí)。
毫無(wú)疑問(wèn),此次研究成功將人工智能強(qiáng)化學(xué)習(xí)方法應(yīng)用到了超壓氣球與環(huán)境的實(shí)時(shí)交互之中,拓寬了其在現(xiàn)實(shí)科學(xué)研究中的應(yīng)用。
正如牛津大學(xué)物理系教授 Scott Osprey 所說(shuō):“Marc Bellemare 和同事的成果代表了強(qiáng)化學(xué)習(xí)在現(xiàn)實(shí)世界應(yīng)用的一次巨大進(jìn)步!
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
即日-10.29立即報(bào)名>> 2024德州儀器嵌入式技術(shù)創(chuàng)新發(fā)展研討會(huì)
-
10月31日立即下載>> 【限時(shí)免費(fèi)下載】TE暖通空調(diào)系統(tǒng)高效可靠的組件解決方案
-
即日-11.13立即報(bào)名>>> 【在線(xiàn)會(huì)議】多物理場(chǎng)仿真助跑新能源汽車(chē)
-
11月14日立即報(bào)名>> 2024工程師系列—工業(yè)電子技術(shù)在線(xiàn)會(huì)議
-
12月19日立即報(bào)名>> 【線(xiàn)下會(huì)議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
-
即日-12.26火熱報(bào)名中>> OFweek2024中國(guó)智造CIO在線(xiàn)峰會(huì)
推薦專(zhuān)題
- 1 Intel宣布40年來(lái)最重大轉(zhuǎn)型:年底前裁員15000人、拋掉2/3房產(chǎn)
- 2 因美封殺TikTok,字節(jié)股價(jià)骨折!估值僅Meta1/5
- 3 宏山激光重磅發(fā)布行業(yè)解決方案,助力智能制造產(chǎn)業(yè)新飛躍
- 4 國(guó)產(chǎn)AI芯片公司破產(chǎn)!白菜價(jià)拍賣(mài)
- 5 具身智能火了,但規(guī)模落地還需時(shí)間
- 6 國(guó)產(chǎn)英偉達(dá)們,抓緊沖刺A股
- 7 三次錯(cuò)失風(fēng)口!OpenAI前員工殺回AI編程賽道,老東家捧金相助
- 8 英特爾賦能智慧醫(yī)療,共創(chuàng)數(shù)字化未來(lái)
- 9 英偉達(dá)的麻煩在后頭?
- 10 將“網(wǎng)紅”變成“商品”,AI“爆改”實(shí)力拉滿(mǎn)
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷(xiāo)售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷(xiāo)售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專(zhuān)家 廣東省/江門(mén)市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市