訂閱
糾錯
加入自媒體

谷歌+亞馬遜:知道你不是個成熟的AI,但你也該自己學(xué)習(xí)了

人工智能的學(xué)習(xí)總是需要大量數(shù)據(jù)的“喂養(yǎng)”?墒沁@數(shù)據(jù)要喂多少才是個頭呢?有沒有什么辦法能在少喂數(shù)據(jù)的同時,不影響AI的學(xué)習(xí)能力呢?或者直接把一些學(xué)習(xí)法則交給AI,讓它們舉一反三?谷歌和亞馬遜的研究人員近來就在琢磨這件事。

谷歌AI:背著有限的數(shù)據(jù)去探索新環(huán)境

來自卡耐基梅隆大學(xué)、谷歌和斯坦福大學(xué)的研究人員近日在一篇論文中寫道,他們開發(fā)出了一種“弱監(jiān)督”的人工智能訓(xùn)練框架。該模型會給機(jī)器人大量有限的、不精確的、或者是有噪聲的數(shù)據(jù),讓它們通過數(shù)據(jù)學(xué)習(xí),更好地探索一些極具挑戰(zhàn)性的環(huán)境。值得一提的是,研究人員“喂”給機(jī)器人的數(shù)據(jù)其實并不“完整”,機(jī)器人所得到的只是與它們所處的周圍環(huán)境直接相關(guān)的數(shù)據(jù)。然而出人意料的是,這套相對較少的數(shù)據(jù)反而提升了機(jī)器人操作任務(wù)的訓(xùn)練效率。

這個名叫“弱監(jiān)督控制”(Weakly-Supervised Control,后文簡稱為WSC)的框架可以對語料庫進(jìn)行學(xué)習(xí);在學(xué)習(xí)過程中,智能代理(intelligent agents)可以生成自己的目標(biāo)并執(zhí)行探索任務(wù)。

從形式上看,該框架整合了“強(qiáng)化學(xué)習(xí)機(jī)制”(一種通過獎勵來激勵完成目標(biāo)的訓(xùn)練形式)。但不同的是,傳統(tǒng)的強(qiáng)化學(xué)習(xí)需要研究人員手動設(shè)計獎勵,智能代理獲取獎勵的計算成本很高;與之相比,WSC構(gòu)建的這種弱監(jiān)督學(xué)習(xí)機(jī)制是一種能隨著智能代理數(shù)據(jù)收集的進(jìn)度而自行伸縮擴(kuò)展的監(jiān)督方式。換句話說,該模型給代理們提出的獎勵目標(biāo)是基于它們的學(xué)習(xí)能力和進(jìn)度的。這樣不僅有利于智能代理的學(xué)習(xí),對于研究人員來說,他們也不必在智能代理的強(qiáng)化學(xué)習(xí)循環(huán)中不斷增加新標(biāo)簽了。

譯者注:在人工智能領(lǐng)域,智能代理/智能主體指的是一個能夠觀察周遭環(huán)境并為實現(xiàn)具體目標(biāo)而付出一系列行動的自主實體。它通常是以軟件程序的形式出現(xiàn)的。

在實驗中,研究人員試圖確定弱監(jiān)督機(jī)制對學(xué)習(xí)一個解纏表現(xiàn)(disentangled state representation)是否足夠必要。他們給幾個模型布置了不同復(fù)雜度、基于視覺、以目標(biāo)為條件的模擬操作任務(wù)。在一個環(huán)境中,智能代理的任務(wù)是將特定的對象移動到目標(biāo)位置;而在另一個環(huán)境中,代理必須打開一扇門,并讓門開的角度符合任務(wù)要求。

論文作者表示,WSC比此前最先進(jìn)的目標(biāo)導(dǎo)向式強(qiáng)化學(xué)習(xí)機(jī)制的學(xué)習(xí)速度還要快。特別是當(dāng)研究人員不斷提升智能代理所處環(huán)境復(fù)雜性的時候,這種學(xué)習(xí)速度上的優(yōu)勢表現(xiàn)的格外明顯。另外,研究人員還指出,對比智能代理的預(yù)設(shè)目標(biāo)和其達(dá)成目標(biāo)后的最終形態(tài),WSC的智能代理呈現(xiàn)出了更高的一致性。這表明,代理們通過該機(jī)制學(xué)到的是可釋性更強(qiáng)的目標(biāo)達(dá)成策略。

不過研究人員也承認(rèn),WSC并非沒有局限性。它需要使用者給智能代理們標(biāo)出各種與下游任務(wù)直接相關(guān)的各種要素,這就對使用者的專業(yè)知識提出了較高要求。此外,專家們還指出,他們目前的實驗都是在預(yù)訓(xùn)練階段完成的,這個階段生成的內(nèi)容其實并不一定來自代理們與機(jī)制中的新要素所產(chǎn)生的互動結(jié)果。基于此,他們下一步的工作就是要細(xì)致研究弱監(jiān)督機(jī)制的其他形式,看看它們能否給智能代理們提供新的有益信息。

“目前在實驗中的復(fù)雜環(huán)境里,WSC已經(jīng)呈現(xiàn)出了令人欣喜的成果。我們有理由相信,未來若能給真實環(huán)境下的機(jī)器人也應(yīng)用這種機(jī)制,效果會更為喜人!闭撐牡暮现邆儗懙,“簡言之,我們相信,這個新框架提供了一個監(jiān)督通用目標(biāo)學(xué)習(xí)機(jī)制在復(fù)雜環(huán)境下進(jìn)行應(yīng)用實踐的新視角。”

亞馬遜AI:用元學(xué)習(xí)機(jī)制來學(xué)會“舉一反三”

從上面的技術(shù)原理來看,谷歌的專家們有點像商人,他們的經(jīng)營思路是要在降低成本的同時,不影響產(chǎn)品(也就是AI的學(xué)習(xí)能力)的質(zhì)量和性能。與之相比,亞馬遜的研究人員更像是個老師,他們致力于“授人以漁”,讓AI學(xué)會舉一反三的能力。

在即將到來的ICLR上,亞馬遜的研究人員將提交一份關(guān)于元學(xué)習(xí)任務(wù)(meta-learning tasks)如何大幅提升AI學(xué)習(xí)能力的論文。

所謂元學(xué)習(xí)任務(wù),即是一種能讓AI在完成相關(guān)目標(biāo)的同時,還能引導(dǎo)其學(xué)會如何更好的進(jìn)行學(xué)習(xí)的任務(wù)模式。亞馬遜的研究者聲稱,他們研發(fā)的這種任務(wù)模式資源消耗很小:只需少數(shù)幾個標(biāo)簽訓(xùn)練模板就能讓AI“舉一反三”,完成好一個個新任務(wù)。

在傳統(tǒng)的機(jī)器學(xué)習(xí)過程中,模型先是吸納一系列標(biāo)記數(shù)據(jù)(支持集,support set),學(xué)習(xí)如何把標(biāo)記數(shù)據(jù)與特征標(biāo)簽(labels)關(guān)聯(lián)起來;而后,研究人員再喂給模型一些測試數(shù)據(jù)(測試集,query set),看看它能否根據(jù)此前學(xué)到的特征標(biāo)簽來厘清這些新數(shù)據(jù)。

與此種方式相反,在元學(xué)習(xí)機(jī)制下,AI模型要同時運(yùn)用自身訓(xùn)練數(shù)據(jù)和研究人員給出的測試數(shù)據(jù)集來完成任務(wù)。在此過程中,模型還可以對兩套數(shù)據(jù)進(jìn)行比對。這樣一來,AI在完成任務(wù)的同時,也能看得到自身對訓(xùn)練數(shù)據(jù)的反應(yīng)是如何影響其在測試數(shù)據(jù)上的表現(xiàn)的。

而在第二階段,也就是所謂的元測試階段(meta testing),模型要完成的測試任務(wù)與自己此前做的元學(xué)習(xí)任務(wù)有明顯的關(guān)聯(lián),卻又并不完全相同。和之前的方法相似,在執(zhí)行每個新任務(wù)的過程中,模型還是能同時看到訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù),但這一次,特征標(biāo)簽都是未知的,AI必須通過此前的學(xué)習(xí)與自己得到的數(shù)據(jù)來進(jìn)行判斷,正確找出數(shù)據(jù)與標(biāo)簽的關(guān)聯(lián)性。

在元訓(xùn)練過程中,研究人員所采用的技術(shù)并不需要學(xué)習(xí)一個完整的全局模型。他們的做法是訓(xùn)練一個輔助模型,再通過它為每一個任務(wù)生成本地模型,并同時確定其所對應(yīng)的支持集。

在完成上述工作后,他們又準(zhǔn)備了一個輔助網(wǎng)絡(luò),目的是充分利用測試集里的未標(biāo)記數(shù)據(jù)。這樣到了元測試階段,研究人員就可以用測試集來對前文提到的本地模型進(jìn)行微調(diào)了。

按照該團(tuán)隊的說法,他們的系統(tǒng)通過一次任務(wù)學(xué)習(xí)就達(dá)到了16基線(baselines)。更具體的說,其所應(yīng)用的新機(jī)制提高了AI從一個標(biāo)記的示例出發(fā),去學(xué)習(xí)一個新對象分類任務(wù)的性能。根據(jù)底層AI模型體系結(jié)構(gòu)的不同,這種提升幅度在11%和16%之間。

關(guān)于這項技術(shù),Alexa Shopping 應(yīng)用科學(xué)家巴勃羅·加西亞(Pablo Garcia)還在一篇博客中進(jìn)行了介紹:

“過去10年,深度學(xué)習(xí)系統(tǒng)已經(jīng)在很多人工智能任務(wù)中取得了非同凡響的巨大成功。但在具體應(yīng)用層面,其發(fā)揮空間一直比較有限。元學(xué)習(xí)機(jī)制有望讓機(jī)器學(xué)習(xí)系統(tǒng)訓(xùn)練成‘多面手’……該機(jī)制的主體思路是讓系統(tǒng)能通過少量標(biāo)簽訓(xùn)練示例就能完成一個個新任務(wù)。很明顯,如果進(jìn)展順利,元學(xué)習(xí)將大幅縮減勞動密集型數(shù)據(jù)注釋工作的需求!

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯
x
*文字標(biāo)題:
*糾錯內(nèi)容:
聯(lián)系郵箱:
*驗 證 碼:

粵公網(wǎng)安備 44030502002758號