訂閱
糾錯
加入自媒體

2018年曾經(jīng)發(fā)生和未曾發(fā)生的人工智能革命

回顧2018年,人工智能在這一年中繼續(xù)在數(shù)字領(lǐng)域迅猛增長,并將其神奇的力量注入到幾乎每個行業(yè)的每個角落,并徹底改變了人們使用數(shù)據(jù)的方式。如今,很多企業(yè)都急于利用深度學(xué)習(xí)技術(shù)來顛覆他們的業(yè)務(wù)流程,F(xiàn)實情況是,盡管人工智能已真正改變了視聽識別等領(lǐng)域,但鑒于人工智能為理解語言提供了強大的新工具,并首次提供了具有微弱直覺的算法,但迄今為止,絕大多數(shù)商業(yè)人工智能應(yīng)用程序在現(xiàn)實應(yīng)用中往往沒有獲得多少改進。與傳統(tǒng)方法相比,如果那些系統(tǒng)一開始就得到正確構(gòu)建,那么這些程序?qū)⒑芸毂惶鎿Q。

如今,很多人對深度學(xué)習(xí)感興趣,并賦予它幾乎神話般的超人能力。企業(yè)急于在每個項目上采用人工智能這樣的新興技術(shù)。即使一些面臨風(fēng)險,傳統(tǒng)行業(yè)也在積極采用人工智能技術(shù),例如,在每個成功提案中都需要“社交媒體”的資助機構(gòu)現(xiàn)在需要在某個地方采用“深度學(xué)習(xí)”,甚至考慮為每個項目提供資金,無論人工智能對解決目前的問題是否具有適用性。

在公眾意識和企業(yè)高管的通常想法中,人工智能被描述為類似人類的算法,這些算法對于人類來說比較初級,不夠智能,但這些算法不斷進行改進,并且可以通過更多的訓(xùn)練數(shù)據(jù)來進行學(xué)習(xí)和修復(fù)。

當(dāng)然,現(xiàn)實情況是當(dāng)今的深度學(xué)習(xí)算法更多的是藝術(shù)而不是科學(xué)。精確度的提高不僅來自于盲目地將更多的訓(xùn)練數(shù)據(jù)投入算法,還來自于仔細選擇的訓(xùn)練數(shù)據(jù)、錯綜復(fù)雜的調(diào)整、實驗測試,以及一些運氣。而成功的算法是一個謎,即使是算法的創(chuàng)作者也不能完全理解,也不能在其他領(lǐng)域自動復(fù)制。即使是最準(zhǔn)確的模型也會如此脆弱,以至于最輕微的改變或惡意干預(yù)都會使它們偏離軌道。

如今的人工智能系統(tǒng)并不具備人類一樣的頭腦,是一種基本的統(tǒng)計封裝,只是比過去的方法更強大、能力更強,這與計算機誕生以來所做的事情相比并沒有什么不同。

在視聽分析等一些領(lǐng)域,深度學(xué)習(xí)方法具有真正的變革性,允許機器在理解和生成圖像、語音和視頻方面達到精確水平,而這些在幾年前是無法想象的。神經(jīng)視覺系統(tǒng)可以識別車輛的品牌和型號,即使在遍布武器、旗幟、士兵、槍支的戰(zhàn)場圖片中,可以理解地上的槍,指向空中的槍和指向人的槍之間的區(qū)別。它可以估計照片拍攝的地理位置,即它看起來與以往看到的訓(xùn)練圖像有很大不同。它還可以創(chuàng)建出人性化的新圖像或語音。

這是真正的應(yīng)用人工智能革命發(fā)生的地方,為機器理解開辟了新的模式。

與此同時,使用人工智能進行普通的文本和數(shù)字分析并不總能顯示出更高程度的變革。就像它取代的統(tǒng)計機器翻譯(SMT)一樣,神經(jīng)機器翻譯(NMT)在良好的情況下可以達到類似人類的流暢程度,但在其他情況下卻失敗了。雖然神經(jīng)機器翻譯(NMT)系統(tǒng)確實可以在學(xué)術(shù)競賽中獲得更高的BLEU分數(shù),但是當(dāng)應(yīng)用于日常的實際日常內(nèi)容時,其收益并不一定顯著,因為它們會在混亂的理解中混淆不清。

問題在于,神經(jīng)機器翻譯(NMT)就像其前身統(tǒng)計機器翻譯(SMT)一樣,只是盲目地應(yīng)用從大量訓(xùn)練數(shù)據(jù)中學(xué)到的統(tǒng)計模式。神經(jīng)機器翻譯(NMT)系統(tǒng)只能應(yīng)用學(xué)習(xí)模式將一組符號轉(zhuǎn)換為另一組符號,就像模仿藝術(shù)家畫作的孩子一樣,在紙上通過顏色和形狀進行模仿,卻不了解他們想要繪制的內(nèi)容。與人類翻譯不同,當(dāng)今的神經(jīng)模型實際上并不理解它們正在閱讀的概念和思想的深層含義,他們只是像統(tǒng)計機器翻譯(SMT)方法一樣識別符號的模式。神經(jīng)機器翻譯(NMT)系統(tǒng)在識別更復(fù)雜的模式、執(zhí)行更復(fù)雜的重新排序,以及在更大的文本窗口中操作的能力方面具有相當(dāng)優(yōu)越的性能,但即使是神經(jīng)機器翻譯(NMT)系統(tǒng)仍然主要在句子級別或單獨的小塊文本中運行。人們還有很長的路要走,更加完善的神經(jīng)機器翻譯(NMT)系統(tǒng)可以讀取整個文本段落,將其提煉為它所討論的抽象概念和觀點,然后將其完全從基于思想的抽象表示形式轉(zhuǎn)換為另一種語言,帶來語境和消除歧義、語境化和框架的知識。

此外,大多數(shù)語言缺乏訓(xùn)練數(shù)據(jù)意味著,即使是最前沿的神經(jīng)機器翻譯(NMT)系統(tǒng)仍然像許多語言的統(tǒng)計機器翻譯(SMT)系統(tǒng)一樣失敗,或者遭受同樣的段落不流暢問題,這些問題將會隔一定時間出現(xiàn),這使得它們的關(guān)鍵論點無法被理解。

神經(jīng)文本處理作為一個整體遭受著過程對結(jié)果的影響。企業(yè)相信,深度學(xué)習(xí)解決方案將勝過任何其他解決方案,因此應(yīng)不惜一切代價尋找深度學(xué)習(xí)解決方案,卻沒有認識到并非每個問題都適合當(dāng)前的神經(jīng)方法。

很多公司為最基本的任務(wù)構(gòu)建深度學(xué)習(xí)解決方案,例如識別特定人員或提及的公司名稱。當(dāng)被問及龐大而昂貴的深度學(xué)習(xí)模型是否優(yōu)于簡單的關(guān)鍵字搜索名稱和一些變體時,往往他們從未真正嘗試過答案,他們只是假設(shè)神經(jīng)元才是前進的方向。如果完全執(zhí)行最終基準(zhǔn)測試,通常表明采用神經(jīng)方法實際上不太準(zhǔn)確,因為它對文本中的拼寫錯誤和語法錯誤過于敏感,缺乏足夠的訓(xùn)練數(shù)據(jù)來獲取大多數(shù)邊緣情況。

神經(jīng)實體識別、分類、地理編碼和情感分析都是即使是最前沿的算法也經(jīng)常難以超越編寫良好的經(jīng)典方法的領(lǐng)域。關(guān)鍵是那些商業(yè)部署編寫的并不太好。

大多數(shù)用戶匆忙地將自己制作的規(guī)則或數(shù)據(jù)匱乏的貝葉斯模型混雜在一起。實際上,這是一種罕見的經(jīng)典算法,它是從域向下構(gòu)建的,而不是從代碼向上構(gòu)建的。特別是情感算法已經(jīng)注重由程序員構(gòu)建的簡單易用的代碼算法,而不是退后一步,與心理學(xué)家和語言學(xué)家一起工作,以理解人類如何交流情感,并構(gòu)建工具來捕捉這些現(xiàn)實世界的復(fù)雜性和細微差別。

在這種情況下,神經(jīng)方法可以幫助標(biāo)準(zhǔn)化模型創(chuàng)建并將其強制轉(zhuǎn)換為更強大的數(shù)據(jù)實踐,但其好處通常主要來自創(chuàng)建工作流程的更改,而不是神經(jīng)方法本身的功能。實際上,對于許多公司而言,深度學(xué)習(xí)方法的最大好處不是來自神經(jīng)網(wǎng)絡(luò)的能力,而是來自當(dāng)前模型構(gòu)建工作流程強制執(zhí)行的以數(shù)據(jù)為中心標(biāo)準(zhǔn)化的創(chuàng)建過程。

在過去半個多世紀的深度學(xué)習(xí)革命過程中,人們幾乎把每一項可以想象的機器理解任務(wù)都運用到100多種語言的文本和視聽新聞內(nèi)容上。從神經(jīng)學(xué)習(xí)到經(jīng)典機器學(xué)習(xí),再到人工構(gòu)建專家規(guī)則到進行過α測試的各種方法。根據(jù)從生產(chǎn)商業(yè)應(yīng)用到前沿研究實驗的一切測試,其結(jié)果總是一樣的:神經(jīng)方法為視聽內(nèi)容和選擇理解和創(chuàng)建任務(wù)提供了巨大的準(zhǔn)確性和能力飛躍,但它們可以經(jīng)常應(yīng)用于常規(guī)文本理解使用精心設(shè)計的非神經(jīng)解決方案,可以使用更少的訓(xùn)練數(shù)據(jù)和更強大的穩(wěn)健性來復(fù)制或超越。

問題在于,雖然真正具有能力的深度學(xué)習(xí)專家比較稀缺,但是能夠構(gòu)建反映其所使用的數(shù)據(jù)和場景的強大系統(tǒng)的數(shù)據(jù)科學(xué)家數(shù)量更少。簡而言之,神經(jīng)方法為許多企業(yè)帶來了相當(dāng)大的好處,不是因為使用深度學(xué)習(xí),而是因為他們的數(shù)據(jù)科學(xué)工作流程太差,只是專注于算法而不是結(jié)果。

如今面臨最大的挑戰(zhàn),可能是像Alphabet公司的DeepMind這樣的人工智能研究小組的開創(chuàng)性工作之間的巨大鴻溝。與商業(yè)部門構(gòu)建的死記硬背的深度學(xué)習(xí)系統(tǒng)相比,這些研究小組正在構(gòu)建可以學(xué)習(xí)玩電子游戲的工具,并且展示出直覺。使機器能夠推理世界,與外界溝通和理解,快速學(xué)習(xí)新任務(wù),從示例抽象到更高階的表示,甚至自己來創(chuàng)建,這些都是深度學(xué)習(xí)方法所特有的令人難以置信的能力。與此同時,這些與死記硬背分類過濾器和實體提取器相去甚遠,它們構(gòu)成了商業(yè)部門深度學(xué)習(xí)的主要部分。

綜上所述,很多關(guān)于人工智能的誤解更多的是一種營銷炒作而不是現(xiàn)實。很多企業(yè)急于將人工智能部署到任何地方,并聲稱擁有“人工智能驅(qū)動的業(yè)務(wù)”,但是這些神經(jīng)部署并不總是比取代的經(jīng)典系統(tǒng)更精確。在許多情況下,他們往往更糟。神經(jīng)方法確實改變了視聽理解,但是當(dāng)涉及到文本理解時,神經(jīng)方法并不總是代表著重大的飛躍。隨著深度學(xué)習(xí)的開創(chuàng)性應(yīng)用最終從DeepMind等應(yīng)用的研究實驗室進入到商業(yè)世界,這可能會發(fā)生變化,但是現(xiàn)在,一些企業(yè)可能會詢問深度學(xué)習(xí)是否真的是給定問題的答案,并進行廣泛的基準(zhǔn)測試以測試結(jié)論是否正確,最重要的是,用戶需要重新思考如何創(chuàng)建軟件系統(tǒng),以及將神經(jīng)方法的創(chuàng)造性和嚴謹性被用于更傳統(tǒng)的數(shù)據(jù)科學(xué)工作流程時將會發(fā)生什么。

聲明: 本文系OFweek根據(jù)授權(quán)轉(zhuǎn)載自其它媒體或授權(quán)刊載,目的在于信息傳遞,并不代表本站贊同其觀點和對其真實性負責(zé),如有新聞稿件和圖片作品的內(nèi)容、版權(quán)以及其它問題的,請聯(lián)系我們。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯
x
*文字標(biāo)題:
*糾錯內(nèi)容:
聯(lián)系郵箱:
*驗 證 碼:

粵公網(wǎng)安備 44030502002758號