最新国自产自拍亚另类,欧美成人一区二区三区在,日韩欧美国产成人精品高清综合网

AI同傳PK人類同傳，這或許是兩個(gè)職業(yè)

2018-04-19 09:39

圖片來自“123rf．com．cn”

人工智能又又又摔了個(gè)跟頭。

今年的博鰲亞洲論壇上，第一次出現(xiàn)了AI同傳。值得注意的是，這是博鰲論壇創(chuàng)辦17年首次采用人工智能同傳技術(shù)。然而，在如此重要的場(chǎng)合，現(xiàn)場(chǎng)配備的騰訊AI同傳卻掉了鏈子。詞匯翻譯不準(zhǔn)確、重復(fù)、短語誤用等“烏龍”引來各方“嘲笑”。

人們總是把AI跟人類職位對(duì)立起來，各種“取代論”層出不窮。博鰲論壇會(huì)議前，就出現(xiàn)了許許多多的“取代論新聞”引起了各界關(guān)注。最終，AI同傳“翻車”，引來外界一片唏噓。

然而，就目前來看，AI同傳前路未明，太早將其與人類同傳對(duì)立起來實(shí)在是“杞人憂天”。除了取代，AI同傳其實(shí)有更好的路。

圖為AI同傳內(nèi)容

AI同傳進(jìn)階之路：變智能問題為數(shù)據(jù)問題

很多人都覺得人工智能如果要處理自然語言，就必須理解自然語言。實(shí)質(zhì)上，AI翻譯靠的是數(shù)字，更準(zhǔn)確地來說，是統(tǒng)計(jì)。AI同傳出錯(cuò)，并不是“智能”不夠，實(shí)質(zhì)上，是數(shù)據(jù)和模型出了問題。

AI同傳還需要理解力

首先，AI同傳要去理解場(chǎng)景。在博鰲論壇上，會(huì)議現(xiàn)場(chǎng)專業(yè)度高、覆蓋度廣，AI對(duì)特殊場(chǎng)景的理解還不夠。場(chǎng)景對(duì)于語義具有至關(guān)重要的影響，相同的一句話在不同的場(chǎng)景里有不同的意思。舉個(gè)例子，“好”這個(gè)字在百度漢語顯示有多種語義，既可以表示稱贊，也可以表示狀態(tài)，還可以表達(dá)問好……諸如此類，語義的表達(dá)和理解都要結(jié)合具體的場(chǎng)景。在具體的句子中，這種語義與情景的結(jié)合就更為緊密，更需要機(jī)器理解學(xué)習(xí)。

其次，AI要理解口語的模糊邏輯�？谡Z翻譯是不會(huì)百分百傳譯的，根據(jù)AIIC（國(guó)際會(huì)議口譯員協(xié)會(huì)）的規(guī)定，同傳譯員只要翻譯出演講者內(nèi)容的80％就已經(jīng)算是合格了（90％～100％的“同傳”幾乎是不可能的）。這意味著AI工作量減少嗎？當(dāng)然不，正是這種模糊的東西使得AI同傳更加困難，除此之外，口語沒有標(biāo)點(diǎn)符號(hào)來標(biāo)志句子，缺少了必要的聲調(diào)和停頓，就很容易造成句子的歧義。而模糊的指令極有可能出現(xiàn)的是滿屏的錯(cuò)碼。

隱馬爾可夫模型（HMM）解決統(tǒng)計(jì)數(shù)據(jù)之外的語言問題

然而，在參考騰訊AI同傳的失誤后，我們發(fā)現(xiàn)，僅僅增加數(shù)據(jù)量還是不夠的，在現(xiàn)實(shí)生活中，我們也會(huì)遇到零概率或者統(tǒng)計(jì)量不足的問題。

比如一個(gè)漢語的語言模型，就足足達(dá)到20萬這個(gè)量級(jí)。曾有人做過這樣一個(gè)假設(shè)，如果刨掉互聯(lián)網(wǎng)上的垃圾數(shù)據(jù)，互聯(lián)網(wǎng)中將會(huì)有100億個(gè)有意義的中文網(wǎng)頁，這還是相當(dāng)高估的一個(gè)數(shù)據(jù)，每個(gè)網(wǎng)頁平均1000詞，那么，即使將互聯(lián)網(wǎng)上上所有中文內(nèi)容用作訓(xùn)練，依然只有1013。

為了解決數(shù)據(jù)量的問題，我們提出了隱馬爾可夫模型（HMM）。實(shí)際應(yīng)用中，我們可以把HMM看作一個(gè)黑箱子，這個(gè)黑箱子可以利用比較簡(jiǎn)潔的數(shù)據(jù)，處理后得出：

1．每個(gè)時(shí)刻對(duì)應(yīng)的狀態(tài)序列；

2．混合分布的均值和方差矩陣；

3．混合分布的權(quán)重矩陣；

4．狀態(tài)間轉(zhuǎn)移概率矩陣。

看起來可能比較復(fù)雜，簡(jiǎn)單點(diǎn)說，這個(gè)模型可以通過可觀察的數(shù)據(jù)而發(fā)現(xiàn)這個(gè)數(shù)據(jù)域外的狀態(tài)，即隱含狀態(tài)。也就是說，我們可以憑借一句話，來探索出這句話后的隱含的意思，從而解決一些微妙的語義問題。

如上圖所示，這個(gè)模型能夠通過你提供的可以明顯觀察的句子，推斷出一個(gè)人隱含的心情狀態(tài)（開心OR難過），并得到最后的行為判斷（宅、購(gòu)物、社交），即通過已知推斷出未知。

而如何優(yōu)化這個(gè)模型，得到最優(yōu)隱含狀態(tài)？人們提出了許多解決問題的算法，包括前向算法、Viterbi算法和Baum－Welch算法。此中奧妙，難以盡述。但不能否認(rèn)的是，在深度學(xué)習(xí)的基礎(chǔ)上，數(shù)據(jù)＋模型就能很好地打造出一款A(yù)I同傳翻譯，數(shù)據(jù)越大，神經(jīng)網(wǎng)絡(luò)更好。即使翻譯結(jié)果不盡如人意，但只要建設(shè)足夠大的數(shù)據(jù)庫，建立更好的模型，打磨算法，AI同傳很快就會(huì)有更大的提升。

1 2 下一頁>

本地收藏打印推薦給朋友

聲明： 本文系OFweek根據(jù)授權(quán)轉(zhuǎn)載自其它媒體或授權(quán)刊載，目的在于信息傳遞，并不代表本站贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)，如有新聞稿件和圖片作品的內(nèi)容、版權(quán)以及其它問題的，請(qǐng)聯(lián)系我們。