無法“谷歌翻譯”的古老語言,該如何被世人理解?
語言是文化的有機組成部分,也是文化的載體,世界文明的多樣性在很大程度上表現(xiàn)為世界語言的多樣性。而在 21 世紀的今天,語言學家們顯然已經(jīng)不滿足于傳統(tǒng)的、對已知語言的研究。相反,許多科學家開始利用計算機技術,去探索已經(jīng)消失的、幾乎成為謎底的滅絕古老語言。
近日,麻省理工學院計算機科學與人工智能實驗室(Computer Science and Artificial Intelligence Laboratory 簡稱 CSAIL)的研究人員就開發(fā)出一種計算機算法,旨在幫助語言學家破譯歷史上已消失的語言。
無法“谷歌翻譯”的古老語言
如今,世界上現(xiàn)存約有 7100 種語言。然而,古時存在的大多數(shù)語言都已不再使用,幾近滅絕。數(shù)十種已滅絕語言也被認為是“未破譯”的語言,也就是說,我們對它們的語法(grammar)、詞匯(vocabulary)或句法(syntax)了解不足,也無法理解其文本的意思。
圖 | 世界語言分布地圖 2018
而研究這些“未破譯”的語言,不僅僅是處于學術上的好奇心。還是因為,不理解語言,我們就會錯過與講這些語言的人有關的一整套知識體系。不幸的是,大多數(shù)滅絕語言的相關記錄極少,因此,科學家無法使用谷歌翻譯之類的機器翻譯工具或AI算法來對其進行解密。
而傳統(tǒng)的研究方法是,找出目標語言的“相關”語言來作比較研究,例如同一語系或相似度較高的現(xiàn)存語言。然而,有些語言并沒有對應的、已被深入研究過的“相關”語言,并且它們通常缺少諸如空格和標點符號之類的傳統(tǒng)分隔符(想像一下,要解密出用這種語言寫出的文字該有多么令人頭禿)。
但是,CSAIL 的研究人員發(fā)明的新系統(tǒng),已被證明能夠自動破譯消失的語言,且無需對其與其他語言的關系有深入的了解。他們還表明,該系統(tǒng)自身就可以確定語言之間的關系,并可以用它來證實最近的一項表明 Iberian 語言實際上與 Basque 語言無關的學術研究。
語言破譯:從文本到矢量的轉(zhuǎn)變
此研究由 MIT 教授 Regina Barzilay 牽頭,依賴于基于歷史語言學(historical linguistics)見解的幾項原則。其中一條原則是,一種給定的語言很少會直接添加或刪除整個音節(jié),但是很可能會發(fā)生某些近似發(fā)音的替換。比如,母語中帶有“ p”發(fā)音的單詞可能會在其后代演變中變?yōu)椤?b”,但是由于明顯的發(fā)音差異,變?yōu)椤?k”的可能性則較小。
通過整合這些原則和其他語言學約束,Barzilay 等人的新算法學習將語言發(fā)音嵌入多維向量空間,在該多維空間中,相應矢量之間的距離反映了不同發(fā)音的差異。這種設計使他們能夠捕獲語言變化的相關特征,并將這些特征表達為計算約束(computational constraints)。因此,它可以評估兩種語言之間的相似度。實際上,當對已知語言進行測試時,它甚至可以準確地識別出該語言屬于哪個語系(language families)。例如英語、德語同屬于日耳曼語系。
不僅如此,算法生成的模型可以將古語言中的單詞進行細分,并將其一一映射到“相關”語言中的對應單詞上去。研究團隊的最終目標是使該系統(tǒng)僅僅使用幾千個單詞,就能夠破譯數(shù)十年來語言學家們都無法理解的古語言。
機器翻譯相關研究
實際上,這并非 MIT 首個使用計算機技術破譯已消失語言的研究。
早在 2010 年,Barzilay 就和其他合作者一起,開發(fā)出一個新的計算機算法,該算法在幾個小時內(nèi)就破解了古老的猶太語言烏加里特語(Ugaritic)。除了幫助破譯“神秘的”八種左右古老語言外,這項工作還可以擴大自動翻譯系統(tǒng)可以處理的語言數(shù)量。例如目前,谷歌翻譯支持103種語言,而破譯系統(tǒng)中使用的技術可以幫助其為數(shù)千種語言構建詞典。
去年,Barzilay 等人也發(fā)表過一篇論文,文中使用改進的計算機算法破譯了線形文字 B(Linear B,出現(xiàn)在公元前 1400 年左右)。他們說,“我們的翻譯腳本能夠以 67.3%的準確率將線性文字 B 的同源詞轉(zhuǎn)換成對應的希臘語。據(jù)我們所知,該試驗是自動解讀線性文字 B 的第一次嘗試!
在未來的工作中,該團隊希望擴展到將文本與已知語言的相關單詞相關聯(lián)的范圍之外,這種方法被稱為“基于同源的破譯方法”。
Barzilay 說:“例如,我們可以識別文本中涉及到的所有人或地點的信息,然后可以根據(jù)已知的歷史證據(jù)對其進行進一步的調(diào)查。這些實體識別(entity recognition)方法如今已廣泛用于各種文本處理應用程序中,并且具有很高的準確性 !
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
即日-10.29立即報名>> 2024德州儀器嵌入式技術創(chuàng)新發(fā)展研討會
-
10月31日立即下載>> 【限時免費下載】TE暖通空調(diào)系統(tǒng)高效可靠的組件解決方案
-
即日-11.13立即報名>>> 【在線會議】多物理場仿真助跑新能源汽車
-
11月14日立即報名>> 2024工程師系列—工業(yè)電子技術在線會議
-
12月19日立即報名>> 【線下會議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會
-
即日-12.26火熱報名中>> OFweek2024中國智造CIO在線峰會
推薦專題
- 1 Intel宣布40年來最重大轉(zhuǎn)型:年底前裁員15000人、拋掉2/3房產(chǎn)
- 2 因美封殺TikTok,字節(jié)股價骨折!估值僅Meta1/5
- 3 宏山激光重磅發(fā)布行業(yè)解決方案,助力智能制造產(chǎn)業(yè)新飛躍
- 4 國產(chǎn)AI芯片公司破產(chǎn)!白菜價拍賣
- 5 具身智能火了,但規(guī)模落地還需時間
- 6 國產(chǎn)英偉達們,抓緊沖刺A股
- 7 三次錯失風口!OpenAI前員工殺回AI編程賽道,老東家捧金相助
- 8 英特爾賦能智慧醫(yī)療,共創(chuàng)數(shù)字化未來
- 9 英偉達的麻煩在后頭?
- 10 將“網(wǎng)紅”變成“商品”,AI“爆改”實力拉滿
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結構工程師 廣東省/深圳市