訂閱
糾錯
加入自媒體

聰明機(jī)器的誕生,不是一天練成的

2021-11-19 16:31
放大燈
關(guān)注

無人不知人工智能,但擱二十年前,絕對不是這番光景。

如果穿越回去你問人什么是“人工智能”,他們可能會給你一個讓你出戲的回答——網(wǎng)絡(luò)是有記憶的,搜索引擎告訴我們,在21世紀(jì)之初的中文互聯(lián)網(wǎng)上,《人工智能》還是那部2001年上映的,大導(dǎo)演斯皮爾伯格拍攝的科幻電影。如果你想看看與人工智能有關(guān)的新聞,你能在2004年的新浪網(wǎng)里找到一點(diǎn)僅存的痕跡:數(shù)碼相機(jī)的“人工智能”自動對焦、電子游戲的“人工智能”對手玩家、阿蘭·圖靈為人工智能設(shè)計(jì)的“圖靈測試”……

我們對人工智能的期待遠(yuǎn)不止于此。讓技術(shù)趕上人類的想象力,這是一代代科學(xué)家們的時(shí)代任務(wù)。

劉冬宇 | 作者

放大燈團(tuán)隊(duì) | 策劃

拆了那個虛擬人

今天很多科技公司嘗試推出的“虛擬人”或者“數(shù)字人”,可能是我們能想到的人工智能技術(shù)的集大成者之一。一個合格的虛擬人,有一個合成的精巧的形象(可能基于某個真人,也可能憑空創(chuàng)造,可以是三維的,也可以是二次元),能聽能說,談吐得體,配套的表情手勢口型天衣無縫。TA可能出現(xiàn)在新聞播報(bào)、教育陪伴等領(lǐng)域,去實(shí)現(xiàn)更個性化的、跨學(xué)科知識與生活常識內(nèi)容的輸出;TA也可能會出現(xiàn)在直播娛樂、營銷代言等領(lǐng)域,我們希望它永遠(yuǎn)不要翻車、不要出錯,粉絲和品牌也不必戰(zhàn)戰(zhàn)兢兢。

但這很難。虛擬人的每一個動作,都可能是在二十年前,計(jì)算機(jī)科學(xué)家們就開始致力于解決的一項(xiàng)項(xiàng)工作。

比如讓虛擬人“說話”,就是一項(xiàng)頗有年頭的工作。1999年,科大訊飛剛剛成立的時(shí)候,他們最重要的技術(shù),就是讓電腦發(fā)出合成的語音。但從“能說”,到“說得更好”,就成了直到今天仍然在優(yōu)化升級的工作。

今天的虛擬人,它們的合成聲音更自然了,我們通常用0~5分去標(biāo)記語音的自然度,滿分5分是優(yōu)秀播音員的水平,科大訊飛去年做到了相當(dāng)于4.5分的水平。但數(shù)字人需要的對話與表達(dá)能力,它甚至不完全是一個自然度的問題,不是純粹的語音合成系統(tǒng)能解決的,更需要內(nèi)容理解、情感表達(dá)與合成預(yù)測,這也是現(xiàn)在行業(yè)研究的熱點(diǎn)之一。

還有方言合成、小語種外語語音合成,這兩項(xiàng)工作都需要語言學(xué)家告訴機(jī)器這些特定方言與語種的知識。在剛剛過去的科大訊飛1024開發(fā)者節(jié)上,科大訊飛高級副總裁胡國平介紹說,今天科大訊飛語音合成有24個語種。而方言與小語種的成功合成,又反過來推動了這兩類語音識別的工作——先合成語音,再交給語音識別系統(tǒng)去訓(xùn)練,它能讓100小時(shí)的有監(jiān)督數(shù)據(jù)和無標(biāo)簽文本訓(xùn)練,實(shí)現(xiàn)原本10000小時(shí)數(shù)據(jù)的訓(xùn)練效果。

在近日國際低資源多語種語音識別競賽OpenASR上,科大訊飛-中科大語音及語言信息處理國家工程實(shí)驗(yàn)室的聯(lián)合團(tuán)隊(duì),就在15個語種、22條賽道的比賽中,全部取得第一。

小樣本訓(xùn)練(科大訊飛又稱之為個性化語音合成),也是這幾年語音合成技術(shù)的突破之一,你說一句話,系統(tǒng)就能仿照你的聲音去合成。這與我們有什么關(guān)系?個性化語音已經(jīng)走進(jìn)你的日常生活,比如導(dǎo)航App已經(jīng)可以錄制自己的導(dǎo)航語音包,就離不開這個小樣本學(xué)習(xí)的模型;如果未來你需要在數(shù)字世界建立一個虛擬化身,想讓它能像你一樣說話,這門技術(shù)顯然還有用武之地。

也比如“唱歌”?拼笥嶏w1024開發(fā)者大會上,一位“虛擬人”就上臺展示了如同真人般的語音交談,她甚至還能唱歌——讓我們再次回到世紀(jì)之交,2000年那會兒,雅馬哈公司開始研發(fā)一款讓電腦唱歌的軟件“VOCALOID”。

幾年后,基于VOCALOID系統(tǒng)的一個聲庫“初音未來”,成了今天業(yè)界討論“虛擬人”與“虛擬偶像”話題繞不開的名字。很多鼓吹虛擬偶像的媒體不會告訴你的是,她只是一個提線木偶,由編曲者告訴她該唱什么、該怎么唱,要細(xì)化到每一個音節(jié)都要用一大堆參數(shù)去指定她來工作,即使如此,你還是能一耳朵就聽出來這是電子歌姬的聲音。而在聲音之外的形象上,她也不是官方塑造的產(chǎn)物,而是在創(chuàng)作者們的二次創(chuàng)作下,才逐漸擁有了更清晰的形態(tài)、更圓滿的故事與性格。

今天的虛擬人呢?他們早已學(xué)會了自主地完成唱歌的任務(wù),比如科大訊飛的“虛擬人愛加”、從微軟獨(dú)立的“小冰”。這也是你看得見的人工智能。

虛擬人“愛加”

今天的虛擬人還要能聽懂人說話,這是更漫長的長跑。

2002年,科大訊飛的科學(xué)家們開始嘗試讓電腦聽懂聲音——從普通話等級考試的答題開始。

為什么是普通話等級考試?當(dāng)然是因?yàn)檎Z音識別不太容易,需要找到一個更容易上的臺階。你想象一下這兩樣任務(wù):

A. 讓電腦直接聽你說話,猜猜你在說什么;

B. 讓電腦預(yù)先知道你在讀什么,然后聽聽你讀得對不對。

哪個更容易實(shí)現(xiàn)?當(dāng)然是B。這是技術(shù)路線“可達(dá)性”方面的原因,但還另有玄機(jī)。

在科大訊飛研究了十年語音技術(shù)的科大訊飛AI研究院副院長潘嘉還告訴我們,普通話等級考試還有一個特點(diǎn):它的答卷是在錄音室里,用合適的設(shè)備,讓考生盡可能標(biāo)準(zhǔn)地讀出內(nèi)容。而在語音識別的初始階段,工程師們必須先從這種無限接近理想情況下,從高質(zhì)量語音的評測開始做起。

讓計(jì)算機(jī)聽懂語音,在幾年的技術(shù)孵化后,迅速被投入到普通話等級考試中去。為什么一定要搞定這個技術(shù),讓機(jī)器去給人打分?實(shí)際上,為口語考試打分的工作量,遠(yuǎn)遠(yuǎn)超過其它任何一種考試形態(tài)。批作文可以一目十行,但普通話考試的老師必須仔細(xì)聽完每一段語音、不漏過每一個讀錯的字,才能打分。

從最簡單的語音考試,直到今天語音識別系統(tǒng)在嘈雜的車?yán)、會議室里、演講廳里,都能聽懂中文外語方言,這又是長達(dá)二十年的工作。胡國平將這種技術(shù)演進(jìn)方法總結(jié)為“臺階”,在每個技術(shù)發(fā)展階段只做能做到的事情,要成為先驅(qū),不要成為先烈。而在今天,虛擬人身上還裝備著更多的技能:

如何讓虛擬人配合聲音做出動作與表情?

如何用除了語音對話之外的方式,比如通過視覺去判斷人的意圖、對話對象等?

讓虛擬人表達(dá)情感,需要一系列創(chuàng)新

虛擬人是一籮筐人工智能技術(shù)的集合:多模態(tài)感知、語音識別、對話理解、對話生成、語音合成、虛擬人形象生成等等,這里的每一項(xiàng)技術(shù),都可能是中國快速數(shù)字化進(jìn)程中的一朵朵浪花。

二十年來,AI的發(fā)展就是這樣一個個臺階走上來。每一個想解決的問題想開發(fā)的功能,都要從更小的問題入手。而成立于1999年的科大訊飛,也已經(jīng)把數(shù)字人推向了幾十家電視臺等工作場景中去。他們現(xiàn)在想解決的問題,也早已從聽懂“照本宣科”的語音考試,變成了人類與機(jī)器之間的幾個根本問題,由語音業(yè)務(wù)而起,直到讓機(jī)器能聽、能看、能理解這個世界。

從語音到一切

世紀(jì)之交,OCR問題是諸多技術(shù)公司們試圖攻破的關(guān)鍵技術(shù)高峰,與科大訊飛差不多同期建立的漢王公司,便是早早將實(shí)驗(yàn)室里的OCR技術(shù)落地成應(yīng)用產(chǎn)品的公司。最早,OCR被用于掃描錄入文檔,從掃描標(biāo)準(zhǔn)印刷體到識別手寫體文檔,OCR跨過了一個個難關(guān);而在今天,OCR已經(jīng)深入一個個App和產(chǎn)品中,拍照翻譯、“翻譯筆”、名片錄入、手寫輸入法等等,背后都有OCR的功勞。

可能是因?yàn)樗拇_太有用,到了2006年,漢王的OCR技術(shù)拿到了國家科學(xué)技術(shù)進(jìn)步獎二等獎。

也就在這個時(shí)刻,科大訊飛AI研究院首席科學(xué)家魏思覺得,OCR還會在更多領(lǐng)域有潛在的應(yīng)用價(jià)值,特別是教育——2002年,科大訊飛開始的語音評測項(xiàng)目,就與教育、考試系統(tǒng)有著分不開的聯(lián)系,而OCR,顯然它就是進(jìn)一步讓機(jī)器閱卷必需的關(guān)鍵技術(shù)——讓機(jī)器識別答題卡。

它非得突破不可。但機(jī)器要如何識別漢字呢?在漫長的時(shí)間里,科大訊飛的科學(xué)家們嘗試過一個又一個方案。

早期的科大訊飛OCR團(tuán)隊(duì),就用人工分析字體的關(guān)鍵特征來識別單個漢字,他們試圖用這種方式去優(yōu)化科大訊飛輸入法的手寫輸入準(zhǔn)確率——這個2010年上線的輸入法,主打的就是自然高效的語音識別輸入,而手寫同樣作為自然語言,也值得多做一些工作。

就在OCR團(tuán)隊(duì)優(yōu)化手寫識別的時(shí)候,魏思和潘嘉也在同步帶隊(duì)將新興的深度學(xué)習(xí)方法應(yīng)用在語音識別領(lǐng)域。2010年,微軟的一篇論文,宣告了深度神經(jīng)網(wǎng)絡(luò)(DNN)在語音識別中的超高效率,科大訊飛的科學(xué)家們則成了第一批在中文語音上使用DNN方法的先行者。

“為什么我們不拿語音識別的技術(shù)試試呢?”

2014年,科大訊飛在改進(jìn)圖像字符識別OCR技術(shù)時(shí),科大訊飛AI研究院的兩撥科學(xué)家們在辦公室里碰出了這么一個新想法。當(dāng)時(shí),魏思領(lǐng)導(dǎo)的語音識別團(tuán)隊(duì),與OCR團(tuán)隊(duì)的工位相隔不遠(yuǎn),當(dāng)時(shí)兩伙人一對,發(fā)現(xiàn)語音識別與字符識別,其實(shí)存在非常多的相似之處,而在那個時(shí)刻,語音識別團(tuán)隊(duì)已經(jīng)琢磨了四年深度神經(jīng)網(wǎng)絡(luò)(DNN),也借助這個工具把語音的識別率迅速提升,并用到了輸入法等實(shí)際的業(yè)務(wù)里。

“魏思是經(jīng)常會提出很多新的想法的,他的風(fēng)格就是只要能解釋得通,就一定要試一試,并且他會跟下面所有人去分享他這個東西。他能來帶動整個AI研究院的氣氛嘛,科大訊飛能做出一些典型工作,這個氣氛很重要!闭Z音識別專家潘嘉回憶。當(dāng)年,魏思還主導(dǎo)了科大訊飛AI研究院里的“大組會”——在理工科實(shí)驗(yàn)室呆過的同學(xué)對這個名詞想必不會陌生,而在科大訊飛,這個會議承載了各個團(tuán)隊(duì)交流各方向最新國際進(jìn)展的關(guān)鍵場合,科大訊飛AI研究院的三條技術(shù)主線:語音、計(jì)算機(jī)視覺、認(rèn)知智能,魏思和其它資深的技術(shù)專家要參與每個方向的技術(shù)報(bào)告。

很快,科大訊飛AI研究院的科學(xué)家們就用同樣的底層模型,實(shí)現(xiàn)了OCR識別的準(zhǔn)確率突破,并應(yīng)用到了很多年前為OCR規(guī)劃的應(yīng)用場景里:全學(xué)科的試卷閱卷。這套系統(tǒng)很快完成了中高考英文作文識別的任務(wù),并結(jié)合自然語言處理,與閱卷老師共同完成作文的打分工作。

直到今天,科大訊飛的OCR技術(shù)的底層,仍然是這套源于語音識別的深度神經(jīng)網(wǎng)絡(luò)框架。但在OCR之后,讓機(jī)器看懂人的語言,還遠(yuǎn)遠(yuǎn)沒有到頭——接下來的工作,是讓機(jī)器識別數(shù)理化的公式。

從科大訊飛開始OCR研究只能看筆劃特征的單字識別,到今天的OCR識別手寫公式、判斷數(shù)學(xué)題的對錯,再到拍攝錄入結(jié)構(gòu)化、帶有排版信息的文檔表格,已經(jīng)過去了十年?萍脊镜目茖W(xué)家們用幾年、甚至十幾年解決了技術(shù)問題,才有了今天我們習(xí)以為常、人人都能用得上的產(chǎn)品功能。

這仿佛是科大訊飛二十年的縮影:他們早早看到了技術(shù)的潛在價(jià)值、一步一個臺階地研發(fā)與落地。在AI這個容易 “燒錢”的行業(yè)里,科大訊飛活了下來,持續(xù)地進(jìn)行技術(shù)研發(fā)與技術(shù)轉(zhuǎn)化,成了布局全面且擁有多項(xiàng)全球頂尖技術(shù)的人工智能公司。

它的根,是二十年前的簡單的需求:讓電腦學(xué)會說話的語音合成技術(shù)。我們嘗試按時(shí)間線整理科大訊飛擴(kuò)張技術(shù)邊界的過程,它大概是這樣——

而我們最大的發(fā)現(xiàn)是:我們很難看到某一項(xiàng)業(yè)務(wù)的橫空出世,所有的技術(shù)與業(yè)務(wù),都有跡可循,就像這個把語音識別的技術(shù),用在視覺場景的故事一樣。

聰明機(jī)器的誕生

2005年,科大訊飛開始研究語音識別;2015年,一個語音識別的關(guān)鍵技術(shù)應(yīng)用“語音轉(zhuǎn)寫”正式上線,而錄音轉(zhuǎn)寫工具“訊飛聽見”也在這個時(shí)間點(diǎn)開始孵化。2018年,科大訊飛的中英語音翻譯系統(tǒng),首次達(dá)到了CATTI全國翻譯專業(yè)資格(水平)考試二級合格標(biāo)準(zhǔn),這意味著這套系統(tǒng)可以參與到重大會議的翻譯過程中。

為什么這個看起來很直觀的功能,需要用長達(dá)十年的時(shí)間去完成?

因?yàn)楹芏鄳?yīng)用場景,拆開來看,其實(shí)遠(yuǎn)比想象得復(fù)雜。在科大訊飛1024開發(fā)者大會上,胡國平說,會議的轉(zhuǎn)寫、實(shí)時(shí)翻譯與同聲傳譯,其實(shí)是典型的復(fù)雜系統(tǒng)。語音輸入的識別只是其中一部分,為了提高大會實(shí)時(shí)轉(zhuǎn)寫翻譯的效果,還需要讓系統(tǒng)讀懂PPT特別是實(shí)時(shí)或者提前學(xué)習(xí)會議中的術(shù)語,而在同聲傳譯的工作中,需要把傳統(tǒng)的一句句翻譯、語音合成,改成低延時(shí)、全流式的合成方式,并學(xué)習(xí)演講者的聲紋,合成翻譯的語音。

即使是最初的語音識別環(huán)節(jié),會議的轉(zhuǎn)寫系統(tǒng)也面臨著諸多技術(shù)考驗(yàn)。潘嘉告訴我們,會議轉(zhuǎn)寫這種場景下,系統(tǒng)面對的不是一個正在面向機(jī)器說話的人——如果你在用語音輸入法,你會刻意地把字讀清楚,不會有額外的沒有意義的語氣詞;而會議場景,演講者面對的是人,他的語言習(xí)慣會更加自然,可能會口吃,會有“嗯”“啊”這樣的無意義的過渡詞,轉(zhuǎn)寫系統(tǒng)所面對的這些現(xiàn)實(shí)問題,成了AI研究院的科學(xué)家們的技術(shù)難題。

從語音識別,到讓系統(tǒng)知道語言的意義,中間還有一個關(guān)鍵的技術(shù):NLP。這也是接下來一個技術(shù)臺階“認(rèn)知智能”的基礎(chǔ)。NLP技術(shù)在其中發(fā)揮重要作用的教育和消費(fèi)者業(yè)務(wù),成了今天科大訊飛在消費(fèi)者層面最直觀的業(yè)務(wù):會議轉(zhuǎn)寫、教育硬件等等。

當(dāng)系統(tǒng)可以聽懂人在說什么、知道了語言的意思、也早早擁有了合成聲音的能力,科大訊飛就有了語音交互的能力——人類將如何與機(jī)器共存,如何與機(jī)器交流,這樣的重大命題,就要由“理解語言”開始。

每一個實(shí)際的社會需求,都指向某個技術(shù)問題,解決了它,就能讓AI真正為人類做點(diǎn)什么。我們在整理科大訊飛的技術(shù)演進(jìn)時(shí),這種感覺愈加強(qiáng)烈。我們見過太多技術(shù)極強(qiáng)的科技公司的衰落,科大訊飛科技樹的根,語音合成,本身也不像是一條長賽道。但為什么科大訊飛能走到了今天,并且在以“燒錢”著稱的人工智能賽道里,早早盈利上市?答案也就在這個“技術(shù)演進(jìn)”里:需求就在那里,科學(xué)家們需要尋找可達(dá)、階段式上升的技術(shù)路線,并通過系統(tǒng)性創(chuàng)新,把一項(xiàng)項(xiàng)單點(diǎn)、底座式的技術(shù),裝配成最終的應(yīng)用。

科大訊飛AI研究院今天的三大方向:語音、計(jì)算機(jī)視覺與認(rèn)知智能,組成了科大訊飛對外總結(jié)的“AI科技樹”。

認(rèn)知智能是一個有趣的工作,科大訊飛AI研究院的認(rèn)知智能專家盛志超告訴我們,在2014年他剛剛來到科大訊飛時(shí),整個認(rèn)知智能方向也只有十幾個人,研究的正是上面所說的中英文作文的批改。他們要給機(jī)器“注入靈魂”,學(xué)習(xí)教學(xué)專家的評分標(biāo)準(zhǔn):有沒有語法錯誤?有沒有高級的句式和修辭?

緊隨作文評分之后,同樣在2014年,科大訊飛開始讓系統(tǒng)理解醫(yī)學(xué)、法律等各行各業(yè)的知識,2017年,科大訊飛的人工智能首次通過了國家職業(yè)醫(yī)師資格考試,考試成績超越了96%的真人考生。但考試只是表征這套AI的階段性成果,它真正的用途,一是在于讓人工智能系統(tǒng)學(xué)習(xí)專家的知識,幫助基層醫(yī)生提供診斷。而這正推動了“智醫(yī)助理”業(yè)務(wù)成立和發(fā)展,目前已落地全國20多個省,累計(jì)在全國200多個區(qū)縣、3萬多家基層醫(yī)療機(jī)構(gòu)上線,為5萬多名基層醫(yī)生服務(wù) ;二是幫助患者在掛號中預(yù)先填寫癥狀、實(shí)現(xiàn)智能的分診掛號。

這是一個把實(shí)際問題抽象為計(jì)算機(jī)科學(xué)問題的過程。在1024開發(fā)者大會上,科大訊飛高級副總裁胡國平總結(jié)了“系統(tǒng)性創(chuàng)新”的三大要素:一是重大系統(tǒng)性命題到科學(xué)問題的轉(zhuǎn)化能力;二是從單點(diǎn)的核心技術(shù)效果上取得突破,跨過應(yīng)用門檻;三是把創(chuàng)新鏈條上各個關(guān)鍵技術(shù)深度融合,最終實(shí)現(xiàn)真正意義上的系統(tǒng)性創(chuàng)新。

某種程度上說,這也正是科大訊飛這家公司賴以生存的創(chuàng)新機(jī)制——在中國波瀾壯闊的信息化進(jìn)程中,讓電腦幫我們解決一個個問題、讓“技術(shù)創(chuàng)新型”企業(yè)科大訊飛從語音走向全面智能,屹立二十年不倒的,也正是這種面向?qū)嶋H價(jià)值、技術(shù)逐級而上、系統(tǒng)性地解決問題的研究。

聲明: 本文由入駐維科號的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報(bào)。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評論

暫無評論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯
x
*文字標(biāo)題:
*糾錯內(nèi)容:
聯(lián)系郵箱:
*驗(yàn) 證 碼:

粵公網(wǎng)安備 44030502002758號