欧美重变态videos乱,欧美成人视

聰明機(jī)器的誕生，不是一天練成的

2021-11-19 16:31

無人不知人工智能，但擱二十年前，絕對不是這番光景。

如果穿越回去你問人什么是“人工智能”，他們可能會給你一個讓你出戲的回答——網(wǎng)絡(luò)是有記憶的，搜索引擎告訴我們，在21世紀(jì)之初的中文互聯(lián)網(wǎng)上，《人工智能》還是那部2001年上映的，大導(dǎo)演斯皮爾伯格拍攝的科幻電影。如果你想看看與人工智能有關(guān)的新聞，你能在2004年的新浪網(wǎng)里找到一點(diǎn)僅存的痕跡：數(shù)碼相機(jī)的“人工智能”自動對焦、電子游戲的“人工智能”對手玩家、阿蘭·圖靈為人工智能設(shè)計(jì)的“圖靈測試”……

我們對人工智能的期待遠(yuǎn)不止于此。讓技術(shù)趕上人類的想象力，這是一代代科學(xué)家們的時(shí)代任務(wù)。

劉冬宇｜作者

放大燈團(tuán)隊(duì) ｜策劃

拆了那個虛擬人

今天很多科技公司嘗試推出的“虛擬人”或者“數(shù)字人”，可能是我們能想到的人工智能技術(shù)的集大成者之一。一個合格的虛擬人，有一個合成的精巧的形象（可能基于某個真人，也可能憑空創(chuàng)造，可以是三維的，也可以是二次元），能聽能說，談吐得體，配套的表情手勢口型天衣無縫。TA可能出現(xiàn)在新聞播報(bào)、教育陪伴等領(lǐng)域，去實(shí)現(xiàn)更個性化的、跨學(xué)科知識與生活常識內(nèi)容的輸出；TA也可能會出現(xiàn)在直播娛樂、營銷代言等領(lǐng)域，我們希望它永遠(yuǎn)不要翻車、不要出錯，粉絲和品牌也不必戰(zhàn)戰(zhàn)兢兢。

但這很難。虛擬人的每一個動作，都可能是在二十年前，計(jì)算機(jī)科學(xué)家們就開始致力于解決的一項(xiàng)項(xiàng)工作。

比如讓虛擬人“說話”，就是一項(xiàng)頗有年頭的工作。1999年，科大訊飛剛剛成立的時(shí)候，他們最重要的技術(shù)，就是讓電腦發(fā)出合成的語音。但從“能說”，到“說得更好”，就成了直到今天仍然在優(yōu)化升級的工作。

今天的虛擬人，它們的合成聲音更自然了，我們通常用0～5分去標(biāo)記語音的自然度，滿分5分是優(yōu)秀播音員的水平，科大訊飛去年做到了相當(dāng)于4．5分的水平。但數(shù)字人需要的對話與表達(dá)能力，它甚至不完全是一個自然度的問題，不是純粹的語音合成系統(tǒng)能解決的，更需要內(nèi)容理解、情感表達(dá)與合成預(yù)測，這也是現(xiàn)在行業(yè)研究的熱點(diǎn)之一。

還有方言合成、小語種外語語音合成，這兩項(xiàng)工作都需要語言學(xué)家告訴機(jī)器這些特定方言與語種的知識。在剛剛過去的科大訊飛1024開發(fā)者節(jié)上，科大訊飛高級副總裁胡國平介紹說，今天科大訊飛語音合成有24個語種。而方言與小語種的成功合成，又反過來推動了這兩類語音識別的工作——先合成語音，再交給語音識別系統(tǒng)去訓(xùn)練，它能讓100小時(shí)的有監(jiān)督數(shù)據(jù)和無標(biāo)簽文本訓(xùn)練，實(shí)現(xiàn)原本10000小時(shí)數(shù)據(jù)的訓(xùn)練效果。

在近日國際低資源多語種語音識別競賽OpenASR上，科大訊飛－中科大語音及語言信息處理國家工程實(shí)驗(yàn)室的聯(lián)合團(tuán)隊(duì)，就在15個語種、22條賽道的比賽中，全部取得第一。

小樣本訓(xùn)練（科大訊飛又稱之為個性化語音合成），也是這幾年語音合成技術(shù)的突破之一，你說一句話，系統(tǒng)就能仿照你的聲音去合成。這與我們有什么關(guān)系？個性化語音已經(jīng)走進(jìn)你的日常生活，比如導(dǎo)航App已經(jīng)可以錄制自己的導(dǎo)航語音包，就離不開這個小樣本學(xué)習(xí)的模型；如果未來你需要在數(shù)字世界建立一個虛擬化身，想讓它能像你一樣說話，這門技術(shù)顯然還有用武之地。

也比如“唱歌”�？拼笥嶏w1024開發(fā)者大會上，一位“虛擬人”就上臺展示了如同真人般的語音交談，她甚至還能唱歌——讓我們再次回到世紀(jì)之交，2000年那會兒，雅馬哈公司開始研發(fā)一款讓電腦唱歌的軟件“VOCALOID”。

幾年后，基于VOCALOID系統(tǒng)的一個聲庫“初音未來”，成了今天業(yè)界討論“虛擬人”與“虛擬偶像”話題繞不開的名字。很多鼓吹虛擬偶像的媒體不會告訴你的是，她只是一個提線木偶，由編曲者告訴她該唱什么、該怎么唱，要細(xì)化到每一個音節(jié)都要用一大堆參數(shù)去指定她來工作，即使如此，你還是能一耳朵就聽出來這是電子歌姬的聲音。而在聲音之外的形象上，她也不是官方塑造的產(chǎn)物，而是在創(chuàng)作者們的二次創(chuàng)作下，才逐漸擁有了更清晰的形態(tài)、更圓滿的故事與性格。

今天的虛擬人呢？他們早已學(xué)會了自主地完成唱歌的任務(wù)，比如科大訊飛的“虛擬人愛加”、從微軟獨(dú)立的“小冰”。這也是你看得見的人工智能。

虛擬人“愛加”

今天的虛擬人還要能聽懂人說話，這是更漫長的長跑。

2002年，科大訊飛的科學(xué)家們開始嘗試讓電腦聽懂聲音——從普通話等級考試的答題開始。

為什么是普通話等級考試？當(dāng)然是因?yàn)檎Z音識別不太容易，需要找到一個更容易上的臺階。你想象一下這兩樣任務(wù)：

A．讓電腦直接聽你說話，猜猜你在說什么；

B．讓電腦預(yù)先知道你在讀什么，然后聽聽你讀得對不對。

哪個更容易實(shí)現(xiàn)？當(dāng)然是B。這是技術(shù)路線“可達(dá)性”方面的原因，但還另有玄機(jī)。

在科大訊飛研究了十年語音技術(shù)的科大訊飛AI研究院副院長潘嘉還告訴我們，普通話等級考試還有一個特點(diǎn)：它的答卷是在錄音室里，用合適的設(shè)備，讓考生盡可能標(biāo)準(zhǔn)地讀出內(nèi)容。而在語音識別的初始階段，工程師們必須先從這種無限接近理想情況下，從高質(zhì)量語音的評測開始做起。

讓計(jì)算機(jī)聽懂語音，在幾年的技術(shù)孵化后，迅速被投入到普通話等級考試中去。為什么一定要搞定這個技術(shù)，讓機(jī)器去給人打分？實(shí)際上，為口語考試打分的工作量，遠(yuǎn)遠(yuǎn)超過其它任何一種考試形態(tài)。批作文可以一目十行，但普通話考試的老師必須仔細(xì)聽完每一段語音、不漏過每一個讀錯的字，才能打分。

從最簡單的語音考試，直到今天語音識別系統(tǒng)在嘈雜的車?yán)�、會議室里、演講廳里，都能聽懂中文外語方言，這又是長達(dá)二十年的工作。胡國平將這種技術(shù)演進(jìn)方法總結(jié)為“臺階”，在每個技術(shù)發(fā)展階段只做能做到的事情，要成為先驅(qū)，不要成為先烈。而在今天，虛擬人身上還裝備著更多的技能：

如何讓虛擬人配合聲音做出動作與表情？

如何用除了語音對話之外的方式，比如通過視覺去判斷人的意圖、對話對象等？

讓虛擬人表達(dá)情感，需要一系列創(chuàng)新

虛擬人是一籮筐人工智能技術(shù)的集合：多模態(tài)感知、語音識別、對話理解、對話生成、語音合成、虛擬人形象生成等等，這里的每一項(xiàng)技術(shù)，都可能是中國快速數(shù)字化進(jìn)程中的一朵朵浪花。

二十年來，AI的發(fā)展就是這樣一個個臺階走上來。每一個想解決的問題想開發(fā)的功能，都要從更小的問題入手。而成立于1999年的科大訊飛，也已經(jīng)把數(shù)字人推向了幾十家電視臺等工作場景中去。他們現(xiàn)在想解決的問題，也早已從聽懂“照本宣科”的語音考試，變成了人類與機(jī)器之間的幾個根本問題，由語音業(yè)務(wù)而起，直到讓機(jī)器能聽、能看、能理解這個世界。

從語音到一切

世紀(jì)之交，OCR問題是諸多技術(shù)公司們試圖攻破的關(guān)鍵技術(shù)高峰，與科大訊飛差不多同期建立的漢王公司，便是早早將實(shí)驗(yàn)室里的OCR技術(shù)落地成應(yīng)用產(chǎn)品的公司。最早，OCR被用于掃描錄入文檔，從掃描標(biāo)準(zhǔn)印刷體到識別手寫體文檔，OCR跨過了一個個難關(guān)；而在今天，OCR已經(jīng)深入一個個App和產(chǎn)品中，拍照翻譯、“翻譯筆”、名片錄入、手寫輸入法等等，背后都有OCR的功勞。

可能是因?yàn)樗拇_太有用，到了2006年，漢王的OCR技術(shù)拿到了國家科學(xué)技術(shù)進(jìn)步獎二等獎。

也就在這個時(shí)刻，科大訊飛AI研究院首席科學(xué)家魏思覺得，OCR還會在更多領(lǐng)域有潛在的應(yīng)用價(jià)值，特別是教育——2002年，科大訊飛開始的語音評測項(xiàng)目，就與教育、考試系統(tǒng)有著分不開的聯(lián)系，而OCR，顯然它就是進(jìn)一步讓機(jī)器閱卷必需的關(guān)鍵技術(shù)——讓機(jī)器識別答題卡。

它非得突破不可。但機(jī)器要如何識別漢字呢？在漫長的時(shí)間里，科大訊飛的科學(xué)家們嘗試過一個又一個方案。

早期的科大訊飛OCR團(tuán)隊(duì)，就用人工分析字體的關(guān)鍵特征來識別單個漢字，他們試圖用這種方式去優(yōu)化科大訊飛輸入法的手寫輸入準(zhǔn)確率——這個2010年上線的輸入法，主打的就是自然高效的語音識別輸入，而手寫同樣作為自然語言，也值得多做一些工作。

就在OCR團(tuán)隊(duì)優(yōu)化手寫識別的時(shí)候，魏思和潘嘉也在同步帶隊(duì)將新興的深度學(xué)習(xí)方法應(yīng)用在語音識別領(lǐng)域。2010年，微軟的一篇論文，宣告了深度神經(jīng)網(wǎng)絡(luò)（DNN）在語音識別中的超高效率，科大訊飛的科學(xué)家們則成了第一批在中文語音上使用DNN方法的先行者。

“為什么我們不拿語音識別的技術(shù)試試呢？”

2014年，科大訊飛在改進(jìn)圖像字符識別OCR技術(shù)時(shí)，科大訊飛AI研究院的兩撥科學(xué)家們在辦公室里碰出了這么一個新想法。當(dāng)時(shí)，魏思領(lǐng)導(dǎo)的語音識別團(tuán)隊(duì)，與OCR團(tuán)隊(duì)的工位相隔不遠(yuǎn)，當(dāng)時(shí)兩伙人一對，發(fā)現(xiàn)語音識別與字符識別，其實(shí)存在非常多的相似之處，而在那個時(shí)刻，語音識別團(tuán)隊(duì)已經(jīng)琢磨了四年深度神經(jīng)網(wǎng)絡(luò)（DNN），也借助這個工具把語音的識別率迅速提升，并用到了輸入法等實(shí)際的業(yè)務(wù)里。

“魏思是經(jīng)常會提出很多新的想法的，他的風(fēng)格就是只要能解釋得通，就一定要試一試，并且他會跟下面所有人去分享他這個東西。他能來帶動整個AI研究院的氣氛嘛，科大訊飛能做出一些典型工作，這個氣氛很重要�！闭Z音識別專家潘嘉回憶。當(dāng)年，魏思還主導(dǎo)了科大訊飛AI研究院里的“大組會”——在理工科實(shí)驗(yàn)室呆過的同學(xué)對這個名詞想必不會陌生，而在科大訊飛，這個會議承載了各個團(tuán)隊(duì)交流各方向最新國際進(jìn)展的關(guān)鍵場合，科大訊飛AI研究院的三條技術(shù)主線：語音、計(jì)算機(jī)視覺、認(rèn)知智能，魏思和其它資深的技術(shù)專家要參與每個方向的技術(shù)報(bào)告。

很快，科大訊飛AI研究院的科學(xué)家們就用同樣的底層模型，實(shí)現(xiàn)了OCR識別的準(zhǔn)確率突破，并應(yīng)用到了很多年前為OCR規(guī)劃的應(yīng)用場景里：全學(xué)科的試卷閱卷。這套系統(tǒng)很快完成了中高考英文作文識別的任務(wù)，并結(jié)合自然語言處理，與閱卷老師共同完成作文的打分工作。

直到今天，科大訊飛的OCR技術(shù)的底層，仍然是這套源于語音識別的深度神經(jīng)網(wǎng)絡(luò)框架。但在OCR之后，讓機(jī)器看懂人的語言，還遠(yuǎn)遠(yuǎn)沒有到頭——接下來的工作，是讓機(jī)器識別數(shù)理化的公式。

從科大訊飛開始OCR研究只能看筆劃特征的單字識別，到今天的OCR識別手寫公式、判斷數(shù)學(xué)題的對錯，再到拍攝錄入結(jié)構(gòu)化、帶有排版信息的文檔表格，已經(jīng)過去了十年�？萍脊镜目茖W(xué)家們用幾年、甚至十幾年解決了技術(shù)問題，才有了今天我們習(xí)以為常、人人都能用得上的產(chǎn)品功能。

這仿佛是科大訊飛二十年的縮影：他們早早看到了技術(shù)的潛在價(jià)值、一步一個臺階地研發(fā)與落地。在AI這個容易 “燒錢”的行業(yè)里，科大訊飛活了下來，持續(xù)地進(jìn)行技術(shù)研發(fā)與技術(shù)轉(zhuǎn)化，成了布局全面且擁有多項(xiàng)全球頂尖技術(shù)的人工智能公司。

它的根，是二十年前的簡單的需求：讓電腦學(xué)會說話的語音合成技術(shù)。我們嘗試按時(shí)間線整理科大訊飛擴(kuò)張技術(shù)邊界的過程，它大概是這樣——

而我們最大的發(fā)現(xiàn)是：我們很難看到某一項(xiàng)業(yè)務(wù)的橫空出世，所有的技術(shù)與業(yè)務(wù)，都有跡可循，就像這個把語音識別的技術(shù)，用在視覺場景的故事一樣。

聰明機(jī)器的誕生

2005年，科大訊飛開始研究語音識別；2015年，一個語音識別的關(guān)鍵技術(shù)應(yīng)用“語音轉(zhuǎn)寫”正式上線，而錄音轉(zhuǎn)寫工具“訊飛聽見”也在這個時(shí)間點(diǎn)開始孵化。2018年，科大訊飛的中英語音翻譯系統(tǒng)，首次達(dá)到了CATTI全國翻譯專業(yè)資格（水平）考試二級合格標(biāo)準(zhǔn)，這意味著這套系統(tǒng)可以參與到重大會議的翻譯過程中。

為什么這個看起來很直觀的功能，需要用長達(dá)十年的時(shí)間去完成？

因?yàn)楹芏鄳?yīng)用場景，拆開來看，其實(shí)遠(yuǎn)比想象得復(fù)雜。在科大訊飛1024開發(fā)者大會上，胡國平說，會議的轉(zhuǎn)寫、實(shí)時(shí)翻譯與同聲傳譯，其實(shí)是典型的復(fù)雜系統(tǒng)。語音輸入的識別只是其中一部分，為了提高大會實(shí)時(shí)轉(zhuǎn)寫翻譯的效果，還需要讓系統(tǒng)讀懂PPT特別是實(shí)時(shí)或者提前學(xué)習(xí)會議中的術(shù)語，而在同聲傳譯的工作中，需要把傳統(tǒng)的一句句翻譯、語音合成，改成低延時(shí)、全流式的合成方式，并學(xué)習(xí)演講者的聲紋，合成翻譯的語音。

即使是最初的語音識別環(huán)節(jié)，會議的轉(zhuǎn)寫系統(tǒng)也面臨著諸多技術(shù)考驗(yàn)。潘嘉告訴我們，會議轉(zhuǎn)寫這種場景下，系統(tǒng)面對的不是一個正在面向機(jī)器說話的人——如果你在用語音輸入法，你會刻意地把字讀清楚，不會有額外的沒有意義的語氣詞；而會議場景，演講者面對的是人，他的語言習(xí)慣會更加自然，可能會口吃，會有“嗯”“啊”這樣的無意義的過渡詞，轉(zhuǎn)寫系統(tǒng)所面對的這些現(xiàn)實(shí)問題，成了AI研究院的科學(xué)家們的技術(shù)難題。

從語音識別，到讓系統(tǒng)知道語言的意義，中間還有一個關(guān)鍵的技術(shù)：NLP。這也是接下來一個技術(shù)臺階“認(rèn)知智能”的基礎(chǔ)。NLP技術(shù)在其中發(fā)揮重要作用的教育和消費(fèi)者業(yè)務(wù)，成了今天科大訊飛在消費(fèi)者層面最直觀的業(yè)務(wù)：會議轉(zhuǎn)寫、教育硬件等等。

當(dāng)系統(tǒng)可以聽懂人在說什么、知道了語言的意思、也早早擁有了合成聲音的能力，科大訊飛就有了語音交互的能力——人類將如何與機(jī)器共存，如何與機(jī)器交流，這樣的重大命題，就要由“理解語言”開始。

每一個實(shí)際的社會需求，都指向某個技術(shù)問題，解決了它，就能讓AI真正為人類做點(diǎn)什么。我們在整理科大訊飛的技術(shù)演進(jìn)時(shí)，這種感覺愈加強(qiáng)烈。我們見過太多技術(shù)極強(qiáng)的科技公司的衰落，科大訊飛科技樹的根，語音合成，本身也不像是一條長賽道。但為什么科大訊飛能走到了今天，并且在以“燒錢”著稱的人工智能賽道里，早早盈利上市？答案也就在這個“技術(shù)演進(jìn)”里：需求就在那里，科學(xué)家們需要尋找可達(dá)、階段式上升的技術(shù)路線，并通過系統(tǒng)性創(chuàng)新，把一項(xiàng)項(xiàng)單點(diǎn)、底座式的技術(shù)，裝配成最終的應(yīng)用。

科大訊飛AI研究院今天的三大方向：語音、計(jì)算機(jī)視覺與認(rèn)知智能，組成了科大訊飛對外總結(jié)的“AI科技樹”。

認(rèn)知智能是一個有趣的工作，科大訊飛AI研究院的認(rèn)知智能專家盛志超告訴我們，在2014年他剛剛來到科大訊飛時(shí)，整個認(rèn)知智能方向也只有十幾個人，研究的正是上面所說的中英文作文的批改。他們要給機(jī)器“注入靈魂”，學(xué)習(xí)教學(xué)專家的評分標(biāo)準(zhǔn)：有沒有語法錯誤？有沒有高級的句式和修辭？

緊隨作文評分之后，同樣在2014年，科大訊飛開始讓系統(tǒng)理解醫(yī)學(xué)、法律等各行各業(yè)的知識，2017年，科大訊飛的人工智能首次通過了國家職業(yè)醫(yī)師資格考試，考試成績超越了96％的真人考生。但考試只是表征這套AI的階段性成果，它真正的用途，一是在于讓人工智能系統(tǒng)學(xué)習(xí)專家的知識，幫助基層醫(yī)生提供診斷。而這正推動了“智醫(yī)助理”業(yè)務(wù)成立和發(fā)展，目前已落地全國20多個省，累計(jì)在全國200多個區(qū)縣、3萬多家基層醫(yī)療機(jī)構(gòu)上線，為5萬多名基層醫(yī)生服務(wù) ；二是幫助患者在掛號中預(yù)先填寫癥狀、實(shí)現(xiàn)智能的分診掛號。

這是一個把實(shí)際問題抽象為計(jì)算機(jī)科學(xué)問題的過程。在1024開發(fā)者大會上，科大訊飛高級副總裁胡國平總結(jié)了“系統(tǒng)性創(chuàng)新”的三大要素：一是重大系統(tǒng)性命題到科學(xué)問題的轉(zhuǎn)化能力；二是從單點(diǎn)的核心技術(shù)效果上取得突破，跨過應(yīng)用門檻；三是把創(chuàng)新鏈條上各個關(guān)鍵技術(shù)深度融合，最終實(shí)現(xiàn)真正意義上的系統(tǒng)性創(chuàng)新。

某種程度上說，這也正是科大訊飛這家公司賴以生存的創(chuàng)新機(jī)制——在中國波瀾壯闊的信息化進(jìn)程中，讓電腦幫我們解決一個個問題、讓“技術(shù)創(chuàng)新型”企業(yè)科大訊飛從語音走向全面智能，屹立二十年不倒的，也正是這種面向?qū)嶋H價(jià)值、技術(shù)逐級而上、系統(tǒng)性地解決問題的研究。