從語(yǔ)音識(shí)別到語(yǔ)義識(shí)別,中間還有多長(zhǎng)的路要走?
圖|語(yǔ)音發(fā)展史
語(yǔ)音識(shí)別產(chǎn)品應(yīng)用
語(yǔ)音識(shí)別作為打造良好交互體驗(yàn)的重要前提,今年的發(fā)展可謂是持續(xù)火爆。在智能音箱市場(chǎng),首先想到的就是Amazon的Echo。Echo作為將自然語(yǔ)音轉(zhuǎn)化為在線指令的設(shè)備,其效率之高無(wú)容置疑,并且可保持在線的自然環(huán)境中的自然語(yǔ)言識(shí)別。
Echo的核心技術(shù)在于它集成的智能語(yǔ)音助手Alexa。在2015年6月25日亞馬遜曾宣布,將開(kāi)放智能語(yǔ)音硬件Echo的內(nèi)置AI助手Alexa的語(yǔ)音技術(shù),供第三方開(kāi)發(fā)者免費(fèi)使用。由此可見(jiàn),亞馬遜向用戶呈現(xiàn)出來(lái)的不僅僅是技術(shù)上的領(lǐng)先,還有真正落地的產(chǎn)品,以及良好的產(chǎn)品體驗(yàn)。
與此同時(shí),國(guó)內(nèi)語(yǔ)音識(shí)別領(lǐng)域也開(kāi)始爭(zhēng)奪大戰(zhàn)。以科大訊飛聽(tīng)見(jiàn)系列產(chǎn)品為例,自2015年發(fā)布以來(lái),總用戶突破1000萬(wàn),應(yīng)用于30余個(gè)行業(yè)。目前,已經(jīng)形成了以聽(tīng)見(jiàn)智能會(huì)議系統(tǒng)、訊(詢)問(wèn)筆錄系統(tǒng)、聽(tīng)見(jiàn)轉(zhuǎn)寫網(wǎng)站、錄音寶APP、聽(tīng)見(jiàn)智能會(huì)議服務(wù)等以智能語(yǔ)音轉(zhuǎn)寫技術(shù)為核心的產(chǎn)品和服務(wù)體系。
語(yǔ)音識(shí)別技術(shù)瓶頸
從下圖可以看出,語(yǔ)音識(shí)別的誤字率呈明顯的下降趨勢(shì)。
然而,即使達(dá)到100%的準(zhǔn)確率,僅限于輸入法功用的語(yǔ)音識(shí)別也無(wú)人機(jī)互動(dòng)的意義,它還算不得真正的人工智能。
我們所期望的語(yǔ)音識(shí)別實(shí)質(zhì)上是人機(jī)交互,大致上可以理解為人與機(jī)器之間無(wú)障礙溝通。要達(dá)到這種期望,光靠誤字率很低甚至為零的語(yǔ)音識(shí)別可能并不能做到,那么就需要有“大腦”的語(yǔ)義識(shí)別了,相對(duì)于語(yǔ)音識(shí)別,它可以通過(guò)人們的語(yǔ)氣、談話的內(nèi)容等等判斷用戶說(shuō)的話到底是什么意思,而不是簡(jiǎn)單的一字不落的識(shí)別出所說(shuō)的內(nèi)容。比如說(shuō):小沈陽(yáng)長(zhǎng)得可真帥!在不同的語(yǔ)境下卻有著截然相反的意思。
從“傻白甜”的語(yǔ)音識(shí)別到“帶腦子”的語(yǔ)義識(shí)別,還有很長(zhǎng)的路要走。
口音和噪聲
語(yǔ)音識(shí)別中最明顯的一個(gè)缺陷就是對(duì)口音和背景噪聲的處理。最直接的原因是大部分的訓(xùn)練數(shù)據(jù)都是高信噪比、美式口音的英語(yǔ)。
上圖中可以看到有口音的情況下,人的錯(cuò)誤率低于模型;從高信噪比到低信噪比,人與模型之間的錯(cuò)誤率差距急劇擴(kuò)大。
語(yǔ)義錯(cuò)誤
實(shí)際上語(yǔ)音識(shí)別系統(tǒng)的目標(biāo)并不是誤字率。人們更關(guān)心的是語(yǔ)義錯(cuò)誤率。
舉個(gè)語(yǔ)義錯(cuò)誤的例子,比如某人說(shuō)“l(fā)et’smeetupTuesday”,但語(yǔ)音識(shí)別預(yù)測(cè)為“l(fā)et’smeetuptoday”。我們也可能在單詞錯(cuò)誤的情況下保持語(yǔ)義正確,比如語(yǔ)音識(shí)別器漏掉了“up”而預(yù)測(cè)為“l(fā)et’smeetTuesday”,這樣話語(yǔ)的語(yǔ)義是不變的。
將模型與人工進(jìn)行比較時(shí)的重點(diǎn)是查找錯(cuò)誤的本質(zhì),而不僅僅是將誤字率作為一個(gè)決定性的數(shù)字。
微軟研究人員將他們的人工級(jí)語(yǔ)音識(shí)別器的錯(cuò)誤與人類進(jìn)行過(guò)比較。他們發(fā)現(xiàn)的一個(gè)差異是該模型比人更頻繁地混淆“uh”和“uhhuh”。而這兩條術(shù)語(yǔ)的語(yǔ)義大不相同:“uh”只是個(gè)填充詞,而“uhhuh”是一個(gè)反向確認(rèn)。這個(gè)模型和人出現(xiàn)了許多相同類型的錯(cuò)誤。
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
即日-10.29立即報(bào)名>> 2024德州儀器嵌入式技術(shù)創(chuàng)新發(fā)展研討會(huì)
-
10月31日立即下載>> 【限時(shí)免費(fèi)下載】TE暖通空調(diào)系統(tǒng)高效可靠的組件解決方案
-
即日-11.13立即報(bào)名>>> 【在線會(huì)議】多物理場(chǎng)仿真助跑新能源汽車
-
11月14日立即報(bào)名>> 2024工程師系列—工業(yè)電子技術(shù)在線會(huì)議
-
12月19日立即報(bào)名>> 【線下會(huì)議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
-
即日-12.26火熱報(bào)名中>> OFweek2024中國(guó)智造CIO在線峰會(huì)
推薦專題
- 1 Intel宣布40年來(lái)最重大轉(zhuǎn)型:年底前裁員15000人、拋掉2/3房產(chǎn)
- 2 因美封殺TikTok,字節(jié)股價(jià)骨折!估值僅Meta1/5
- 3 宏山激光重磅發(fā)布行業(yè)解決方案,助力智能制造產(chǎn)業(yè)新飛躍
- 4 國(guó)產(chǎn)AI芯片公司破產(chǎn)!白菜價(jià)拍賣
- 5 具身智能火了,但規(guī)模落地還需時(shí)間
- 6 國(guó)產(chǎn)英偉達(dá)們,抓緊沖刺A股
- 7 三次錯(cuò)失風(fēng)口!OpenAI前員工殺回AI編程賽道,老東家捧金相助
- 8 英特爾賦能智慧醫(yī)療,共創(chuàng)數(shù)字化未來(lái)
- 9 英偉達(dá)的麻煩在后頭?
- 10 將“網(wǎng)紅”變成“商品”,AI“爆改”實(shí)力拉滿
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市