訂閱
糾錯(cuò)
加入自媒體

度家語(yǔ)音語(yǔ)義一體化方案是語(yǔ)音識(shí)別最優(yōu)解?

什么是智能?

可以找到的回答有很多,不過(guò)近幾年逐漸有了統(tǒng)一的答案。

當(dāng)你想要知道明天的天氣情況時(shí),可以直接問(wèn)家里的智能音箱;當(dāng)你開車時(shí)想要切換導(dǎo)航路線,可以直接說(shuō)出新的目的地;當(dāng)你感覺(jué)空調(diào)不夠涼爽的時(shí)候,也可以直接告訴空調(diào)把溫度調(diào)低一些……

智能化的標(biāo)準(zhǔn)或許很廣泛,但語(yǔ)音交互已經(jīng)是最基礎(chǔ)的門檻。

剛剛結(jié)束的2021云智技術(shù)論壇上,百度智能云將不小的篇幅留給了度家語(yǔ)音語(yǔ)義一體化平臺(tái)。在語(yǔ)音能力逐漸成為“智能”的代名詞,并升格為IoT產(chǎn)品標(biāo)配的大環(huán)境下,百度智能云所謀為何?

01 技術(shù)的幸存者偏差

和機(jī)器“對(duì)話”似乎并不是什么新概念。

早在上世紀(jì)80年代,語(yǔ)音識(shí)別就開始走出實(shí)驗(yàn)室有了商業(yè)應(yīng)用,盡管機(jī)器還只能識(shí)別單個(gè)詞匯,識(shí)別準(zhǔn)確率也維持在相當(dāng)?shù)偷乃疁?zhǔn),卻未能阻擋人們的嘗鮮心態(tài),IBM的Via-vioce系統(tǒng)、微軟的Whisper系統(tǒng)、英國(guó)劍橋大學(xué)的HTK系統(tǒng)等先后誕生。

2010年是語(yǔ)音識(shí)別的轉(zhuǎn)折點(diǎn),一些學(xué)者開始將深度學(xué)習(xí)技術(shù)引入到語(yǔ)音識(shí)別領(lǐng)域,語(yǔ)音識(shí)別的準(zhǔn)確率不斷刷新紀(jì)錄。

到了2015年末,百度語(yǔ)音識(shí)別的準(zhǔn)確率首次達(dá)到90%,等同于人類速記同樣一段對(duì)話的水平。Google在2017年6月宣布語(yǔ)音識(shí)別的準(zhǔn)確率達(dá)到95%,短短10個(gè)月后就被百度以97%的準(zhǔn)確率超越。

技術(shù)被證實(shí)是產(chǎn)業(yè)繁榮的催化劑,語(yǔ)音識(shí)別的商業(yè)化就是直接的例子。

根據(jù)華西證券的調(diào)研報(bào)告,AIoT是大眾接觸消費(fèi)者最普遍的渠道,目前智能語(yǔ)音已經(jīng)應(yīng)用于智能手機(jī)、可穿戴設(shè)備、智能車載、智能家居等產(chǎn)品,2020年的市場(chǎng)規(guī)模為241.1億元,預(yù)計(jì)到2023年市場(chǎng)規(guī)模將達(dá)到570.3億元。

語(yǔ)音技術(shù)的成熟以及語(yǔ)音市場(chǎng)的持續(xù)繁榮,是否預(yù)示著語(yǔ)音交互的用戶體驗(yàn)已經(jīng)徹底告別嘗鮮期?

事實(shí)可能會(huì)讓人有些失望。心理學(xué)中有個(gè)概念叫幸存者偏差,如果把目光聚焦于百度這樣的技術(shù)派,語(yǔ)音交互已然邁向了新臺(tái)階,但在相當(dāng)比重的智能硬件產(chǎn)品中,諸如喚醒率偏低、識(shí)別率低、答非所問(wèn)等現(xiàn)象仍然是一種常態(tài)。像百度這樣的頭部玩家仍在刷新紀(jì)錄,可很多主打語(yǔ)音控制產(chǎn)品還處于偽智能的階段。

02 度家給出的最優(yōu)解

并不難對(duì)這一市場(chǎng)現(xiàn)象給出合理的解釋。

語(yǔ)音技術(shù)在消費(fèi)級(jí)業(yè)務(wù)中的落地通常有兩種方式:一是將語(yǔ)音技術(shù)能力封裝為SDK或API,下游的客戶或開發(fā)者可以直接調(diào)用,優(yōu)勢(shì)在于成本較低,但技術(shù)能力因人而異;二是提供定制化的解決方案,即根據(jù)客戶需求進(jìn)行定制化、深度合作,在一定程度上保障了終端的用戶體驗(yàn),缺點(diǎn)是成本偏高。

這大抵也是百度智能云推出度家平臺(tái)的原因所在,區(qū)別于上述兩種合作模式,度家語(yǔ)音語(yǔ)義一體化的思路讓外界看到了三重優(yōu)勢(shì):

首先,度家輸出的是軟硬一體的解決方案,集成了百度自主研發(fā)的鴻鵠芯片,在性能、兼容性、擴(kuò)展性上打破了傳統(tǒng)方案的制約。

比如傳統(tǒng)芯片的平均功耗往往很高,而鴻鵠芯片將提取的語(yǔ)音特征直接在云端進(jìn)行高精準(zhǔn)識(shí)別,既保證了語(yǔ)音識(shí)別的準(zhǔn)確性,平均功耗也只有100mw;鴻鵠芯片支持多達(dá)六路的麥克陣列語(yǔ)音信號(hào),并支持deep peak、deep cnn語(yǔ)音喚醒以及百度最新的雙麥克模型波束算法,可以滿足設(shè)備喚醒后360度無(wú)死角識(shí)別;同時(shí)還能和各種安卓、linux芯片集成為onboard方案。

其次,語(yǔ)音語(yǔ)義一體化彌補(bǔ)了語(yǔ)義能力的短板,如果只有語(yǔ)音識(shí)別而缺少語(yǔ)義理解,折射到用戶體驗(yàn)上就是答非所問(wèn)的尷尬。

除了流式多級(jí)截?cái)嘧⒁饬δP汀⒍说蕉私5日Z(yǔ)音識(shí)別上的算法優(yōu)勢(shì),百度智能云的另一個(gè)強(qiáng)項(xiàng)在于語(yǔ)義理解。在傳統(tǒng)的開發(fā)模式中,開發(fā)者想要讓理解語(yǔ)音的指令,需要花費(fèi)很大的功夫理解意圖、詞槽、模板、特征詞等等,度家平臺(tái)的方案是語(yǔ)義物模型,開發(fā)者只需要理解設(shè)備屬性、控制動(dòng)作、設(shè)備狀態(tài)等內(nèi)容,進(jìn)行簡(jiǎn)單的配置就能驅(qū)動(dòng)設(shè)備根據(jù)用戶的語(yǔ)音指令作出正確的反應(yīng)。

最后,通過(guò)開源框架和訂制開發(fā)板的產(chǎn)品矩陣,幫助開發(fā)者進(jìn)一步降低技術(shù)落地的時(shí)間和成本,加速語(yǔ)音技術(shù)的規(guī);瘧(yīng)用。

譬如在硬件層面,度家和樂(lè)鑫聯(lián)合開發(fā)了集成鴻鵠芯片的開發(fā)模組,采用了雙麥克風(fēng)的設(shè)計(jì),可以在5米范圍內(nèi)精準(zhǔn)拾音,同時(shí)搭載了DeepPeak喚醒引擎、端到端建模技術(shù)和流式截?cái)嗟亩鄬幼⒁饬δP?極大地提升了語(yǔ)音識(shí)別的準(zhǔn)確度,并且擁有方言識(shí)別、中英文混合識(shí)別等能力。配合百度官方的開源框架,開發(fā)者在極短時(shí)間里就能將智能語(yǔ)音應(yīng)用于智能家居、智能機(jī)器人等產(chǎn)品。

在智能語(yǔ)音市場(chǎng)高速增長(zhǎng),而語(yǔ)音控制的用戶體驗(yàn)卻有些掉隊(duì)的局面下,度家的語(yǔ)音語(yǔ)義一體化方案可以說(shuō)是當(dāng)前的最優(yōu)解。

03 萬(wàn)物皆可語(yǔ)音控制

百度智能云押注度家的野心也就不難理解。

一種解釋是智能語(yǔ)音市場(chǎng)的掘金空間。曾有人在2019年對(duì)AI市場(chǎng)進(jìn)行細(xì)分,其中智能語(yǔ)音的市場(chǎng)占比為22%,僅次于已經(jīng)實(shí)現(xiàn)大規(guī)模商業(yè)化的機(jī)器視覺(jué),倘若算上自然語(yǔ)言理解16%的市場(chǎng)份額,等待語(yǔ)音語(yǔ)義一體化的將是一個(gè)體量不輸于機(jī)器視覺(jué)的藍(lán)海市場(chǎng),百度智能云無(wú)疑有著充足的用武之地。

即使是在智能家居市場(chǎng),行業(yè)也還處于起步階段。2020年空調(diào)的出貨量為5100萬(wàn)臺(tái),智能語(yǔ)音的搭載率僅為15%,小家電市場(chǎng)在2020年的銷售額約為7000億元,可智能語(yǔ)音的搭載率卻不到1%。以電視市場(chǎng)高達(dá)70%的智能語(yǔ)音搭載率為準(zhǔn)繩的話,僅智能家居行業(yè)就存在著毋庸置疑的機(jī)會(huì)。

如果只是從市場(chǎng)規(guī)模的維度審視度家,可能會(huì)低估百度的戰(zhàn)略布局,何況還有一種站在長(zhǎng)遠(yuǎn)視角上的解釋。

綜合不同調(diào)研機(jī)構(gòu)的報(bào)告,目前智能音箱在國(guó)內(nèi)的月銷量穩(wěn)定在300萬(wàn)臺(tái)左右,累計(jì)出貨量已經(jīng)超過(guò)1億臺(tái)。按照國(guó)內(nèi)當(dāng)前的城鎮(zhèn)化水平,智能音箱在城鎮(zhèn)家庭中的滲透率業(yè)已超過(guò)20%,等同于智能手機(jī)在2012年前后的滲透程度,也就預(yù)示著語(yǔ)音交互的市場(chǎng)教育有了初步的基礎(chǔ)。

在百度的戰(zhàn)略謀劃中,小度系列產(chǎn)品擔(dān)綱了消費(fèi)者教育的角色,小度的屢屢破圈就是最直接的寫照。作為百度AI To B的核心渠道,百度智能云自然扮演了智能語(yǔ)音向B端輸出的角色,進(jìn)而從B和C兩端加速智能語(yǔ)音的市場(chǎng)滲透。

可以佐證的是:度家已經(jīng)為TCL的高端電視提供音喚醒及識(shí)別服務(wù),解決了TCL原有語(yǔ)音方案遠(yuǎn)場(chǎng)喚醒效果不佳、抗外噪能力弱等痛點(diǎn),重構(gòu)了TCL高端電視的語(yǔ)音交互體驗(yàn),未來(lái)TCL會(huì)有更多的家電將搭載度家的服務(wù);針對(duì)掃地機(jī)器人、集成灶等工作環(huán)境復(fù)雜難以語(yǔ)音控制的產(chǎn)品,度家通過(guò)端云一體的方案消除了技術(shù)落地的瓶頸;即便是智能風(fēng)扇、咖啡機(jī)等低成本的小家電上,在鴻鵠芯片的賦能下實(shí)現(xiàn)了控制場(chǎng)景下的自由說(shuō),不再局限于劃定的指令詞。

就度家最新的動(dòng)作來(lái)看,正在借助端云一體、開源框架、訂制硬件的綜合優(yōu)勢(shì),給予開發(fā)者足夠的自主權(quán),進(jìn)一步降低智能語(yǔ)音技術(shù)的應(yīng)用和開發(fā)門檻,讓開發(fā)者們以極低的成本將智能語(yǔ)音移植到新產(chǎn)品中,以潛移默化的方式逐步消除幸存者偏差的現(xiàn)象。

畢竟人類大腦每天處理的信息中,聲音信息的占比高達(dá)20%。作為人類和外界最重要的溝通紐帶,智能語(yǔ)音注定是人機(jī)交互的主流趨勢(shì)之一,萬(wàn)物皆可語(yǔ)音控制將是屬于智能化時(shí)代的鮮明特征。

04 寫在最后

確切地說(shuō),度家只是百度智能云在IoT領(lǐng)域的落子之一。根據(jù)IDC發(fā)布的報(bào)告,在中國(guó)AI公有云服務(wù)市場(chǎng),百度智能云市場(chǎng)份額連續(xù)四年排名中國(guó)第一。

正如2021云智技術(shù)論壇蘇州站上所呈現(xiàn)的,端邊云全面智能化的天工AIoT平臺(tái)將AI能力和物聯(lián)網(wǎng)進(jìn)行了深度融合,諸如美欣達(dá)等合作伙伴在百度智能云的賦能下實(shí)現(xiàn)了低碳運(yùn)營(yíng),AIoT視覺(jué)智能已經(jīng)深入到工業(yè)質(zhì)檢、智能制造、城市管理等場(chǎng)景中……

攜AI進(jìn)場(chǎng)的百度智能云,正進(jìn)一步釋放了物聯(lián)網(wǎng)底層能量。

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯(cuò)
x
*文字標(biāo)題:
*糾錯(cuò)內(nèi)容:
聯(lián)系郵箱:
*驗(yàn) 證 碼:

粵公網(wǎng)安備 44030502002758號(hào)