訂閱
糾錯
加入自媒體

認知智能堪比魔法:回顧2021的重大突破

2022-01-11 15:21
51CTO
關注

作者丨云昭

【51CTO原創(chuàng)稿件】隨著人工智能解決方案越來越廣泛的應用,僅僅在視覺、聽覺、觸覺等層次的感知,已經滿足不了社會大眾對于“真正智能”的期望。認知智能,被視為人工智能熱潮能否進一步突破天花板,形成更大產業(yè)規(guī)模的關鍵技術。

認知智能的目標就是能模擬人腦的思考過程,具有對數據和語言的理解、推理、解釋、歸納、演繹的能力,讓人工智能真正“智能”。這就使得 AI 賦能更多大規(guī)模場景成為可能,如智能機器人、無人駕駛、無人機、AR/VR、個性化推薦等智能服務等。

一方面,計算機視覺、語音識別等感知技術紛紛出現瓶頸,比如圖像識別方面的自適應性和泛化能力不足,醫(yī)學影像領域的三維重建、AR/VR 領域與環(huán)境有效進行交互的性能不足,語音識別領域的語義多樣性等問題,推動著智能從感知邁向認知。另一方面,自然語言處理、智能對話、智能推薦等認知智能技術呈現出多模態(tài)、預訓練大模型等研究熱潮。

另外,如何通過 AI 技術手段達到降本、增收、提效、安全的智能化升級,已經成為各行業(yè)的切實訴求。

回顧過去一年,預訓練大模型風起云涌、智能推薦與搜索技術依舊火熱,腦機接口、虛擬主播成為新的風向標,竹間智能、第四范式、瀾舟科技、智源研究院、明略科技等一批科技企業(yè)帶來了很多有關認知智能技術商業(yè)落地的思考。

可以說,2021,是認知智能發(fā)展與產業(yè)數智化轉型開始深度融合碰撞的一年。各大人工智能領域的玩家也都紛紛擁抱新一代的認知智能技術。

專注電商領域的「樂言科技」,推出的第四代客服機器人系統(tǒng)“樂語助人”,具有自動應答、能深度訓練對話和擬人化客服接待等特點,為商家提供自動接待買家咨詢、智能推薦、智能營銷、智能質檢等一站式電商智能客服解決方案,目前已服務兩萬多家電商客戶。

7 月,中國人民大學聯(lián)合智源研究院,推出悟道“文瀾”。它具備強大的視覺 - 語言檢索能力和一定的常識理解能力。在“文瀾”多模態(tài)模型的基礎上,研發(fā)團隊還開發(fā)了應用《AI 心情電臺》,可以為圖像搭配符合意境的歌曲。

9 月,第四范式與人民日報社正式簽約,共同打造新媒體主流算法,在保證海量內容與用戶個性化需求精準匹配的同時,實現主流媒體優(yōu)質內容的傳播,推動傳媒行業(yè)在 AI 時代的轉型與創(chuàng)新。

科大訊飛推出的飛魚系統(tǒng)集成了科大訊飛核心語音識別、語義理解技術,并提供豐富的車聯(lián)網應用場景,供使用方根據場景需要進行定制開發(fā),通過合理的場景交互邏輯設計,可以方便使用的同時又避免產生相應的風險;同時,科大訊飛通過聲紋識別、多模聲源定位等技術,可以將聲音鎖定在某個特定人,或者某個特定發(fā)音方向,從而可以很好地保護使用安全。

百分點科技提出“符號主義”引導下的認知智能行業(yè)落地新范式。它首先構建出該領域業(yè)務的本體框架,然后再結合深度學習和樣例數據細化知識圖譜的本體和事實數據,并根據知識圖譜應用中的反饋信息不斷調整和優(yōu)化。

基礎研究上,知識圖譜被認為是最有期望將感知智能推向認知智能的關鍵。知識圖譜可以幫助企業(yè)更好地完成知識的積累、傳承和復用,有力解決知識資產開發(fā)利用的難題,因具備優(yōu)異的普適性,可做到跨行業(yè)應用,助力企業(yè)不斷實現創(chuàng)新突破,向著智慧型企業(yè)邁進。

整體看,知識圖譜目前分為通用知識圖譜和領域知識圖譜。在語義搜索、推薦系統(tǒng),問答系統(tǒng)等應用場景中發(fā)揮了很大的作用,它正在金融、能源、醫(yī)療、制造、零售等各行業(yè)領域的場景中發(fā)揮影響力。

由于這種方法知識表征簡單和具有知識的大規(guī)模性,在語義搜索中得到很好的應用。因此谷歌、阿里、騰訊、竹間智能、百度智能云、海致星圖、百分點科技、明略科技等一眾研究機構紛紛針對知識圖譜開展了大量的應用和研究工作。

與此同時,圖神經網絡(GNN)將深度神經網絡從處理傳統(tǒng)非結構化數據(如圖像、語音和文本序列)推廣到更高層次的結構化數據(如圖結構)。大規(guī)模的圖數據可以表達豐富和蘊含邏輯關系的人類常識和專家規(guī)則,圖節(jié)點定義了可理解的符號化知識,不規(guī)則圖拓撲結構表達了圖節(jié)點之間的依賴、從屬、邏輯規(guī)則等推理關系?梢哉f圖神經網絡是對機器學習進行智慧賦能最重要的落地路徑。

最后,多模態(tài)、大模型預訓練網絡有望成為 AI 領域的一個研發(fā)范式。例如, 7 月,中國人民大學與智源研究院從視覺和語言的關系出發(fā),利用互聯(lián)網產生的 6.5 億成對的圖片與文字,用自監(jiān)督的任務完成一個目前最大的中文通用圖文預訓練模型悟道?文瀾,由此去初步探索 AI 在多模態(tài)環(huán)境中學習語言的可能性。據官方介紹,文瀾 2.0 實現 7 種不同語言的生成和理解,刷新了創(chuàng)下多語言預訓練模型的最高記錄,在圖文檢索、圖像問答等任務上達到了世界領先水平。

盤點 2021,有哪些值得關注的認知技術落地場景呢?自然語言處理、智能人機交互、智能搜索推薦等成為今年各大 AI 企業(yè)的強勢發(fā)力點。

NLP 作為人工智能皇冠上的明珠,微軟、谷歌、騰訊等業(yè)內巨頭紛紛發(fā)布前沿的硬核成果。

ACL2021 大會上,微軟研究院發(fā)表了跨語言命名實體識別、代碼搜索、音樂生成、Hi-Transformer、預訓練模型、語義交互等 6 大研究成果。其中,Hi-Transformer 能夠處理 Transformer 由于速度和顯存限制而無法處理的較長文檔,模型效果引起研究者的注意。

騰訊看點和阿爾伯塔大學的研究者提出了一種簡單但高效的預訓練方法:Lichee。它是一個多模態(tài)內容理解算法框架項目,其中包含數據增強、預訓練引擎、常見模型以及推理加速等模塊。利用多種粒度的輸入信息來增強預訓練語言模型的表示能力。Lichee 在騰訊看點、騰訊視頻、內容管線、QQ 等業(yè)務場景均有落地,并平均減少標注樣本量 40% 。經過多次實踐迭代,可以大幅縮短信息流內容理解需求的研發(fā)周期提升人效。

騰訊 AI Lab、香港中文大學研究出一種用單語記憶實現高性能神經網絡翻譯的方法。該研究提出了一種新框架,該框架使用單語記憶并以跨語言方式執(zhí)行可學習的記憶檢索。由于能夠利用單語數據,該研究還證明了所提模型在低資源和領域適應場景中的有效性。

愛奇藝深度學習云算法團隊聯(lián)合慕尼黑工業(yè)大學的研究者提出一套名為 I2UV-HandNet 的高精度手部重建系統(tǒng),通過「看」單目 RGB 人手圖片即能實現高精度 3D 重建。該技術有望應用到愛奇藝下一代 VR 設備中,從而減少對手柄的依賴,實現與虛擬世界的高質量對話,打造出更輕、更快和更舒適的 VR 設備。同時,手勢重建、交互技術目前也同步在愛奇藝其他業(yè)務場景和硬件終端進行落地探索。

來自 DeepMind、谷歌的研究者展示了機器學習可以用于從混合整數規(guī)劃(MIP) 實例數據集自動構建有效的啟發(fā)式算法。在實踐中經常會出現這樣的用例,即應用程序需要用不同的問題參數解決同一高級語義問題的大量實例。

過去的兩三年里,預訓練模型在自然語言領域得到非常廣泛的重視,各大公司學校都開展了預訓練模型的研究,趨勢就是預訓練模型越大越好。

但也存在一個問題,就是模型越大訓練的成本就越高,在提供服務的時候也對客戶的機器設備能力要求非常高,從而導致很多硬件能力低的中小企業(yè)用不起這些重量級預訓練模型;谶@一痛點,瀾舟科技一直在考慮是否能把模型做得小一點,提高訓練速度的同時也降低使用成本,名為孟子的輕量化預訓練模型應運而生。

孟子輕量化的預訓練模型是利用大規(guī)模的語料庫,以無監(jiān)督的方式訓練一個大規(guī)模的語言模型,這個語言模型輸入一個句子或一個片段,基本上可以定義出每一個詞和每個句子的語義,可以應用在機器翻譯、問答搜索等場景。“在預訓練基礎上,瀾舟科技開發(fā)了新一代的機器翻譯、文本生成和行業(yè)搜索引擎等技術,并通過產業(yè)合作實現了技術落地!

大規(guī)模有監(jiān)督數據的技術紅利逐漸減弱,AI 新基建需要更低的研發(fā)與部署成本,通過預訓練與自訓練平臺,最終還要沉淀成標準化、低成本復制的模型,并與產業(yè)進行更深度的融合,挖掘出更多降低人工成本的新應用點。

可以說,當下 NLP 處于一個美好的時代,雖然還有很多問題沒有解決,但已經有很多成功的商業(yè)應用。隨著面向 NLP 的大規(guī)模語言模型的工程化落地,將打開數字化轉型的新階段。

2021,阿里技術團隊在雙十一的搜索與推薦場景中,使用深度增強學習與自適應在線學習,用戶點擊率提升 10-20%。通過持續(xù)機器學習和模型優(yōu)化建立決策引擎,對海量用戶行為以及百億級商品特征進行實時分析,幫助每一個用戶迅速發(fā)現寶貝、為商家?guī)硗毒壍馁I家,提高人和商品的配對效率,進而可以極大提升用戶購物體驗。

字節(jié)跳動技術團隊結合云能力,使得火山引擎進一步豐富了資源生態(tài)的靈活性以及算法效果的個性化,同時也解決了本地包大小問題,做到資源的動態(tài)拉取和使用;配合強大的運營平臺可以更貼切地為企業(yè)做到個性化定制服務。

58 技術團隊則在分類信息業(yè)務背景下,在搜索推薦能力建設上做出了有建設性的關鍵實踐,例如業(yè)務聯(lián)動的綜合排序框架,多通道的深度學習模型等。在當下產業(yè)化升級的浪潮中,大大提升了不同需求的用戶使用體驗和點擊轉化率。

QQ 瀏覽器實驗室自研了預訓練模型“神舟”,這個模型具有百億參數的訓練能力,可以為搜索、推薦、內容理解等多種業(yè)務場景帶來直接幫助,提升各種自然語言理解算法效果。通過該模型, QQ 瀏覽器業(yè)務中出現的如評論理解、搜索 Query 推薦等 NLP 需求不僅得以滿足,還減少了 40% 以上所需的標注數據量和相應的研發(fā)時間,節(jié)省了標注的成本,大大提升了研發(fā)效率。

從點擊率、轉化率、配對效率到業(yè)務聯(lián)動、研發(fā)效率和用戶體驗,智能搜索與推薦的發(fā)展,正在以一種無聲又驚人的力量改造著社會的方方面面。

對話機器人目前在行業(yè)里,一直是認知智能技術最為熱門的落地應用。認知智能讓機器具備像人一樣自然、流暢、有趣的交流逐漸成為可能。智能音箱、智能客服、數字人、智能陪護機器人等產品越來越多的出現在人們的生活和工作中。

9 月,百度發(fā)布全球最大規(guī)模的對話生成模型 PLATO-XL。在人機智能對話領域,PLATO-XL 全面超越 Facebook、谷歌和微軟發(fā)布的最新對話模型,中英文人機對話效果全球領先。

11 月 ,在騰訊數字生態(tài)大會云智能專場上,騰訊云小微發(fā)布基于新一代多模態(tài)人機交互技術的全新數智人產品矩陣,擁有文旅導覽、金融客服、多語種主播、手語主播等不同職業(yè)身份和技能,可提供定制化角色服務。數智人擁有形象表現力、識別力和感知理解能力,可識別超 34 種語種、方言,擁有超過 46 萬垂直行業(yè)場景熱詞庫。

哈爾濱工業(yè)大學研究團隊結合知識圖譜與冬奧會主題的內容,構建出冬奧會智能客服機器人,能夠滿足體育賽事票務查詢預訂以及交通路線規(guī)劃的用戶需求,實現基于冬奧會知識圖譜的多輪對話。

OPPO 推出的“小布”則嘗試根據用戶的請求文本分析用戶當前的情緒狀態(tài),并給與用戶人性化的回應。比如說用戶表達一些與孤獨、難過相關的文本時,可以及時理解用戶當時的心情,給予相應的安慰。

12 月,“新華社 AI 合成主播首次對話虛擬人”格外引人注意,一位身穿西服、打著領帶的 AI 合成男主播,說著極為標準的普通話,做著生動的手部動作,與另一位同樣身著正裝的 AI 合成女主播進行連線。

除此之外,腦機接口、智能網聯(lián)汽車也是今年較熱門的認知智能的應用場景。

誠如清華知識智能聯(lián)合實驗室主任唐杰教授所說,認知智能想要取得關鍵性突破,“基礎設施還是少了一些”。比如,通用知識圖譜的構建就是一項耗時耗力的基礎工程。例如在 NLP 領域,形式化知識系統(tǒng)存在明顯構成缺失,實體間關系淺;其次是深層結構化語義分析存在明顯性能不足。一句話,系統(tǒng)大而不強。

而聚焦在某一特定領域,算法、行業(yè)數據、行業(yè)專家,這三個要素缺一不可。這就對從業(yè)者提出了務實的需求,摒棄“只做 Demo 級演示”、“PPT 式吹噓”的務虛心態(tài),以長遠價值的心態(tài)對待認知智能的建設與升級。僅僅在應用層創(chuàng)新還遠遠不夠,底層技術創(chuàng)新才能帶來認知智能水平的顛覆性重塑。

近年來,認知智能標準化建設得到了國內外各標準化組織、企業(yè)和學術界越來越多的關注。7 月,中國信息通信研究院聯(lián)合竹間智能發(fā)布的《2021 認知智能發(fā)展研究報告》顯示,當前已經發(fā)布和正在研制的各類標準按超過 30 項,涉及國際標準、國家標準、行業(yè)標準等多種類別。可以看出通用標準已經起步,但細分到各個應用領域的產品測試標準依舊懸而未解。比如,在智慧城市的實際建設中,仍缺乏科學合理的城市治理規(guī)范以及精準高效的模擬推演技術體系等等。

認知智能在實際應用場景中,依舊存在不少亟待解決的問題。例如,在當前復雜城市環(huán)境下的情景推演、智能推理與決策技術中遭遇的認知瓶頸(由于經驗數據導致的錯誤歸因,會導致犯罪預測算法有種族歧視傾向);現有模型對常識 / 客觀規(guī)律等知識認知的不完備,難以解決開放、動態(tài)、真實城市環(huán)境下的推理與決策問題。

認知智能是一整套理論、技術和應用系統(tǒng)體系。認知智能的實現,離不開腦科學、心理學、邏輯學、語言學等多學科的跨界融通和共同進步。但多學科的融合進步,存在一定的跨越式鴻溝。但如果僅僅在少數學科中做“煙囪式”的研究,認知智能的水平也必將是不充分的。

從基礎研究到商業(yè)探索,認知智能在未來幾年可能會出現以下四大趨勢。

首先,目前知識圖譜構建技術開發(fā)效率比較低下,主要卡點在于主要依賴人工進行構建,從數據收集、數據清洗到數據比對,再到最后圖譜構建等整個流程中,自動化程度低。其次,知識圖譜構建工作仍然高度依賴專家的知識輸入,目前市面上知識圖譜產品普遍具備較強的行業(yè)屬性,產品通用性差,阻礙了技術規(guī);瘧。

為此,不少廠商已經開始探索平臺化的解決方案。例如竹間智能,推出了知識工程的平臺化產品 Gemini;谠撈脚_,用戶可自行構建通用知識圖譜、行業(yè)知識圖譜,進行知識管理及知識搜索,大大縮短業(yè)務流程中需要人工處理文本的時間,解決企業(yè)數據應用難題;第四范式知識圖譜(第四范式 KB)將大量專家知識模塊化封裝進第四范式 NLP 產品,普通業(yè)務人員經簡單培訓即可使用的全流程知識圖譜平臺,針對不同行業(yè)和領域提供知識驅動的復雜應用分析及決策支持。

目前來看,人工智能的發(fā)展正在從感知智能向認知智能快速推進中,超大規(guī)模的預訓練模型成為全球人工智能技術研發(fā)的熱點和競爭的焦點。騰訊、搜狗、華為、阿里達摩院等巨頭輪番霸榜權威中文語言識別評測基準(CLUE)榜單。

值得注意的是,瀾舟科技推出的輕量化預訓練模型“孟子”,以十億參數完成了此前百億、千億參數模型刷新的紀錄,首戰(zhàn)登頂 CLUE 榜單。

當然,大模型距離實際落地,還需要很長的路要走,目前需要經過微調、模型壓縮成小模型才能發(fā)布。通常小模型只有幾十兆,在經過軟件和硬件的優(yōu)化以后才能得以順利應用。

企業(yè)的數字化轉型和智能化轉型的強烈需求加上預訓練模型的技術發(fā)展,認知智能賽道必然會迎來一個新的飛躍。

以對話機器人為例,目前更多是基于文本信息來鑒定情緒,后續(xù)基于聲學或視覺特征分析,結合聲學和文本的信息更好地理解用戶。Apple 發(fā)明了一項技術,可以根據用戶發(fā)出語音請求的音量,實時調整回復用戶時的音量;Google 則正在研究基于用戶雙眼的聚焦判斷用戶是不是真的在跟智能助手對話等。

隨著行業(yè)應用的逐步深入,通過某個單點算法創(chuàng)新就能大大提升應用效果的方式已不復存在,需要用全流程、全棧的方式。

落地場景的復雜性以及實際需求的多樣性,將會迫使未來的智能應用,將通過產業(yè)協(xié)同、系統(tǒng)集成,構建成一張精密、龐大、統(tǒng)一的智能網絡。

因此,這就需要在沿用、傳承計算智能、感知智能相關技術的基礎之上,圍繞認知科學的發(fā)展,推動腦科學、心理學、邏輯學、語言學等多學科共同進步、跨界融通才能完成。

“任何充分發(fā)展的科技都與魔法無異”,正如著名小說家亞瑟·克拉克所說。充分發(fā)展的人工智能,會如同魔法一般,終將為機器賦予類人的意識。以認知智能為代表的新一代信息技術,必將深刻影響著社會的方方面面。

整體上看,認知智能還處于起步階段。在科學技術快速更新迭代的今天,如何持續(xù)進行協(xié)同創(chuàng)新,讓人工智能釋放能量,真正賦能產業(yè),值得大家拭目以待。

【51CTO原創(chuàng)稿件】

來源:51CTO云昭

聲明: 本文系OFweek根據授權轉載自其它媒體或授權刊載,目的在于信息傳遞,并不代表本站贊同其觀點和對其真實性負責,如有新聞稿件和圖片作品的內容、版權以及其它問題的,請聯(lián)系我們。

發(fā)表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

人工智能 獵頭職位 更多
掃碼關注公眾號
OFweek人工智能網
獲取更多精彩內容
文章糾錯
x
*文字標題:
*糾錯內容:
聯(lián)系郵箱:
*驗 證 碼:

粵公網安備 44030502002758號