訂閱
糾錯
加入自媒體

京東產(chǎn)業(yè)大模型的幾點猜想

導語:

細讀今年被稱為“中國人工智能最高獎”的吳文俊獎的獲獎名單,頗有深意。

雖然各大高校、科研機構(gòu)還是在獲獎名單中占據(jù)多數(shù),但企業(yè)獲獎的數(shù)量也在不斷增長,如我們熟悉的京東、百度、美團、阿里、科大訊飛等,悉數(shù)在列。

而他們獲獎的項目,有比較明顯的應用導向趨勢,這說明,AI的落地應用日益受到關(guān)注。

企業(yè)的優(yōu)勢在于,有大量的場景,積累了精準的數(shù)據(jù),可以在解決實際問題中不斷歷練優(yōu)化,再泛化成通用能力賦能社會,這對于進入智能化加速普及的今天,有切實的意義。

備受關(guān)注的大模型,也成為獲獎名單中被關(guān)注的焦點,但大模型只是手段,而不是目的。發(fā)展產(chǎn)業(yè)大模型,其價值仍然是以產(chǎn)業(yè)實踐中凝聚的數(shù)字化能力服務社會和提升行業(yè)效率。

可以相信,隨著人工智能奇點的到來和應用加速落地,我們的生活將發(fā)生一往而不可逆的變革。

第一部分 企業(yè)獲獎越來越多,折射了什么?

在今年獲得吳獎的企業(yè)中,京東是較為突出的一個。

京東是唯一同時獲得個人和團隊兩項殊榮的企業(yè),其中,只有三席的“杰出貢獻獎”由京東獲得一席,這是除了“最高成就獎”之外,可授予個人的最高獎項,反映了京東在AI領(lǐng)域的人才深度和厚度。

相對老牌AI企業(yè),幾年前京東在AI領(lǐng)域的聲勢并不彰顯。近年,隨著京東的技術(shù)轉(zhuǎn)型的全面展開,數(shù)智供應鏈、智能服務、工業(yè)互聯(lián)網(wǎng)平臺等一系列產(chǎn)業(yè)技術(shù)應用逐步為行業(yè)所認可。

所以,這次京東摘得個人獎和團隊獎各一,其實是反映了有深厚產(chǎn)業(yè)場景基礎(chǔ)和數(shù)字技術(shù)能力的新型實體企業(yè),在AI領(lǐng)域厚積薄發(fā)的積累優(yōu)勢。

恰好,這次獲獎的京東科技智能服務與產(chǎn)品部負責人何曉冬博士,是我的一位很好相處的朋友,所以我也第一時間向他求證了一些問題。

說一句閑話,我喜歡曉冬的原因,大概有二:

1.他講的技術(shù)我聽得懂,而且他很耐心,就算我聽不懂,他也會講到我聽懂為止,作為一個世界級的科學家,這樣的nice是很難得的;

2.他戴手表;

我喜歡戴傳統(tǒng)手表的科學家,而非Apple Watch的用戶。尤其當我偶爾知道,這只是一塊很普通的精工自動機械表,簡單可靠,而且是曉冬的父親在一次購物中得到的贈品的時候,我就覺得他這個人更有意思了,樸實、樂觀和堅韌是他的性格。

這也讓我想起,《達芬奇密碼》里魅力十足的虛構(gòu)人物——羅伯特.蘭登教授,就一直戴一塊小時候得到的米老鼠手表。

這次見到曉冬,其中一個原因,是他和他的團隊獲得了今年吳獎后,我很想和他聊聊這個事。但沒有想到,他沒怎么談自己,反而給我科普了一遍京東AI的發(fā)展史。以及這次京東獲獎的任務型智能對話交互關(guān)鍵技術(shù)及大規(guī)模產(chǎn)業(yè)應用這個課題。

2019年的1月1日,對何曉冬是個重要的日子,這一天是他正式成為IEEE Fellow的日子。更重要的是2018年他告別海外生涯的一個告別禮—— 2018年初他正式接受了京東邀請,從微軟雷德蒙研究院的人工智能首席研究員,變成京東的AI業(yè)務一位重要負責人,加入彼時尚小但正在壯大的京東AI研發(fā)團隊。

彼時,京東已經(jīng)喊出了“技術(shù)、技術(shù)、技術(shù)!”的口號,但外部對于京東在AI方面的能力還沒有充分的認知,盡管京東已經(jīng)在各業(yè)務線開始使用AI技術(shù), 但當時很少人會認為京東是一個AI技術(shù)的高地。

后來我查了一下,亞馬遜有10000多個AI工程師,微軟是7000人,谷歌是4000多人,但做出ChatGPT的時候,openAI只有154個人。

所以,AI是否能做成,和人數(shù)沒有絕對關(guān)系,和方向正確與否關(guān)系更大。

更重要的是,京東改變了我對AI產(chǎn)業(yè)化落地的看法。

以前,大部分AI企業(yè)見到我總要訴的苦是——我們的技術(shù)水平很高,但企業(yè)不理解、用不起來,所以落地難。

曉冬第一次見面就直率的告訴我,這種說法是不對的。

他認為:“我們(團隊)雖然不大,但經(jīng)過努力已經(jīng)開始盈利了,這對于很多大AI團隊都是難以想象的。但核心其實只有一個原因,就是我們力圖搞清楚我們能給市場帶來什么價值,以及創(chuàng)造這個價值的技術(shù)核心點在哪里,然后用我們的技術(shù)和工程能力去搞定。而那些脫離了價值鎖定的AI研發(fā)看上去是很酷,但很難落地!

相對于其它幾家互聯(lián)網(wǎng)超級平臺的AI研發(fā)規(guī)模,何曉冬的團隊規(guī)模小但更聚焦,而他們的最初的研發(fā)方向也很具體——對內(nèi)依托京東的用戶規(guī)模優(yōu)勢,不斷的優(yōu)化智能客服的服務能力,對外把這種能力做成產(chǎn)品服務,應用在諸如市場推廣外呼、數(shù)字人、智能政務熱線等多個商業(yè)化場景里。

而這種市場需求來自于企業(yè)真實的痛點——即源于解決零售、物流等實體行業(yè)大規(guī)?蛻舴⻊杖肆Σ蛔銕淼男蕟栴}。

也就是說,之所以獲得吳獎,除了何曉冬帶隊的京東云言犀(下稱“言犀”)團隊的出色技術(shù)能力之外,也基于京東AI研發(fā)的務實和路徑正確,他們選擇了為現(xiàn)實中真實世界復雜且深度的問題去求解——而這,正是看似默默無聞的京東AI在短短幾年內(nèi),就得到學界和產(chǎn)業(yè)界如此高度的認可的原因。

第二部分 解決真實世界的難題

根據(jù)人工智能算法、算力和數(shù)據(jù)三要素,企業(yè)優(yōu)先發(fā)展的,要么是結(jié)構(gòu)性數(shù)據(jù)比較多的應用落點,要么是市場上解決方案較少的新領(lǐng)域。

如果這樣排列,那客服場景應該不在首列,因為目前NLP(自然語言處理)是AI最成熟的領(lǐng)域之一,各大企業(yè)基本都有各式各樣的智能客服業(yè)務。

在一個群雄盤踞、成熟產(chǎn)品迭出的領(lǐng)域搞創(chuàng)新,是需要格外的勇氣的。

但是,京東還是選擇了智能服務場景,理由也很簡單——業(yè)務需要、場景支持。

但做,就要做出新意。

如果仔細推敲這次京東獲獎項目的名稱,會發(fā)現(xiàn)有一個比較特別的詞匯——任務型對話。

打個比方,這次震驚消費者的Chat GPT,就不是典型的任務型對話,因為使用者對于對話結(jié)果的寬容度很高,甚至可以視為一種娛樂,可以接受各種”胡說八道“;但客服對話,則不同于一般對話場景,所謂的任務型對話,就是需要解決真實世界深度復雜的任務,而且達到很高的滿意度。

從優(yōu)勢角度來看,京東服務超5.8億用戶,每年十幾億人次的對話交互服務,既是智能對話交互技術(shù)產(chǎn)業(yè)落地的前沿陣地,又天生有大量的數(shù)據(jù)可以作為訓練內(nèi)容。

從挑戰(zhàn)來看,自然語言處理是目前AI最成熟的領(lǐng)域之一,要想在強敵環(huán)伺之下殺出重圍并不是一件簡單的問題。

但言犀團隊的思路很清晰,把這個復雜系統(tǒng)拆解成了幾個核心命題。

其中,首要解決的是高表現(xiàn)力和高可信度的多模態(tài)對話生成。

簡單來說,就是在智能客服與人類客戶對話的過程中,要實時判斷對用戶的情緒是高興、憤怒、失望等等,再相應的用適合的、富有表現(xiàn)力而非干巴巴的文字或電子合成音去回答這個問題。

但是單純從文字和語音是難以完全的分辨客戶情緒的,所以還要結(jié)合客戶的上下文來推測。但這就需要新的算法,因為傳統(tǒng)算法生成內(nèi)容時,對上下文的建模(也就是模型和訓練)關(guān)聯(lián)度不足,導致生成的內(nèi)容缺乏表現(xiàn)力,也不準確。

要從技術(shù)維度解釋這個問題,需要花費大量的篇幅,所以我只說幾點。

首先,針對生成高表現(xiàn)力語音這個問題,言犀團隊提出了“基于多顆粒度韻律的增強語音合成技術(shù)”,也就是從篇章、句子、字詞的不同粒度,準確把握用戶的情緒,對應的提高合成語音的韻律豐富度和可控性。

而僅僅針對這個問題,言犀團隊提出的語音合成技術(shù),就獲得了ACM Multimedia 2021最佳演示獎。

而對生成高質(zhì)量對話內(nèi)容至關(guān)重要的,還有對于用戶意圖的理解或預測,簡單說就是“聽懂人話,猜出意思”。

這里的核心理論支撐,某種程度上來自何曉冬此前的一篇在行業(yè)里非常有影響力的論文 ”Hierarchical Attention Networks for Document Classification”,這是一篇谷歌學術(shù)引用次數(shù)近5000次的論文,即使在世界AI領(lǐng)域也是頂尖的。

但何曉冬謙虛的認為,自己的論文只是解決了部分理論的問題,而團隊的勤奮和工程化落地,才是成功的關(guān)鍵。

值得一提的是,這里還有一個隱藏的彩蛋就是,針對對話內(nèi)容的生成,團隊還使用了基于知識融合的預訓練語言模型和多模態(tài)可控對話文本生成模型,從而提升生成文本的專業(yè)度、豐富度。

你可以理解為,這兩個模型可以看做是今天大名鼎鼎的ChatGPT的兩個子集,但很早就被京東用起來了,而這將對京東以后構(gòu)建產(chǎn)業(yè)大模型有很關(guān)鍵的驗證作用。

而從這個問題的解決中淬煉出來的方案,形成了京東智能服務解決方案中的多輪對話決策推理技術(shù),并達到國際領(lǐng)先水平,先后斬獲國際競賽Wikihop、HotpotQA的冠軍。

但支撐這一體系的并非僅這一項領(lǐng)先技術(shù)。

如果你使用過語音客服,你就會發(fā)現(xiàn),如果你的表達過于口語化、或者有不規(guī)律停頓等問題的情況下,會對客服的效果有很大的影響,有時候會使得對話嚴重偏離場景,這背后是一個人/機話語權(quán)的決策問題。

很顯然,我們不可能在使用語音客服時,要求每個人都有播音員一樣連貫、準確的發(fā)音。

而對于這個問題,言犀團隊提出了多模態(tài)融合的話語權(quán)決策技術(shù) (Turn taking),根據(jù)實際情況,在瞬息間判斷對話是否會中斷以及在什么時候AI需要耐心等待用戶說完話,又在什么時候需要AI需要及時接過話語權(quán)。

可以說,言犀團隊正是用”剝洋蔥“式的方法,把實際問題拆解成一個個更小的單元,然后在核心算法的突破下創(chuàng)造性的解決工程問題,最終的結(jié)果不僅是獲得吳文俊獎這樣的頂級榮譽,還產(chǎn)生了巨大的產(chǎn)業(yè)溢出效應——在這個項目完成的過程中,還完成了授權(quán)發(fā)明專利17件,軟件著作權(quán)19項,論文63篇,國際比賽冠軍6項;更讓團隊驕傲的是,產(chǎn)生直接經(jīng)濟價值20億元。

第三部分 用戶云集

現(xiàn)在,智能客服市場競爭激烈之極,但高水平產(chǎn)品并不多。

言犀再次基于“從實體中來,到實體中去”的原則,它把智能客服和京東的其它AI能力組合起來,這些能力都聚焦于以服銷一體化為方向,為客戶提供用戶服務、觸達、增長等能力,故此被稱為”京東云言犀超級SaaS增長引擎“。

定位在SaaS層,是為了便于部署和符合大多數(shù)非數(shù)字化原生企業(yè)的實際落地環(huán)境,因為不是每個企業(yè)都有自建的PaaS層能力。

伊利集團是最早引入言犀的智能咨詢導購、智能外呼、虛擬主播等服銷一體化服務的巨頭型企業(yè)之一,合作亮點頗多。

例如,伊利曾經(jīng)測算過,旗下多個奶粉類店鋪,接入言犀提供的智能服務后,單店僅一個月便實現(xiàn)人力節(jié)約71.06人天,于是,其旗下多個品牌線,如安慕希、巧樂茲、金典等,都持續(xù)采用言犀智能外呼覆蓋私域加粉、活動營銷、意向初篩等眾多場景。

而前述的增加語音高表現(xiàn)力的技術(shù),成為言犀首創(chuàng)的“明星真人語音”外呼應用的技術(shù)支撐,在行業(yè)里引發(fā)了一場新的交互式營銷潮流,各大企業(yè)紛紛嘗試。去年他們還推出了多模態(tài)數(shù)字人,基于智能對話交互能力,發(fā)展出多模態(tài)數(shù)字人交互技術(shù),以SaaS直播以及KA數(shù)字員工等模式對外應用。在今年京東618的直播間,有很多就是言犀提供的產(chǎn)品。

在政府服務方向,山西省大同市在言犀的技術(shù)支持下,于2021年2月引入京東智能政務熱線,在降本增效的同時,還大幅提升了群眾的滿意度和服務體驗。同時,京東智能政務熱線還可以針對這對熱點問題進行分析、研判,讓城市管理者做到未訴先辦,防患于未然。

而在金融方向上,以江南農(nóng)商銀行為例,言犀與其合作打造的“江南農(nóng)商銀行VTM數(shù)字員工”,是全國第一個能獨立、全程辦理銀行真實交易的數(shù)字人,被客戶稱為“01號數(shù)字員工”。

也許讀者讀到這里會問,這和目前火熱的生成式大模型,有什么關(guān)聯(lián)呢?

第四部分 產(chǎn)業(yè)大模型正在路上

在回答這個問題前,我們要談一個價值觀的問題。

京東一直有目標,那就是作為“以供應鏈為基礎(chǔ)的技術(shù)與服務企業(yè)”,京東將用數(shù)智化技術(shù)連接和優(yōu)化社會生產(chǎn)、流通、服務的各個環(huán)節(jié),降低社會成本、提高社會效率。

這是一切的前提,所以京東一定、也必須會做產(chǎn)業(yè)大模型。

但我們注意到,和很多企業(yè)、甚至是創(chuàng)業(yè)團隊,一上來就表示要做千億、萬億參數(shù)的通用大模型相比,資源更為豐富的京東提出的卻是“產(chǎn)業(yè)大模型”。

也就是說,京東瞄準的不但是大模型具有的廣譜的“智能涌現(xiàn)”能力,同時還將其與行業(yè)的know-how相結(jié)合,針對行業(yè)把能力做深,從而為行業(yè)創(chuàng)造深度的價值。這和其它企業(yè)的路徑明顯不同,京東對大模型的投入是做好了充分準備的。

我認為,這反而是京東更可能成功并率先的用大模型服務于產(chǎn)業(yè)的一個重要判斷。

京東擁有零售、物流、健康、工業(yè)品等廣泛實體業(yè)務,具有龐大而又復雜的產(chǎn)業(yè)生態(tài),服務數(shù)十萬商家和超5.8億消費者,它的AI,是生長在供應鏈上的產(chǎn)業(yè)AI,它的目標,就是解決實際問題再泛化成通用能力賦能社會。

所以筆者猜測,京東的做法,就是聚焦AI的產(chǎn)業(yè)價值,先解決實際問題,接受正向或負向的反饋。

為什么要這么做呢,因為要用好產(chǎn)業(yè)大模型,都離不開三個具體的場景:

1.有足夠清晰的應用落點;

2.有足夠規(guī)模的預訓練數(shù)據(jù)集;

3.有足夠的垂直領(lǐng)域的人才;

也就是說,和通用AI的“算法、算力、數(shù)據(jù)”三要素略有不同,產(chǎn)業(yè)級落地講的是“數(shù)據(jù)、人才和場景”。

優(yōu)質(zhì)的大模型,需要的不僅僅是數(shù)據(jù),而是精煉的、高質(zhì)量的、蘊含行業(yè)know-how的優(yōu)質(zhì)產(chǎn)業(yè)數(shù)據(jù)。

對于京東來說,場景和人才都不缺乏,在產(chǎn)業(yè)級數(shù)據(jù)層面更有顯著優(yōu)勢。

作為一個高度數(shù)據(jù)化、超大規(guī)模的新型實體企業(yè),京東的數(shù)字化程度很高,并且其在供應鏈的全環(huán)節(jié),例如倉儲、配送、營銷、服務等,都積累了高質(zhì)量的數(shù)據(jù)。

所以,筆者認為,京東的選擇是最務實的,也是最適配自身優(yōu)勢的。它的做法,會是類似于言犀團隊攻克客服場景一樣的做法 ——?通過通用數(shù)據(jù)給大模型帶來了基本常識,推理、涌現(xiàn)、表達能力,加上京東自身的專業(yè)性數(shù)據(jù)的引入,在京東內(nèi)外部真實場景中應用起來,并解決工程上的重要難點,形成數(shù)據(jù)與應用的飛輪,不斷優(yōu)化大模型的性能。并極度降低行業(yè)使用門檻,應用時只需少量的場景數(shù)據(jù)微調(diào),就可以達成很好的結(jié)果,這也是京東這類擁有場景企業(yè)的優(yōu)勢。

而后,不斷的重復這個過程,把諸多產(chǎn)業(yè)問題逐一解決。在這個過程中,有一些數(shù)據(jù)可以復用,有大量的方法可以復用,這就形成了一個自增強的有效閉環(huán),最終形成具有京東特色、能夠解決供應鏈各領(lǐng)域問題、覆蓋多個行業(yè)場景的大模型。

這便是京東從已有通用大模型通往產(chǎn)業(yè)大模型的路徑。而且一出手,就自帶針對各行業(yè)、領(lǐng)域的解決方案,能夠迅速落地。

簡單說就是,從上往下做,好看、好聽,但容易找不到抓手、腳步虛。粡南峦献,顯得沒那么酷,但每一步都是走上坡路,步步踏實,最后才能攀登到一個很高的高度。

京東的產(chǎn)業(yè)大模型,就在不遠的前方,讓我們共同期待。

       原文標題 : 京東產(chǎn)業(yè)大模型的幾點猜想

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯
x
*文字標題:
*糾錯內(nèi)容:
聯(lián)系郵箱:
*驗 證 碼:

粵公網(wǎng)安備 44030502002758號