訂閱
糾錯
加入自媒體

ChatGPT笨了,還是老了?

 

“過去的表現(xiàn)并不能保證將來的結(jié)果。”這是大多數(shù)金融理財模型的小字。

在產(chǎn)品業(yè)務(wù)內(nèi)部,這被稱之為模型漂移、衰退或過時。事情會發(fā)生變化,模型性能會隨著時間的推移而下降。最終的衡量標(biāo)準(zhǔn)是模型質(zhì)量指標(biāo),可以是準(zhǔn)確率、平均錯誤率,也可以是一些下游業(yè)務(wù)的KPI,比如點(diǎn)擊率。

沒有任何模型可以永遠(yuǎn)有效,但衰退的速度各不相同。‍有些產(chǎn)品可以使用多年而無需更新,例如某些計算機(jī)視覺或語言模型,或者是在隔離、穩(wěn)定環(huán)境中的任何決策系統(tǒng),比如常見的實(shí)驗(yàn)條件下。

想要保證模型精度,就需要每天對新數(shù)據(jù)進(jìn)行訓(xùn)練,這是機(jī)器學(xué)習(xí)模型的范式缺陷,也使得人工智能部署,不能像軟件部署一樣可以一勞永逸。后者被創(chuàng)造了幾十年,目前最先進(jìn)的AI產(chǎn)品,依然使用著早年的軟件技術(shù)。只要仍然有用,即時技術(shù)已經(jīng)過時,它們依然可以長存于每一個字節(jié)中。

不過被稱為人工智能最前沿的產(chǎn)品,以ChatGPT為代表的大模型,在遭遇人氣衰減后,迎來是否正在過時和衰老的質(zhì)疑。

無風(fēng)不起浪。用戶在ChatGPT上花費(fèi)的時間越來越少,從3月份的8.7分鐘降至8月份的7分鐘。側(cè)面反映出,當(dāng)大模型工具的供給側(cè)迅猛增長,僅僅只是生產(chǎn)力工具的ChatGPT似乎并不足以成為主流使用人群Z世代的心頭好。

一時的人氣不足以動搖致力于成為AI時代應(yīng)用商店的OpenAI霸主地位。更核心的問題是,ChatGPT生產(chǎn)力的老化,才是不少老用戶信任度下降的主因。自5月份開始,OpenAI論壇里討論GPT-4性能不如以前的帖子,就一直在發(fā)酵。

那么ChatGPT過時了嗎?以ChatGPT為代表的大模型會像過去的機(jī)器學(xué)習(xí)模型一樣衰老嗎?不理解這些問題,就不能在層出不窮的大模型熱潮之下,找到人與機(jī)器的可持續(xù)發(fā)展之道。

ChatGPT過時了嗎?

來自Salesforce AI軟件服務(wù)商最新的一份數(shù)據(jù)顯示,有67%的大模型使用者是Z世代或者千禧一代;很少使用生成AI或在這方面落伍的人群中,68%以上的人是X一代或嬰兒潮一代。

代際差異說明Z世代正在成為擁抱大模型的主流人群。Salesforce產(chǎn)品營銷人員Kelly Eliyahu表示:“Z世代實(shí)際上是AI一代,他們構(gòu)成了超級用戶群體。70%的Z世代正在使用生成式AI,至少有一半的人每周或更長時間使用它。”

不過作為大模型產(chǎn)品的領(lǐng)軍者,ChatGPT在Z世代人群中的表現(xiàn)并不出色。 

 

根據(jù)市場調(diào)研機(jī)構(gòu)Similarweb 7月份的數(shù)據(jù)顯示,ChatGPT在Z世代人群中的使用占比為27%,低于4月份的30%。作為對比,另外一款可以讓用戶自己設(shè)計人工智能角色的大模型產(chǎn)品,Character.ai在18-24歲年齡段的人群中滲透率為60%。

得益于Z世代的追捧,Character.ai的iOS和Android應(yīng)用程序目前在美國的月活躍用戶數(shù)為420萬,距離移動端ChatGPT的600萬月活,日益接近。

和ChatGPT的對話式AI不一樣,Character.AI在此基礎(chǔ)上加入個性化、UGC兩大核心功能,使其有了比前者更豐富的使用場景。

一方面,用戶可以根據(jù)個人需求自定義AI角色,滿足Z世代個性化定制的需求。同時這些用戶自主創(chuàng)建的AI角色,也可以被平臺所有用戶使用,構(gòu)建AI社區(qū)氛圍。比如此前在社交媒體平臺傳播出圈的蘇格拉底、God等虛擬人物,以及官方自主創(chuàng)建的馬斯克等商業(yè)名人的AI形象。

另一方面,個性化的深度定制+群聊功能,也使得用戶對于平臺產(chǎn)生情感智能依賴。很多社交媒體平臺的用戶公開評價顯示,因?yàn)榱奶祗w驗(yàn)過于逼真,就像“自己創(chuàng)作的角色擁有生命,就像在與真人交談”,“是迄今為止最接近假想朋友、守護(hù)天使的東西”。

可能是來自Character.AI的壓力,2023年8月16日OpenAI在官網(wǎng)發(fā)布了一則簡短聲明,宣布收購美國初創(chuàng)企業(yè)Global Illumination,并將整個團(tuán)隊納入麾下。這家僅有兩年歷史八位員工的小公司,主營業(yè)務(wù)是利用人工智能創(chuàng)建巧妙工具、數(shù)字基建和數(shù)字體驗(yàn)。

收購行為的背后,很可能意味著OpenAI將致力以豐富的方式,改善目前的大模型數(shù)字體驗(yàn)。

人工智能的衰老化

ChatGPT在大模型數(shù)字體驗(yàn)層面的老化,影響了其殺時間的效果。作為生產(chǎn)力工具,其生成結(jié)果準(zhǔn)確性的飄忽不定,也正在影響其用戶黏性。

此前根據(jù)Salesforce的調(diào)查顯示,有近六成的大模型使用者認(rèn)為,他們正在通過累計時間的訓(xùn)練掌握這項(xiàng)技術(shù)。不過目前這種技術(shù)的掌握,正在隨著時間的遷移發(fā)生變化。 

 

早在5月份,就有大模型老用戶在OpenAI論壇上開始抱怨GPT-4,“在以前表現(xiàn)良好的事物上表現(xiàn)出困難”。據(jù)《Business Insider》7月份報道稱,很多老用戶將GPT-4與其以前的推理能力和其他輸出相比,形容為“懶惰”和“愚笨”。

由于官方并未對此作出回應(yīng),人們開始對GPT-4性能下降的原因進(jìn)行推測,會不會是因?yàn)榇饲癘penAI的現(xiàn)金流問題?主流猜測集中在成本優(yōu)化導(dǎo)致的性能下降方面。一些研究者稱,OpenAI可能在API后面使用了規(guī)模較小的模型,以降低運(yùn)行ChatGPT的成本。

不過這個可能性隨后被OpenAI的產(chǎn)品副總裁Peter Welinder否認(rèn)。他在社交媒體上表示:“我們沒有讓GPT-4變得更笨,目前的一個假設(shè)是,當(dāng)你更加頻繁地使用它時,會開始注意到之前沒有注意到的問題。”

更多的人、更長時間的使用,暴露了ChatGPT的局限性。對于這種假設(shè),研究者試圖通過更嚴(yán)謹(jǐn)?shù)膶?shí)驗(yàn)呈現(xiàn)“ChatGPT性能和時間關(guān)系的變化”。 

來自斯坦福大學(xué)和加州大學(xué)伯克利分校在7月份提交的一篇題為《How is ChatGPT's behavior changing over time?》的研究論文顯示:同一個版本的大模型,確實(shí)可以在相對較短的時間內(nèi)發(fā)生巨大變化。

從3月份到6月份,研究者測試了GPT-3.5和GPT-4兩個版本,采集了四個常見的基準(zhǔn)任務(wù)數(shù)學(xué)問題、回答敏感問題、代碼生成和視覺推理的生成結(jié)果,并進(jìn)行評估。結(jié)果顯示,無論是GPT-3.5還是GPT-4,二者的性能和生成結(jié)果,都有可能隨時間而變化。

數(shù)學(xué)能力方面,GPT-4(2023年3月)在識別質(zhì)數(shù)與合數(shù)方面表現(xiàn)得相當(dāng)不錯(84%準(zhǔn)確率),但是GPT-4(2023年6月)在相同問題上的表現(xiàn)不佳(51%準(zhǔn)確率)。有趣的是,CPT-3.5在這個任務(wù)上6月份的表現(xiàn)要比3月份好得多。

不過在敏感問題方面,GPT-4在6月份回答敏感性問題的意愿較3月份下降;代碼能力方面,GPT-4和GPT-3.5,都在6月份表現(xiàn)出比3月份更多的錯誤。研究者認(rèn)為,雖然ChatGPT的性能和時間沒有明顯的線性關(guān)系,但是準(zhǔn)確性確實(shí)會飄忽不定。 

 

這不僅是ChatGPT自己的問題,也是此前所有AI模型的通病。根據(jù)麻省理工學(xué)院、哈佛大學(xué)、蒙特雷大學(xué)和劍橋大學(xué)2022年的一項(xiàng)研究表明,91%的機(jī)器學(xué)習(xí)模型都會隨著時間的推移而退化,研究者將這種現(xiàn)象稱為“人工智能老化”。

例如,Google Health曾經(jīng)開發(fā)了一種深度學(xué)習(xí)模型,可以通過患者的眼睛掃描來檢測視網(wǎng)膜疾病。該模型在訓(xùn)練階段的準(zhǔn)確率達(dá)到90%,但在現(xiàn)實(shí)生活中卻無法提供準(zhǔn)確的結(jié)果。主要是因?yàn)樵趯?shí)驗(yàn)室,采用高質(zhì)量的訓(xùn)練數(shù)據(jù),但是現(xiàn)實(shí)世界的眼睛掃描質(zhì)量較低。

受制于機(jī)器學(xué)習(xí)模型老化的情況,過去走出實(shí)驗(yàn)室的AI技術(shù),以單一的語音識別技術(shù)為主,智能音箱等產(chǎn)品因此最先普及。根據(jù)美國人口普查局2018年對58.3萬家美國公司的調(diào)查,只有2.8%使用機(jī)器學(xué)習(xí)模型來為其運(yùn)營帶來優(yōu)勢。

不過伴隨著大模型智能涌現(xiàn)能力的突破,機(jī)器學(xué)習(xí)模型的老化速度明顯減弱,逐漸走出實(shí)驗(yàn)室面向更廣泛的受眾。不過,涌現(xiàn)能力的黑盒下仍有不可預(yù)測性,讓不少人對于ChatGPT能否長期保持AI性能的不斷提升提出質(zhì)疑。

黑盒下的抗衰老性

人工智能老化的本質(zhì),其實(shí)是機(jī)器學(xué)習(xí)模型的范式缺陷。

過往,機(jī)器學(xué)習(xí)模型是按照具體任務(wù)和具體數(shù)據(jù)的對應(yīng)關(guān)系進(jìn)行訓(xùn)練。通過大量的例子,先教給模型,那個領(lǐng)域中什么是好,什么是壞,再調(diào)節(jié)一下模型的權(quán)重,從而輸出恰當(dāng)?shù)慕Y(jié)果。這種思路下,每做一些新的事情,或者數(shù)據(jù)分布有明顯變化,都要重新訓(xùn)練一遍模型。

新事情和新數(shù)據(jù)無窮無盡,模型就只能刷新。但是模型的刷新也會導(dǎo)致過去做得好的事情突然做不好了,進(jìn)一步限制應(yīng)用?偨Y(jié)來看,傳統(tǒng)的機(jī)器學(xué)習(xí)模型中,數(shù)據(jù)飛輪本質(zhì)是為了迭代模型,用新模型解決新問題的范式。

不過以ChatGPT為代表的大模型,涌現(xiàn)出自主學(xué)習(xí)能力,突破了這種范式。過往的機(jī)器學(xué)習(xí),是先“吃”數(shù)據(jù),之后“模仿”,基于的是對應(yīng)關(guān)系;ChatGPT類的大模型,是“教”數(shù)據(jù),之后“理解”,基于的是“內(nèi)在邏輯”。

這種情況下,大模型本身不發(fā)生變化,理論上可以永葆青春。不過也有從業(yè)人士表示,正如大模型的智能涌現(xiàn)一樣,是非線性發(fā)展、不可預(yù)測的,是突然就有的。對于大模型是否會隨著時間發(fā)生衰老,涌現(xiàn)出難以預(yù)測的不可確定性也是未知的。

換句話說,ChatGPT在涌現(xiàn)出難以理論化推導(dǎo)的智能性能后,也開始涌現(xiàn)出難以預(yù)測的不可確定性。

對于“涌現(xiàn)”的黑盒性,9月6日在百川智能Baichuan2開源大模型發(fā)布會上,中國科學(xué)院院士、清華大學(xué)人工智能研究院名譽(yù)院長張鈸表示:“到現(xiàn)在為止,全世界對大模型的理論工作原理、所產(chǎn)生的現(xiàn)象都是一頭霧水,所有的結(jié)論都推導(dǎo)產(chǎn)生了涌現(xiàn)現(xiàn)象。所謂涌現(xiàn)就是給自己一個退路,解釋不清楚的情況下就說它是涌現(xiàn)。實(shí)際上反映了我們對它一點(diǎn)不清楚。”

在其看來,大模型為什么會產(chǎn)生幻覺這個問題,涉及到ChatGPT跟人類自然語言生成原理的不一樣。最根本的區(qū)別在于,ChatGPT生成的語言是外部驅(qū)動的,而人類的語言是在自己意圖的情況下驅(qū)動的,所以ChatGPT內(nèi)容的正確性和合理性不能保證。

在經(jīng)歷過一系列概念炒作跟風(fēng)上車之后,對于致力于開發(fā)生產(chǎn)力基礎(chǔ)模型的人來說,面臨的挑戰(zhàn)將是如何確保其產(chǎn)品持續(xù)輸出結(jié)果的可靠性和準(zhǔn)確性。

不過對于大模型相關(guān)的娛樂產(chǎn)品而言,正如Character.AI 聯(lián)合創(chuàng)始人Noam Shazeer在《紐約時報》上所說:“這些系統(tǒng)并不是為真相而設(shè)計的。它們是為合理的對話而設(shè)計的。”換句話說,它們是自信的廢話藝術(shù)家。大模型的巨浪已然開始分流。

參考資料:

Gizmodo-Is ChatGPT Getting Worse?

TechCrunch-AlappCharacter.aiiscatchinguptoChatGPTintheUS

Machine Learning Monitoring- Why You Should Care About Data and Concept Drift

M小姐沿習(xí)錄-關(guān)于ChatGPT的五個最重要問題

清華大學(xué)人工智能國際治理研究院-對大模型的研究很迫切,不能解釋不清楚就說“涌現(xiàn)” 

“過去的表現(xiàn)并不能保證將來的結(jié)果。”這是大多數(shù)金融理財模型的小字。

在產(chǎn)品業(yè)務(wù)內(nèi)部,這被稱之為模型漂移、衰退或過時。事情會發(fā)生變化,模型性能會隨著時間的推移而下降。最終的衡量標(biāo)準(zhǔn)是模型質(zhì)量指標(biāo),可以是準(zhǔn)確率、平均錯誤率,也可以是一些下游業(yè)務(wù)的KPI,比如點(diǎn)擊率。

沒有任何模型可以永遠(yuǎn)有效,但衰退的速度各不相同。‍有些產(chǎn)品可以使用多年而無需更新,例如某些計算機(jī)視覺或語言模型,或者是在隔離、穩(wěn)定環(huán)境中的任何決策系統(tǒng),比如常見的實(shí)驗(yàn)條件下。

想要保證模型精度,就需要每天對新數(shù)據(jù)進(jìn)行訓(xùn)練,這是機(jī)器學(xué)習(xí)模型的范式缺陷,也使得人工智能部署,不能像軟件部署一樣可以一勞永逸。后者被創(chuàng)造了幾十年,目前最先進(jìn)的AI產(chǎn)品,依然使用著早年的軟件技術(shù)。只要仍然有用,即時技術(shù)已經(jīng)過時,它們依然可以長存于每一個字節(jié)中。

不過被稱為人工智能最前沿的產(chǎn)品,以ChatGPT為代表的大模型,在遭遇人氣衰減后,迎來是否正在過時和衰老的質(zhì)疑。

無風(fēng)不起浪。用戶在ChatGPT上花費(fèi)的時間越來越少,從3月份的8.7分鐘降至8月份的7分鐘。側(cè)面反映出,當(dāng)大模型工具的供給側(cè)迅猛增長,僅僅只是生產(chǎn)力工具的ChatGPT似乎并不足以成為主流使用人群Z世代的心頭好。

一時的人氣不足以動搖致力于成為AI時代應(yīng)用商店的OpenAI霸主地位。更核心的問題是,ChatGPT生產(chǎn)力的老化,才是不少老用戶信任度下降的主因。自5月份開始,OpenAI論壇里討論GPT-4性能不如以前的帖子,就一直在發(fā)酵。

那么ChatGPT過時了嗎?以ChatGPT為代表的大模型會像過去的機(jī)器學(xué)習(xí)模型一樣衰老嗎?不理解這些問題,就不能在層出不窮的大模型熱潮之下,找到人與機(jī)器的可持續(xù)發(fā)展之道。

ChatGPT過時了嗎?

來自Salesforce AI軟件服務(wù)商最新的一份數(shù)據(jù)顯示,有67%的大模型使用者是Z世代或者千禧一代;很少使用生成AI或在這方面落伍的人群中,68%以上的人是X一代或嬰兒潮一代。

代際差異說明Z世代正在成為擁抱大模型的主流人群。Salesforce產(chǎn)品營銷人員Kelly Eliyahu表示:“Z世代實(shí)際上是AI一代,他們構(gòu)成了超級用戶群體。70%的Z世代正在使用生成式AI,至少有一半的人每周或更長時間使用它。”

不過作為大模型產(chǎn)品的領(lǐng)軍者,ChatGPT在Z世代人群中的表現(xiàn)并不出色。 

 

根據(jù)市場調(diào)研機(jī)構(gòu)Similarweb 7月份的數(shù)據(jù)顯示,ChatGPT在Z世代人群中的使用占比為27%,低于4月份的30%。作為對比,另外一款可以讓用戶自己設(shè)計人工智能角色的大模型產(chǎn)品,Character.ai在18-24歲年齡段的人群中滲透率為60%。

得益于Z世代的追捧,Character.ai的iOS和Android應(yīng)用程序目前在美國的月活躍用戶數(shù)為420萬,距離移動端ChatGPT的600萬月活,日益接近。

和ChatGPT的對話式AI不一樣,Character.AI在此基礎(chǔ)上加入個性化、UGC兩大核心功能,使其有了比前者更豐富的使用場景。

一方面,用戶可以根據(jù)個人需求自定義AI角色,滿足Z世代個性化定制的需求。同時這些用戶自主創(chuàng)建的AI角色,也可以被平臺所有用戶使用,構(gòu)建AI社區(qū)氛圍。比如此前在社交媒體平臺傳播出圈的蘇格拉底、God等虛擬人物,以及官方自主創(chuàng)建的馬斯克等商業(yè)名人的AI形象。

另一方面,個性化的深度定制+群聊功能,也使得用戶對于平臺產(chǎn)生情感智能依賴。很多社交媒體平臺的用戶公開評價顯示,因?yàn)榱奶祗w驗(yàn)過于逼真,就像“自己創(chuàng)作的角色擁有生命,就像在與真人交談”,“是迄今為止最接近假想朋友、守護(hù)天使的東西”。

可能是來自Character.AI的壓力,2023年8月16日OpenAI在官網(wǎng)發(fā)布了一則簡短聲明,宣布收購美國初創(chuàng)企業(yè)Global Illumination,并將整個團(tuán)隊納入麾下。這家僅有兩年歷史八位員工的小公司,主營業(yè)務(wù)是利用人工智能創(chuàng)建巧妙工具、數(shù)字基建和數(shù)字體驗(yàn)。

收購行為的背后,很可能意味著OpenAI將致力以豐富的方式,改善目前的大模型數(shù)字體驗(yàn)。

人工智能的衰老化

ChatGPT在大模型數(shù)字體驗(yàn)層面的老化,影響了其殺時間的效果。作為生產(chǎn)力工具,其生成結(jié)果準(zhǔn)確性的飄忽不定,也正在影響其用戶黏性。

此前根據(jù)Salesforce的調(diào)查顯示,有近六成的大模型使用者認(rèn)為,他們正在通過累計時間的訓(xùn)練掌握這項(xiàng)技術(shù)。不過目前這種技術(shù)的掌握,正在隨著時間的遷移發(fā)生變化。 

 

早在5月份,就有大模型老用戶在OpenAI論壇上開始抱怨GPT-4,“在以前表現(xiàn)良好的事物上表現(xiàn)出困難”。據(jù)《Business Insider》7月份報道稱,很多老用戶將GPT-4與其以前的推理能力和其他輸出相比,形容為“懶惰”和“愚笨”。

由于官方并未對此作出回應(yīng),人們開始對GPT-4性能下降的原因進(jìn)行推測,會不會是因?yàn)榇饲癘penAI的現(xiàn)金流問題?主流猜測集中在成本優(yōu)化導(dǎo)致的性能下降方面。一些研究者稱,OpenAI可能在API后面使用了規(guī)模較小的模型,以降低運(yùn)行ChatGPT的成本。

不過這個可能性隨后被OpenAI的產(chǎn)品副總裁Peter Welinder否認(rèn)。他在社交媒體上表示:“我們沒有讓GPT-4變得更笨,目前的一個假設(shè)是,當(dāng)你更加頻繁地使用它時,會開始注意到之前沒有注意到的問題。”

更多的人、更長時間的使用,暴露了ChatGPT的局限性。對于這種假設(shè),研究者試圖通過更嚴(yán)謹(jǐn)?shù)膶?shí)驗(yàn)呈現(xiàn)“ChatGPT性能和時間關(guān)系的變化”。 

來自斯坦福大學(xué)和加州大學(xué)伯克利分校在7月份提交的一篇題為《How is ChatGPT's behavior changing over time?》的研究論文顯示:同一個版本的大模型,確實(shí)可以在相對較短的時間內(nèi)發(fā)生巨大變化。

從3月份到6月份,研究者測試了GPT-3.5和GPT-4兩個版本,采集了四個常見的基準(zhǔn)任務(wù)數(shù)學(xué)問題、回答敏感問題、代碼生成和視覺推理的生成結(jié)果,并進(jìn)行評估。結(jié)果顯示,無論是GPT-3.5還是GPT-4,二者的性能和生成結(jié)果,都有可能隨時間而變化。

數(shù)學(xué)能力方面,GPT-4(2023年3月)在識別質(zhì)數(shù)與合數(shù)方面表現(xiàn)得相當(dāng)不錯(84%準(zhǔn)確率),但是GPT-4(2023年6月)在相同問題上的表現(xiàn)不佳(51%準(zhǔn)確率)。有趣的是,CPT-3.5在這個任務(wù)上6月份的表現(xiàn)要比3月份好得多。

不過在敏感問題方面,GPT-4在6月份回答敏感性問題的意愿較3月份下降;代碼能力方面,GPT-4和GPT-3.5,都在6月份表現(xiàn)出比3月份更多的錯誤。研究者認(rèn)為,雖然ChatGPT的性能和時間沒有明顯的線性關(guān)系,但是準(zhǔn)確性確實(shí)會飄忽不定。 

 

這不僅是ChatGPT自己的問題,也是此前所有AI模型的通病。根據(jù)麻省理工學(xué)院、哈佛大學(xué)、蒙特雷大學(xué)和劍橋大學(xué)2022年的一項(xiàng)研究表明,91%的機(jī)器學(xué)習(xí)模型都會隨著時間的推移而退化,研究者將這種現(xiàn)象稱為“人工智能老化”。

例如,Google Health曾經(jīng)開發(fā)了一種深度學(xué)習(xí)模型,可以通過患者的眼睛掃描來檢測視網(wǎng)膜疾病。該模型在訓(xùn)練階段的準(zhǔn)確率達(dá)到90%,但在現(xiàn)實(shí)生活中卻無法提供準(zhǔn)確的結(jié)果。主要是因?yàn)樵趯?shí)驗(yàn)室,采用高質(zhì)量的訓(xùn)練數(shù)據(jù),但是現(xiàn)實(shí)世界的眼睛掃描質(zhì)量較低。

受制于機(jī)器學(xué)習(xí)模型老化的情況,過去走出實(shí)驗(yàn)室的AI技術(shù),以單一的語音識別技術(shù)為主,智能音箱等產(chǎn)品因此最先普及。根據(jù)美國人口普查局2018年對58.3萬家美國公司的調(diào)查,只有2.8%使用機(jī)器學(xué)習(xí)模型來為其運(yùn)營帶來優(yōu)勢。

不過伴隨著大模型智能涌現(xiàn)能力的突破,機(jī)器學(xué)習(xí)模型的老化速度明顯減弱,逐漸走出實(shí)驗(yàn)室面向更廣泛的受眾。不過,涌現(xiàn)能力的黑盒下仍有不可預(yù)測性,讓不少人對于ChatGPT能否長期保持AI性能的不斷提升提出質(zhì)疑。

黑盒下的抗衰老性

人工智能老化的本質(zhì),其實(shí)是機(jī)器學(xué)習(xí)模型的范式缺陷。 

過往,機(jī)器學(xué)習(xí)模型是按照具體任務(wù)和具體數(shù)據(jù)的對應(yīng)關(guān)系進(jìn)行訓(xùn)練。通過大量的例子,先教給模型,那個領(lǐng)域中什么是好,什么是壞,再調(diào)節(jié)一下模型的權(quán)重,從而輸出恰當(dāng)?shù)慕Y(jié)果。這種思路下,每做一些新的事情,或者數(shù)據(jù)分布有明顯變化,都要重新訓(xùn)練一遍模型。

新事情和新數(shù)據(jù)無窮無盡,模型就只能刷新。但是模型的刷新也會導(dǎo)致過去做得好的事情突然做不好了,進(jìn)一步限制應(yīng)用?偨Y(jié)來看,傳統(tǒng)的機(jī)器學(xué)習(xí)模型中,數(shù)據(jù)飛輪本質(zhì)是為了迭代模型,用新模型解決新問題的范式。

不過以ChatGPT為代表的大模型,涌現(xiàn)出自主學(xué)習(xí)能力,突破了這種范式。過往的機(jī)器學(xué)習(xí),是先“吃”數(shù)據(jù),之后“模仿”,基于的是對應(yīng)關(guān)系;ChatGPT類的大模型,是“教”數(shù)據(jù),之后“理解”,基于的是“內(nèi)在邏輯”。

這種情況下,大模型本身不發(fā)生變化,理論上可以永葆青春。不過也有從業(yè)人士表示,正如大模型的智能涌現(xiàn)一樣,是非線性發(fā)展、不可預(yù)測的,是突然就有的。對于大模型是否會隨著時間發(fā)生衰老,涌現(xiàn)出難以預(yù)測的不可確定性也是未知的。

換句話說,ChatGPT在涌現(xiàn)出難以理論化推導(dǎo)的智能性能后,也開始涌現(xiàn)出難以預(yù)測的不可確定性。

對于“涌現(xiàn)”的黑盒性,9月6日在百川智能Baichuan2開源大模型發(fā)布會上,中國科學(xué)院院士、清華大學(xué)人工智能研究院名譽(yù)院長張鈸表示:“到現(xiàn)在為止,全世界對大模型的理論工作原理、所產(chǎn)生的現(xiàn)象都是一頭霧水,所有的結(jié)論都推導(dǎo)產(chǎn)生了涌現(xiàn)現(xiàn)象。所謂涌現(xiàn)就是給自己一個退路,解釋不清楚的情況下就說它是涌現(xiàn)。實(shí)際上反映了我們對它一點(diǎn)不清楚。”

在其看來,大模型為什么會產(chǎn)生幻覺這個問題,涉及到ChatGPT跟人類自然語言生成原理的不一樣。最根本的區(qū)別在于,ChatGPT生成的語言是外部驅(qū)動的,而人類的語言是在自己意圖的情況下驅(qū)動的,所以ChatGPT內(nèi)容的正確性和合理性不能保證。

在經(jīng)歷過一系列概念炒作跟風(fēng)上車之后,對于致力于開發(fā)生產(chǎn)力基礎(chǔ)模型的人來說,面臨的挑戰(zhàn)將是如何確保其產(chǎn)品持續(xù)輸出結(jié)果的可靠性和準(zhǔn)確性。

不過對于大模型相關(guān)的娛樂產(chǎn)品而言,正如Character.AI 聯(lián)合創(chuàng)始人Noam Shazeer在《紐約時報》上所說:“這些系統(tǒng)并不是為真相而設(shè)計的。它們是為合理的對話而設(shè)計的。”換句話說,它們是自信的廢話藝術(shù)家。大模型的巨浪已然開始分流。

參考資料:

Gizmodo-Is ChatGPT Getting Worse?

TechCrunch-AlappCharacter.aiiscatchinguptoChatGPTintheUS

Machine Learning Monitoring- Why You Should Care About Data and Concept Drift

M小姐沿習(xí)錄-關(guān)于ChatGPT的五個最重要問題

清華大學(xué)人工智能國際治理研究院-對大模型的研究很迫切,不能解釋不清楚就說“涌現(xiàn)”

       原文標(biāo)題 : ChatGPT笨了,還是老了?

聲明: 本文由入駐維科號的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評論

暫無評論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯
x
*文字標(biāo)題:
*糾錯內(nèi)容:
聯(lián)系郵箱:
*驗(yàn) 證 碼:

粵公網(wǎng)安備 44030502002758號