日韩h视频,欧美aaaa视频

ChatGPT笨了，還是老了？

2023-09-15 17:18

“過去的表現(xiàn)并不能保證將來的結(jié)果。”這是大多數(shù)金融理財模型的小字。

在產(chǎn)品業(yè)務(wù)內(nèi)部，這被稱之為模型漂移、衰退或過時。事情會發(fā)生變化，模型性能會隨著時間的推移而下降。最終的衡量標(biāo)準(zhǔn)是模型質(zhì)量指標(biāo)，可以是準(zhǔn)確率、平均錯誤率，也可以是一些下游業(yè)務(wù)的KPI，比如點(diǎn)擊率。

沒有任何模型可以永遠(yuǎn)有效，但衰退的速度各不相同。‍有些產(chǎn)品可以使用多年而無需更新，例如某些計算機(jī)視覺或語言模型，或者是在隔離、穩(wěn)定環(huán)境中的任何決策系統(tǒng)，比如常見的實(shí)驗(yàn)條件下。

想要保證模型精度，就需要每天對新數(shù)據(jù)進(jìn)行訓(xùn)練，這是機(jī)器學(xué)習(xí)模型的范式缺陷，也使得人工智能部署，不能像軟件部署一樣可以一勞永逸。后者被創(chuàng)造了幾十年，目前最先進(jìn)的AI產(chǎn)品，依然使用著早年的軟件技術(shù)。只要仍然有用，即時技術(shù)已經(jīng)過時，它們依然可以長存于每一個字節(jié)中。

不過被稱為人工智能最前沿的產(chǎn)品，以ChatGPT為代表的大模型，在遭遇人氣衰減后，迎來是否正在過時和衰老的質(zhì)疑。

無風(fēng)不起浪。用戶在ChatGPT上花費(fèi)的時間越來越少，從3月份的8.7分鐘降至8月份的7分鐘。側(cè)面反映出，當(dāng)大模型工具的供給側(cè)迅猛增長，僅僅只是生產(chǎn)力工具的ChatGPT似乎并不足以成為主流使用人群Z世代的心頭好。

一時的人氣不足以動搖致力于成為AI時代應(yīng)用商店的OpenAI霸主地位。更核心的問題是，ChatGPT生產(chǎn)力的老化，才是不少老用戶信任度下降的主因。自5月份開始，OpenAI論壇里討論GPT-4性能不如以前的帖子，就一直在發(fā)酵。

那么ChatGPT過時了嗎？以ChatGPT為代表的大模型會像過去的機(jī)器學(xué)習(xí)模型一樣衰老嗎？不理解這些問題，就不能在層出不窮的大模型熱潮之下，找到人與機(jī)器的可持續(xù)發(fā)展之道。

ChatGPT過時了嗎？

來自Salesforce AI軟件服務(wù)商最新的一份數(shù)據(jù)顯示，有67%的大模型使用者是Z世代或者千禧一代；很少使用生成AI或在這方面落伍的人群中，68%以上的人是X一代或嬰兒潮一代。

代際差異說明Z世代正在成為擁抱大模型的主流人群。Salesforce產(chǎn)品營銷人員Kelly Eliyahu表示：“Z世代實(shí)際上是AI一代，他們構(gòu)成了超級用戶群體。70%的Z世代正在使用生成式AI，至少有一半的人每周或更長時間使用它。”

不過作為大模型產(chǎn)品的領(lǐng)軍者，ChatGPT在Z世代人群中的表現(xiàn)并不出色。

根據(jù)市場調(diào)研機(jī)構(gòu)Similarweb 7月份的數(shù)據(jù)顯示，ChatGPT在Z世代人群中的使用占比為27%，低于4月份的30%。作為對比，另外一款可以讓用戶自己設(shè)計人工智能角色的大模型產(chǎn)品，Character.ai在18-24歲年齡段的人群中滲透率為60%。

得益于Z世代的追捧，Character.ai的iOS和Android應(yīng)用程序目前在美國的月活躍用戶數(shù)為420萬，距離移動端ChatGPT的600萬月活，日益接近。

和ChatGPT的對話式AI不一樣，Character.AI在此基礎(chǔ)上加入個性化、UGC兩大核心功能，使其有了比前者更豐富的使用場景。

一方面，用戶可以根據(jù)個人需求自定義AI角色，滿足Z世代個性化定制的需求。同時這些用戶自主創(chuàng)建的AI角色，也可以被平臺所有用戶使用，構(gòu)建AI社區(qū)氛圍。比如此前在社交媒體平臺傳播出圈的蘇格拉底、God等虛擬人物，以及官方自主創(chuàng)建的馬斯克等商業(yè)名人的AI形象。

另一方面，個性化的深度定制＋群聊功能，也使得用戶對于平臺產(chǎn)生情感智能依賴。很多社交媒體平臺的用戶公開評價顯示，因?yàn)榱奶祗w驗(yàn)過于逼真，就像“自己創(chuàng)作的角色擁有生命，就像在與真人交談”，“是迄今為止最接近假想朋友、守護(hù)天使的東西”。

可能是來自Character.AI的壓力，2023年8月16日OpenAI在官網(wǎng)發(fā)布了一則簡短聲明，宣布收購美國初創(chuàng)企業(yè)Global Illumination，并將整個團(tuán)隊納入麾下。這家僅有兩年歷史八位員工的小公司，主營業(yè)務(wù)是利用人工智能創(chuàng)建巧妙工具、數(shù)字基建和數(shù)字體驗(yàn)。

收購行為的背后，很可能意味著OpenAI將致力以豐富的方式，改善目前的大模型數(shù)字體驗(yàn)。

人工智能的衰老化

ChatGPT在大模型數(shù)字體驗(yàn)層面的老化，影響了其殺時間的效果。作為生產(chǎn)力工具，其生成結(jié)果準(zhǔn)確性的飄忽不定，也正在影響其用戶黏性。

此前根據(jù)Salesforce的調(diào)查顯示，有近六成的大模型使用者認(rèn)為，他們正在通過累計時間的訓(xùn)練掌握這項(xiàng)技術(shù)。不過目前這種技術(shù)的掌握，正在隨著時間的遷移發(fā)生變化。

早在5月份，就有大模型老用戶在OpenAI論壇上開始抱怨GPT-4，“在以前表現(xiàn)良好的事物上表現(xiàn)出困難”。據(jù)《Business Insider》7月份報道稱，很多老用戶將GPT-4與其以前的推理能力和其他輸出相比，形容為“懶惰”和“愚笨”。

由于官方并未對此作出回應(yīng)，人們開始對GPT-4性能下降的原因進(jìn)行推測，會不會是因?yàn)榇饲癘penAI的現(xiàn)金流問題？主流猜測集中在成本優(yōu)化導(dǎo)致的性能下降方面。一些研究者稱，OpenAI可能在API后面使用了規(guī)模較小的模型，以降低運(yùn)行ChatGPT的成本。

不過這個可能性隨后被OpenAI的產(chǎn)品副總裁Peter Welinder否認(rèn)。他在社交媒體上表示：“我們沒有讓GPT-4變得更笨，目前的一個假設(shè)是，當(dāng)你更加頻繁地使用它時，會開始注意到之前沒有注意到的問題。”

更多的人、更長時間的使用，暴露了ChatGPT的局限性。對于這種假設(shè)，研究者試圖通過更嚴(yán)謹(jǐn)?shù)膶?shí)驗(yàn)呈現(xiàn)“ChatGPT性能和時間關(guān)系的變化”。

來自斯坦福大學(xué)和加州大學(xué)伯克利分校在7月份提交的一篇題為《How is ChatGPT's behavior changing over time?》的研究論文顯示：同一個版本的大模型，確實(shí)可以在相對較短的時間內(nèi)發(fā)生巨大變化。

從3月份到6月份，研究者測試了GPT-3.5和GPT-4兩個版本，采集了四個常見的基準(zhǔn)任務(wù)數(shù)學(xué)問題、回答敏感問題、代碼生成和視覺推理的生成結(jié)果，并進(jìn)行評估。結(jié)果顯示，無論是GPT-3.5還是GPT-4，二者的性能和生成結(jié)果，都有可能隨時間而變化。

數(shù)學(xué)能力方面，GPT-4（2023年3月）在識別質(zhì)數(shù)與合數(shù)方面表現(xiàn)得相當(dāng)不錯（84%準(zhǔn)確率），但是GPT-4（2023年6月）在相同問題上的表現(xiàn)不佳（51%準(zhǔn)確率）。有趣的是，CPT-3.5在這個任務(wù)上6月份的表現(xiàn)要比3月份好得多。

不過在敏感問題方面，GPT-4在6月份回答敏感性問題的意愿較3月份下降；代碼能力方面，GPT-4和GPT-3.5，都在6月份表現(xiàn)出比3月份更多的錯誤。研究者認(rèn)為，雖然ChatGPT的性能和時間沒有明顯的線性關(guān)系，但是準(zhǔn)確性確實(shí)會飄忽不定。

這不僅是ChatGPT自己的問題，也是此前所有AI模型的通病。根據(jù)麻省理工學(xué)院、哈佛大學(xué)、蒙特雷大學(xué)和劍橋大學(xué)2022年的一項(xiàng)研究表明，91%的機(jī)器學(xué)習(xí)模型都會隨著時間的推移而退化，研究者將這種現(xiàn)象稱為“人工智能老化”。

例如，Google Health曾經(jīng)開發(fā)了一種深度學(xué)習(xí)模型，可以通過患者的眼睛掃描來檢測視網(wǎng)膜疾病。該模型在訓(xùn)練階段的準(zhǔn)確率達(dá)到90%，但在現(xiàn)實(shí)生活中卻無法提供準(zhǔn)確的結(jié)果。主要是因?yàn)樵趯?shí)驗(yàn)室，采用高質(zhì)量的訓(xùn)練數(shù)據(jù)，但是現(xiàn)實(shí)世界的眼睛掃描質(zhì)量較低。

受制于機(jī)器學(xué)習(xí)模型老化的情況，過去走出實(shí)驗(yàn)室的AI技術(shù)，以單一的語音識別技術(shù)為主，智能音箱等產(chǎn)品因此最先普及。根據(jù)美國人口普查局2018年對58.3萬家美國公司的調(diào)查，只有2.8%使用機(jī)器學(xué)習(xí)模型來為其運(yùn)營帶來優(yōu)勢。

不過伴隨著大模型智能涌現(xiàn)能力的突破，機(jī)器學(xué)習(xí)模型的老化速度明顯減弱，逐漸走出實(shí)驗(yàn)室面向更廣泛的受眾。不過，涌現(xiàn)能力的黑盒下仍有不可預(yù)測性，讓不少人對于ChatGPT能否長期保持AI性能的不斷提升提出質(zhì)疑。

黑盒下的抗衰老性

人工智能老化的本質(zhì)，其實(shí)是機(jī)器學(xué)習(xí)模型的范式缺陷。

過往，機(jī)器學(xué)習(xí)模型是按照具體任務(wù)和具體數(shù)據(jù)的對應(yīng)關(guān)系進(jìn)行訓(xùn)練。通過大量的例子，先教給模型，那個領(lǐng)域中什么是好，什么是壞，再調(diào)節(jié)一下模型的權(quán)重，從而輸出恰當(dāng)?shù)慕Y(jié)果。這種思路下，每做一些新的事情，或者數(shù)據(jù)分布有明顯變化，都要重新訓(xùn)練一遍模型。

新事情和新數(shù)據(jù)無窮無盡，模型就只能刷新。但是模型的刷新也會導(dǎo)致過去做得好的事情突然做不好了，進(jìn)一步限制應(yīng)用�？偨Y(jié)來看，傳統(tǒng)的機(jī)器學(xué)習(xí)模型中，數(shù)據(jù)飛輪本質(zhì)是為了迭代模型，用新模型解決新問題的范式。

不過以ChatGPT為代表的大模型，涌現(xiàn)出自主學(xué)習(xí)能力，突破了這種范式。過往的機(jī)器學(xué)習(xí)，是先“吃”數(shù)據(jù)，之后“模仿”，基于的是對應(yīng)關(guān)系；ChatGPT類的大模型，是“教”數(shù)據(jù)，之后“理解”，基于的是“內(nèi)在邏輯”。

這種情況下，大模型本身不發(fā)生變化，理論上可以永葆青春。不過也有從業(yè)人士表示，正如大模型的智能涌現(xiàn)一樣，是非線性發(fā)展、不可預(yù)測的，是突然就有的。對于大模型是否會隨著時間發(fā)生衰老，涌現(xiàn)出難以預(yù)測的不可確定性也是未知的。

換句話說，ChatGPT在涌現(xiàn)出難以理論化推導(dǎo)的智能性能后，也開始涌現(xiàn)出難以預(yù)測的不可確定性。

對于“涌現(xiàn)”的黑盒性，9月6日在百川智能Baichuan2開源大模型發(fā)布會上，中國科學(xué)院院士、清華大學(xué)人工智能研究院名譽(yù)院長張鈸表示：“到現(xiàn)在為止，全世界對大模型的理論工作原理、所產(chǎn)生的現(xiàn)象都是一頭霧水，所有的結(jié)論都推導(dǎo)產(chǎn)生了涌現(xiàn)現(xiàn)象。所謂涌現(xiàn)就是給自己一個退路，解釋不清楚的情況下就說它是涌現(xiàn)。實(shí)際上反映了我們對它一點(diǎn)不清楚。”

在其看來，大模型為什么會產(chǎn)生幻覺這個問題，涉及到ChatGPT跟人類自然語言生成原理的不一樣。最根本的區(qū)別在于，ChatGPT生成的語言是外部驅(qū)動的，而人類的語言是在自己意圖的情況下驅(qū)動的，所以ChatGPT內(nèi)容的正確性和合理性不能保證。

在經(jīng)歷過一系列概念炒作跟風(fēng)上車之后，對于致力于開發(fā)生產(chǎn)力基礎(chǔ)模型的人來說，面臨的挑戰(zhàn)將是如何確保其產(chǎn)品持續(xù)輸出結(jié)果的可靠性和準(zhǔn)確性。

不過對于大模型相關(guān)的娛樂產(chǎn)品而言，正如Character.AI 聯(lián)合創(chuàng)始人Noam Shazeer在《紐約時報》上所說：“這些系統(tǒng)并不是為真相而設(shè)計的。它們是為合理的對話而設(shè)計的。”換句話說，它們是自信的廢話藝術(shù)家。大模型的巨浪已然開始分流。

參考資料：

Gizmodo-Is ChatGPT Getting Worse?

TechCrunch-AlappCharacter.aiiscatchinguptoChatGPTintheUS

Machine Learning Monitoring- Why You Should Care About Data and Concept Drift

M小姐沿習(xí)錄-關(guān)于ChatGPT的五個最重要問題

清華大學(xué)人工智能國際治理研究院-對大模型的研究很迫切，不能解釋不清楚就說“涌現(xiàn)”

“過去的表現(xiàn)并不能保證將來的結(jié)果。”這是大多數(shù)金融理財模型的小字。