狼人透视辅助2022安卓版下载,97超碰人人爱国产,精品人妻在线视频

“百模大戰(zhàn)”家家第一，大模型“跑分”作弊何時休？

2023-11-29 11:51

家家第一，榜單該升級了？

今天在朋友圈看到一張圖：國內(nèi)的“百模大戰(zhàn)”已升級成“兩百模大戰(zhàn)”，據(jù)不完全統(tǒng)計，今年1-7月國內(nèi)共發(fā)布了64個大模型，截至目前叫得出名字的國產(chǎn)大模型已接近200家。這么多大模型，哪些是真能打的？在每天冒出來的各類“榜單”上出現(xiàn)了“家家第一”的情況，甚至已不止一款國產(chǎn)大模型“碾壓”了GPT-4，且很多“世界頂級”大模型是出自剛成立的團隊之手。

然而國產(chǎn)大模型在國外的境遇，卻是冰火兩重天。前段時間《時代周刊》公布2023年AI領域最有影響力100人，中國面孔十分罕見，有媒體評論“百模大戰(zhàn)打了個寂寞”；日前，開源AI社區(qū)代表Hugging Face發(fā)布最受歡迎開源大模型機構TOP15榜單，在大名鼎鼎的Stability AI、Meta AI、Runway、OpenAI、谷歌、微軟等海外機構外，只有一家機構來自中國：KEG實驗室（全稱為清華大學知識工程實驗室，成立于1996年），其憑借今年開源的模型ChatGLM-6B上榜。

這種反�，F(xiàn)象的背后，是大模型行業(yè)日益嚴重的“跑分亂象”。在讓人眼花繚亂的大模型榜單上，似乎每一個大模型都曾拿過第一，都可分分鐘碾壓GPT-4。這不禁讓人懷疑，國產(chǎn)大模型技術真的這么強？大模型技術門檻真的這么低？

大模型榜單，家家第一？

如果搜索“大模型，超越GPT-4”可以發(fā)現(xiàn)，多家國產(chǎn)大模型號稱在多個維度已超越OpenAI旗下的GPT-4，且有模有樣地曬出對應的大模型評測榜單“跑分”，比如某大模型宣稱“基模型12項性能超越GPT-４”。相對來說，源自頂尖學術機構的大模型對自己的水平更嚴謹一些，它們往往不會過度強調(diào)排名數(shù)據(jù)，而科技巨頭雖然會有一些“包裝”但也不會太離譜，頂多只會宣稱“明年挑戰(zhàn)GPT-4”“已達到GPT3.5的水平”。

大模型“家家都是第一”的亂象，跟雙11結束后的品牌戰(zhàn)報有些相似。每個品牌都能定制一個讓自己看上去“最厲害”的雙11榜單，GMV不行可以說銷量，兩者都不行可加前綴限定到細分品類如“XX元內(nèi)XX吋采取XX屏幕的電視之第一”，實在不行還能說自身同比增速行業(yè)第一。

大模型是純技術產(chǎn)品，衡量其水準理論上要用專業(yè)技術評測體系，“讓專業(yè)的歸專業(yè)”，當前，在PK技術參數(shù)這件事上，大模型榜單存在不少問題。

前些年行業(yè)流行“參數(shù)規(guī)模越大，大模型卻強大”，大模型狂卷參數(shù)，最高已過千億。今天大模型不能再單拼參數(shù)了，因為行業(yè)都知道，參數(shù)大的大模型不一定真強大。大模型要證明實力，離不開“跑分”，就是去跑一些機構的大模型評測體系的測試數(shù)據(jù)集來“拿分”再排名。

當下，市面上的評測工具（系統(tǒng)）不下50個，既有來自專業(yè)學術機構的，也有來自市場運作組織的，還有一些媒體也推出了對應的大模型榜單。

在不同大模型“跑分”榜單中，同一個大模型的表現(xiàn)可能相差甚大，比如前段時間被質疑“基于開源大模型偽原創(chuàng)”的某大模型宣稱超越GPT-4“勇奪全球開源評測雙料冠軍”，在其公布自身第一的榜單上，百度文心一言連TOP20都無法進入，但在8月15日某權威媒體研究機構發(fā)布的《人工智能大模型體驗報告2.0》，百度文心一言又能排第二，第一是訊飛星火大模型；在8月28日，SuperCLUE發(fā)布的中文大模型8月榜單，GPT-4排名第一，百川智能的Baichuan-13B-Chat排在中文榜單首位；在9月的開源評測榜單C-Eval最新一期排行榜中，云天勵飛大模型“云天書”排在第一，GPT-4名列第十。

不同大模型的“智力”表現(xiàn)，在不同榜單相差巨大，明眼人一看就知道其中暗藏玄機。

更離奇的是，就算在同一榜單中，也經(jīng)常出現(xiàn)多個大模型共同認領第一的情況。比如某手機廠商宣布，其“自研大模型在C-Eval全球中文榜單中排名第一。此前其自研大模型已取得C-Eval百億內(nèi)大模型榜單第一，CMMLU全球中文榜單第一以及其百億內(nèi)大模型榜單第一的好成績。”同一時間，某互聯(lián)網(wǎng)巨頭旗下的創(chuàng)新業(yè)務宣稱其“千億級參數(shù)的大模型登頂C-Eval和CMMLU兩大權威評測榜單，多項性能優(yōu)于GPT-4。”看到這里很多人肯定會有疑問：為什么在C-Eval和CMMLU這兩大“權威評測榜單”中，均會同時出現(xiàn)兩個第一？——如果繼續(xù)搜索恐怕還能找到更多認領第一的情況。

只要前綴用得好，家家都是大模型王者，國產(chǎn)大模型秒殺GPT-4、碾壓人類智商都不是事兒。

問題在于，當家家都宣稱自己是大模型“王者”后，這樣的“金牌”含金量到底有多少？我們不由要問：大模型評測體系到底出了什么問題？

大模型評測體系，問題在哪？

百模大戰(zhàn)如火如荼。不同大模型都有著分出個高低的強烈需求，在這樣的背景下，市面上快速出現(xiàn)了大量的大模型排行榜，它們可被分為三類：一類是大學等機構主導的學術類榜單，一類是第三方公司運作的市場類榜單，還有一類是媒體等非技術機構推出的評測榜單。

用手機行業(yè)來類比，第一類、第二類就像是安兔兔、dxomark這樣的跑分平臺，芯片、相機好不好用技術評測數(shù)據(jù)說話；第三類更像是評測體驗博主，他們站在用戶角度去設計榜單。真正能夠衡量大模型技術實力的是第一類、第二類“跑分”榜單。

不論是學術界還是產(chǎn)業(yè)界的大模型榜單，當前的“跑分”原理都是一致的：設計一套評測數(shù)據(jù)集去讓大模型給出答案，再閱卷打分，本質就是讓大模型“做題”拿分。大模型本質是機器學習技術，其目的是提升機器的智能程度以為人類所用，因此用衡量人的能力的手段即“考試做題”來評估大模型的水準，本身不存在什么問題。

然而，大模型大規(guī)模爆發(fā)才不到一年時間，當前的大模型跑分評測體系才剛發(fā)展出來，整體很不成熟，這導致了一些大模型玩家投機取巧，靠“刷分”奪冠。

大模型評測基礎體系并不復雜。用最權威的考試體系高考來對標的話：評測數(shù)據(jù)集相當于“題庫”；評測工具與過程則對應到高考考試工具與過程，比如筆試用的試卷，英語聽力用的廣播；打分體系相當于高考的閱卷體系，比如語文作文會有多名老師閱卷再算平均分，以確保公平。

這樣看的話，當前的大模型跑分評測體系問題有三：

第一、開源評測數(shù)據(jù)集題目全公開，“刷題”最流行。很多大模型評測榜單的數(shù)據(jù)集是公開的，針對此出現(xiàn)了普遍的“刷題”現(xiàn)象，有的公司會雇傭人類“數(shù)據(jù)標注員”來做題將答案給到大模型，還有的公司會讓GPT-4來答題再將答案用來訓練自家大模型，大模型做題就可以“滿分”了。許多大模型剛推出就可以拿滿分“排第一”碾壓GPT-4，玄妙正在于這里。

開源評測數(shù)據(jù)集相當于高考搞“開卷考試”一樣，除非是特別開放的問題（如職場面試），否則被試者完全可以提前針對性地刷題背答案，最終得分自然完全無法反映出其真實水平。

第二，評測數(shù)據(jù)不開源、全過程封閉評測，引發(fā)了公平性問題。既然將評測數(shù)據(jù)集開源會引發(fā)“刷題”，為什么評測機構要開源呢？答案在于：評測的公平性。如果機構在評測時用什么問題以及對應什么答案是什么一直不公開，如果機構的評測邏輯與工具、評分方法與過程是封閉的“黑盒子”，得出的任何結果都難免會被質疑。只有公開，才有公平公正，才能讓人信服。因此，評測機構開放與不開放都難。

第三，評測數(shù)據(jù)集本身存在不夠科學的情況。比如用中文數(shù)據(jù)集去考核英文大模型，跟讓老外直接來參加高考一樣不靠譜；再比如用通用評測數(shù)據(jù)集去評測醫(yī)療、金融、工業(yè)、科學等產(chǎn)業(yè)大模型，跟讓體育特長生去參加普通高考一樣，沒太大意義。

更諷刺的是，現(xiàn)在行業(yè)出現(xiàn)了一些“隨心所欲的主觀榜單”，排名者不知道是誰，也不會用什么評測數(shù)據(jù)集來測試大模型，而是“我覺得誰第一誰就是第一”，比如這幾天某大模型榜單，一看排名依據(jù)竟然是依據(jù)“開放程度”“技術專利”“全平臺訪問指數(shù)”和“熱度指數(shù)”，這并不科學。

有的大模型靠“刷分”去拿第一“碾壓GPT-4”，好歹還是花了點功夫去準備的，比如會讓數(shù)據(jù)標注員去做題，頂多算考試舞弊“小抄”。但是搞一些排名機構都不知道是誰、連評測數(shù)據(jù)集都沒有的主觀榜單來宣稱“第一”的玩家，簡直就跟花錢去野雞大學買學歷的差不多——更準確的說法應該是，“辦假證”，就算野雞大學也要去像模像樣學習一番。

沒有任何證據(jù)表明有大模型創(chuàng)業(yè)者“花錢買榜”的情況，但當前大模型榜單確實存在嚴重問題，市場亟待一套類似于高考一樣的權威的大模型評測體系，在公平公正公開的同時，科學、全面、有效地衡量大模型的綜合水平。

市場需要怎樣的大模型評測體系？

從隋唐時期出現(xiàn)的科舉考試到今天的高考，從中國的四六級英語考試再到國外的GRE、托福、雅思……“考試”讓每個人都可以公平地被衡量，進而得到對應的成長機會。

同理，大模型評測體系對大模型的發(fā)展也不可或缺：

一方面，如果評測相對準確、靠譜、權威，可以科學、全面、有效地衡量孰優(yōu)孰劣，對市場所有大模型玩家來說無疑是好事。如果評測不準確，阿貓阿狗的大模型都可以“第一”“奪冠”“屠榜”，對真正擁有頂尖人才、投入巨大資源、攻堅技術卡點的大模型團隊無疑是十分不公平的。榜單排名不只是決定市場認知，往往也意味著人才、資金等資源的凝聚能力。

另一方面，只有評測結果相對準確，大模型研發(fā)者才能知道自己產(chǎn)品的市場水平在哪，優(yōu)缺點在哪，進而查漏補缺，沿著正確的方向鉆研算法、提升技術、加強訓練，不斷攻克難點不斷升級迭代，這樣的過程就像高中同學們參加“模擬考試”或者“摸底考試”的意義一樣。

那么，大模型評測體系怎樣才能成為“高考”一樣的權威評測體系呢？

首先，“假學歷”、“野雞大學學歷”這一類“野雞榜單”應該被徹底反對，“買榜單”“買排名”這樣的做法應該被堅決鄙視。讓技術的歸技術，大模型技術實力只能且必須用技術說話，搞一些跟技術沒關系的評估維度來生拉硬套“造榜單”跟“買假學歷證”的行為沒什么區(qū)別，行業(yè)對這類榜單應該毫不猶豫地唾棄。

其次，大模型要證明技術水平就要尊重“考試”規(guī)則，參加“高考”，當前的大模型“高考”體系有待改進：

1、評測過程全開放，數(shù)據(jù)應該“開/閉結合”。機構的評測工具、評測過程、評測方法以及評分體系應該毫無保留地開源，確保公平公正公開。評測數(shù)據(jù)集則應“開/閉結合”，開源歷史題目讓大模型訓練，但正式的評測數(shù)據(jù)集應該封閉以杜絕“刷榜”，在評測結束后再開放避嫌“暗箱操作”，同時也可以讓大模型研發(fā)者有的放矢地去發(fā)現(xiàn)問題和改進技術。此外，機構也可以開源類似于面試求職一樣的開放題目，再配套對應的評測體系來衡量大模型表現(xiàn)。

參考高考作文題目打分來看，評測機構甚至可以多家聯(lián)合評測，最大化規(guī)避主觀問題和隨機因素，盡可能真實地衡量大模型的水平。

2、評測體系更全面，評測方式多元化。除針對大模型在性能與泛化評測等表現(xiàn)設計評估體系外，更多兼顧到大模型的能效、魯棒性、安全性等綜合能力評測。與此同時，針對不同類型的大模型設計對應的評測體系，比如金融大模型強化金融級安全評測，比如工業(yè)大模型則要評估其在惡劣環(huán)境下的極限表現(xiàn)。

3、評測數(shù)據(jù)集更專業(yè)，不斷豐富評測數(shù)據(jù)。評測數(shù)據(jù)集的建立過程本質是“命題”，參考高考來看，這是一個系統(tǒng)而科學的工程。針對大模型的評測數(shù)據(jù)集應該不斷完善，隨著大模型的迭代而迭代，比如GPT-4強化多模態(tài)能力，評測數(shù)據(jù)集也應該配套強化音視頻等多媒體內(nèi)容理解與生成相關評測數(shù)據(jù)集；再比如針對金融等專業(yè)大模型，評測數(shù)據(jù)集應該有對應的專業(yè)題庫。每年高考作文命題都會貼合實時，正是因為相關題目不可能存在歷史題目，大模型評測數(shù)據(jù)集同樣可與時俱進，結合最新的實時知識去完善，讓大模型不可能靠刷題、刷分得高分。

如何準確測量一個大模型的能力，這實際上還是一個非常有爭議的問題，因為目前我們其實還并不能確切地指出大模型智能涌現(xiàn)的原因。很多時候，模型運作本身是一個黑箱過程，這就意味著對大模型的測評某種意義上講是管中窺豹——它的完善就如同大模型能力的提升一樣，都將是一個長期的過程。

世界上不會有完美的大模型評測體系，但隨著技術的迭代，當前的大模型評估體系需要升級，貼合市場需求，回歸技術本身，讓大模型開發(fā)者們可以沿著正確的方向前進。

對于大模型開發(fā)者來說，任何榜單的排名是技術進化的自然結果，而不應該被當成目的。大模型團隊的資源是有限的，如果花心思、資源與精力去定制榜單搞排名追求“虛假強大”，哪怕拿遍行業(yè)第一都沒什么意義，這是緣木求魚。不論怎樣證明自己第一都是沒有用的，不斷精進技術，加速技術產(chǎn)品化的步伐，讓技術進入場景才是大模型團隊的大事。有沒有B端客戶買單？真實下載量、用戶數(shù)到底如何？行業(yè)內(nèi)的真實口碑如何？學術圈的技術評價怎樣？能不能實現(xiàn)商業(yè)化？這些評估體系遠比任何榜單的排名重要得多。

來源：雷科技

原文標題 : “百模大戰(zhàn)”家家第一，大模型“跑分”作弊何時休？