訂閱
糾錯(cuò)
加入自媒體

AI大模型哪家強(qiáng)?七大維度橫評(píng)四款主流大模型!

2024-02-02 11:32
奇偶派
關(guān)注

圖片

奇偶派(jioupai)原創(chuàng)

作者 |光塵、葉子

編輯 |釗

圖源:圖蟲(chóng)創(chuàng)意

2023年是大模型風(fēng)潮大起的一年,目前市面上,文心一言、訊飛星火、通義千問(wèn)等諸多國(guó)產(chǎn)大模型已經(jīng)開(kāi)放內(nèi)測(cè)許久,這些大模型的技術(shù)能力以及由此帶來(lái)的用戶體驗(yàn)感均有所不同。國(guó)內(nèi)國(guó)外百模大戰(zhàn)之下,哪個(gè)大模型更強(qiáng)大,在各方面能力表現(xiàn)如何引人好奇。

帶著這樣的好奇,我們對(duì)包括ChatGPT、文心一言、通義千問(wèn)以及訊飛星火四大國(guó)內(nèi)外主流大模型進(jìn)行一次綜合橫評(píng),看看誰(shuí)的表現(xiàn)更好。測(cè)評(píng)結(jié)果由1、2、3、4作為排名,最終綜合排名相加越低,表示該大模型表現(xiàn)越好。

希望這次測(cè)評(píng)能給大家?guī)?lái)一些有價(jià)值的參考與結(jié)論,廢話不多說(shuō),下面我們一起來(lái)看看測(cè)評(píng)。

1

多模態(tài)能力

多模態(tài)能力指的是處理和理解來(lái)自不同模態(tài)的信息的能力,例如圖像、文本、音頻和視頻等。它涉及到信息融合、交互式體驗(yàn)、數(shù)據(jù)分析、機(jī)器學(xué)習(xí)發(fā)展等多方面,我們對(duì)其中最重要的部分語(yǔ)音交互能力以及幾個(gè)大模型由文字生成圖片、視頻、音頻的能力展開(kāi)了測(cè)試。

①語(yǔ)音交互能力:

語(yǔ)音交互能力是指系統(tǒng)能夠理解和響應(yīng)語(yǔ)音指令,它是多模態(tài)交互中的一個(gè)重要組成部分。

我們以一人在春運(yùn)回家路上遇到的困難,需要得到幫助作為場(chǎng)景,和幾個(gè)大模型展開(kāi)了對(duì)話。

1)文心一言:

圖片

文心一言只能一條條語(yǔ)音進(jìn)行交流,無(wú)法實(shí)時(shí)通話。

圖片

不過(guò)給出的解決方案還是比較具體和詳細(xì)的。

2)通義千問(wèn):

圖片

通義千問(wèn)則是只能在輸入時(shí)將語(yǔ)音轉(zhuǎn)成文字,而在輸出時(shí)只有文字的形式。

3)GPT:

圖片

作為對(duì)比,我們也測(cè)試了ChatGPT面對(duì)相同問(wèn)題的反應(yīng),回答如上,可以看到,GPT給出的解決方案也很細(xì)致周到,且包含的問(wèn)候語(yǔ)很多,聲音擬人度較高。但也要吐槽下,由于網(wǎng)絡(luò)問(wèn)題需要等待很久,且容易被打斷,對(duì)國(guó)人很不友好。

4)訊飛星火:

圖片

可以看到,星火的全語(yǔ)音交互能力并不體現(xiàn)在一條條語(yǔ)音中,而是由“實(shí)時(shí)通話”的形式展現(xiàn)出來(lái),通過(guò)向其提問(wèn),星火流利、順暢且迅速、準(zhǔn)確地給出了自己的解決方案。

令人眼前一亮的是,回答問(wèn)題時(shí),星火V3.5也會(huì)隨時(shí)帶著“嗯……”、“額……”等語(yǔ)氣詞,自然且不顯突兀,不止如此,星火V3.5還會(huì)時(shí)而說(shuō)出“就是”、“這個(gè)”等口語(yǔ)化的輔助詞,即便對(duì)比ChatGPT的“Ember”、“Juniper”,在擬人度和真實(shí)度方面也幾無(wú)挑剔之處。

這也對(duì)比出星火的難能可貴,即星火V3.5在回答問(wèn)題時(shí),能夠體現(xiàn)出高情商和同理心,這使得它不僅僅是一個(gè)智能助手,更像是一個(gè)真正理解用戶需求的朋友。

進(jìn)一步給出更多條件后,星火的回答也更加細(xì)致,且其支持語(yǔ)音互動(dòng)中的文字轉(zhuǎn)寫(xiě)。

圖片

此外,該“通話界面”還有打斷和暫停功能,暫停后也可恢復(fù)提問(wèn),且可隨時(shí)切換到文字模式,看到通話全程的文字版。

而在另一個(gè)對(duì)話中,對(duì)于問(wèn)題,星火V3.5的回答表現(xiàn)出的關(guān)心和體貼,讓人感到被理解和支持,體現(xiàn)了高情商和高同理心。

圖片

而文心一言和通義千問(wèn)都只支持一條條語(yǔ)音,而不支持“實(shí)時(shí)通話”的模式,這一點(diǎn)曾經(jīng)是ChatGPT的最大賣(mài)點(diǎn)之一,而目前在國(guó)內(nèi)廠商中訊飛星火的全語(yǔ)音交互能力可以說(shuō)是迎頭趕上了。

我們給出的評(píng)價(jià)是:

1-訊飛星火、GPT

2-文心一言、通義千問(wèn)

 

②文生圖/視頻/音頻

在語(yǔ)音交互能力之外,多模態(tài)能力發(fā)展之處實(shí)際上是“以文字形式輸入,以XX形式輸出”。于是我們對(duì)文生圖/視頻/音頻的能力分別做了測(cè)評(píng)。

1)訊飛星火:

圖片

可以看到訊飛星火支持完成文生圖、文生視頻,雖然不直接支持生成音頻,但支持對(duì)回答消息的語(yǔ)音朗讀,并且在 App 端還可以切換朗讀的主播,因此也可以說(shuō)是支持文生語(yǔ)音的能力的。

2)文心一言:

圖片

圖片

文心一言支持文生圖、文生音頻,但無(wú)法支持生成視頻,他以文字的形式試圖“反向激發(fā)”提問(wèn)者。

3)通義千問(wèn):

圖片

通義千問(wèn)則只能支持文生圖,文生視頻、音頻均不支持。

4)GPT:

圖片

GPT可以支持文生圖,但無(wú)法支持文生視頻、音頻。

因此,總結(jié)以上,在文生圖/音頻/視頻方面,評(píng)判如下:

1-訊飛星火

2-文心一言

3-通義千問(wèn)、GPT

2

語(yǔ)言理解能力

作為認(rèn)知大模型,語(yǔ)言理解能力幾乎是大模型與外界交互的基礎(chǔ),我們選取了語(yǔ)義理解、總結(jié)提煉、抗干擾項(xiàng)能力三個(gè)層面來(lái)對(duì)這一維度進(jìn)行評(píng)判。

①語(yǔ)義理解:

1)訊飛星火:

圖片

訊飛星火正確地給出了修改意見(jiàn)。

2)文心一言:

圖片

文心一言給出了正確的修改意見(jiàn)。

3)通義千問(wèn):

圖片

通義千問(wèn)則是將句子改的更加復(fù)雜了,不符合題意。

4)GPT:

圖片

GPT則給出了正確回答且有分析。

鑒于文心一言、訊飛星火和GPT正確,因此給出評(píng)判:

1-訊飛星火、GPT、文心一言

2-通義千問(wèn)

②總結(jié)提煉

對(duì)文段的總結(jié)提煉被認(rèn)為是考察大模型是否快、準(zhǔn)、狠的重要因素,我們做了以下測(cè)試:

1)訊飛星火:

圖片

星火的回答簡(jiǎn)潔、準(zhǔn)確。

2)文心一言:

圖片

文心一言回答幾乎將第一句話復(fù)制粘貼,并沒(méi)起到總結(jié)效果。

3)通義千問(wèn):

圖片

通義千問(wèn)的回答更加冗長(zhǎng),且?guī)缀蹙褪前褑?wèn)題重復(fù)了一遍。

4)GPT:

圖片

GPT的回答明確,且擴(kuò)寫(xiě)了其介紹。

評(píng)價(jià):

1-GPT

2-訊飛星火

3-文心一言、通義千問(wèn)

③抗干擾項(xiàng)能力:

抗干擾項(xiàng)能力是考察大模型是否足夠“聰明”的重要手段,我們?cè)谶@項(xiàng)考察上挖了陷阱,其實(shí)給出的問(wèn)題和前面兩個(gè)半句并沒(méi)有聯(lián)系,看看他們的回答:

1)訊飛星火:

圖片

星火并沒(méi)有受到擾亂,給出了準(zhǔn)確的回答,還附帶有詳細(xì)的分析。

2)文心一言:

圖片

文心一言的回答中漏掉了十年中有三個(gè)閏年的情況,即漏掉了3653天的答案。

3)通義千問(wèn):

圖片

通義千問(wèn)的回答則不夠準(zhǔn)確,明明算出來(lái)了實(shí)際天數(shù)可能是3652天,但最后給出答案時(shí)又去算了平均值,讓人摸不著頭腦。

4)GPT:

圖片

GPT僅有結(jié)果,沒(méi)有給出過(guò)程,給出的答案沒(méi)有考慮到三個(gè)閏年的可能性。

評(píng)價(jià)是:

1-訊飛星火

2-文心一言、GPT

3-通義千問(wèn)

 3

知識(shí)問(wèn)答能力

對(duì)知識(shí)問(wèn)答能力,我們從生活常識(shí)、行業(yè)知識(shí)、歷史人文知識(shí)三方面來(lái)評(píng)判。

①生活常識(shí)

對(duì)生活常識(shí)的了解應(yīng)該是大模型的基礎(chǔ)能力。

1)訊飛星火:

圖片

訊飛星火的回答正確,且具體詳實(shí),將制作原料、口味、歷史都介紹了一遍。

2)文心一言:

圖片

文心一言的回答正確,且進(jìn)一步將所屬菜系、原材料、烹飪方法等都介紹了。

3)通義千問(wèn):

圖片

通義千問(wèn)的回答也正確,且包含了對(duì)菜品的介紹。

4)GPT:

圖片

GPT的回答也正確,總體效果和通義千問(wèn)持平。

評(píng)判結(jié)果:

1-GPT、訊飛星火、文心一言、通義千問(wèn)

②行業(yè)知識(shí)

 

對(duì)某個(gè)行業(yè)知識(shí)的理解,可以起到該行業(yè)的專業(yè)人士的作用,幫助對(duì)需要了解該行業(yè)的人進(jìn)行知識(shí)普及。

1)訊飛星火:

圖片

訊飛星火的答案正確、且有具體分析,對(duì)于做題的學(xué)生黨、考試黨來(lái)說(shuō)很友好。

2)文心一言:

圖片

文心一言的答案正確的同時(shí),給出了標(biāo)黑重點(diǎn),還有更進(jìn)一步的分析,每個(gè)選項(xiàng)的錯(cuò)誤點(diǎn)都指了出來(lái),偏向于“老師向”,表現(xiàn)優(yōu)秀。

3)通義千問(wèn):

圖片

通義千問(wèn)的回答則是進(jìn)一步介紹了原題提到的名詞,偏向于“百科向”,起到普及的作用,但沒(méi)有其他錯(cuò)誤選項(xiàng)的分析。

4)GPT:

圖片

GPT的回答則介于“普及向”和“老師向”之間,沒(méi)有每個(gè)選項(xiàng)逐個(gè)分析,但綜合一句話可以概括。

評(píng)測(cè)結(jié)果:

1-訊飛星火、GPT、文心一言

2-通義千問(wèn)

③歷史人文知識(shí)

接下來(lái)是歷史人文知識(shí),我們用““九州”在《書(shū)·禹貢》中指冀、( )、青、徐、揚(yáng)、( )、豫、梁、雍。”這個(gè)問(wèn)題來(lái)考驗(yàn)。這個(gè)問(wèn)題比較小眾,屬于“查資料”型題目。

1)訊飛星火:

圖片

訊飛星火的回答準(zhǔn)確無(wú)誤,且附有介紹,令人滿意。

2)文心一言:

圖片

文心一言的回答正確,且有更多更詳細(xì)的介紹,介紹了每個(gè)州的地理位置。

3)通義千問(wèn):

圖片

通義千問(wèn)則是只給出了答案,沒(méi)有其他介紹。

4)GPT:

圖片

GPT的回答和通義千問(wèn)一樣,也是只給出了答案,沒(méi)有其他介紹。

考慮到歷史知識(shí)類問(wèn)題一般需要更多分析和介紹,因此評(píng)價(jià)結(jié)果為:

1-訊飛星火、文心一言

2-GPT、通義千問(wèn)

4

邏輯推理能力

邏輯推理能力上,我們將其分類為容易類和困難類,來(lái)進(jìn)行測(cè)評(píng)。

①容易的邏輯推理問(wèn)題

1)訊飛星火:

圖片

訊飛星火的答案差強(qiáng)人意,其中,“你在二年級(jí)時(shí),距離你上二年級(jí)已經(jīng)過(guò)去了1年”的描述很奇怪,不符合邏輯,或許是想表達(dá)其在二年級(jí)下學(xué)期,事實(shí)上這一題的正確答案應(yīng)該是四年級(jí)畢業(yè),因此說(shuō)是四年級(jí)、五年級(jí)皆可,但這個(gè)解題過(guò)程有待商榷。

2)文心一言:

圖片

文心一言給出了正確答案。但步驟1中計(jì)算大學(xué)前年級(jí)時(shí)沒(méi)有計(jì)算高中年級(jí),反而計(jì)算了幼兒園年級(jí),讓人有所異議。

3)通義千問(wèn):

圖片

通義千問(wèn)的答案錯(cuò)誤,“大二比二年級(jí)大四個(gè)年級(jí)”的錯(cuò)誤和文心一言犯的錯(cuò)誤如出一轍。

4)GPT:

圖片

GPT 的回答邏輯清晰,答案正確。

由于除了GPT外,三個(gè)大模型均有錯(cuò)誤,或是結(jié)果,或是過(guò)程,或是結(jié)果、過(guò)程都錯(cuò),所以給出評(píng)判:

1-GPT

2-文心一言、訊飛星火、通義千問(wèn)

②困難的邏輯推理問(wèn)題

 

1)訊飛星火:

圖片

訊飛星火的回答邏輯、條理清晰。

2)文心一言:

圖片

文心一言給出的答案正確,附有分析過(guò)程。

3)通義千問(wèn):

圖片

通義千問(wèn)的第二個(gè)步驟中“拿一個(gè)已知是假的金幣作為參照物”,但事實(shí)上無(wú)法在不使用電子秤的前提下確定某一個(gè)金幣是假幣,因此推導(dǎo)過(guò)程存在瑕疵。

4)GPT:

圖片

GPT給出了正確答案。

評(píng)測(cè)結(jié)果:

1-訊飛星火、文心一言、GPT

3-通義千問(wèn)

 

5

數(shù)學(xué)能力

數(shù)學(xué)能力是大模型應(yīng)用時(shí)的一個(gè)很重要的考量因素,尤其是許多學(xué)生朋友們,或許會(huì)用到大模型來(lái)解題。我們分為英文提問(wèn)的代數(shù)題和中文提問(wèn)的幾何題,來(lái)測(cè)試四個(gè)大模型的數(shù)學(xué)能力。

①英文提問(wèn)的數(shù)學(xué)代數(shù)題

1)訊飛星火:

圖片

訊飛星火回答正確。

2)文心一言:

圖片

文心一言給出了正確答案。

3)通義千問(wèn):

圖片

通義千問(wèn)則是同樣用英語(yǔ)給出了正確答案。

4)GPT:

圖片

GPT給出了正確答案。

四個(gè)大模型都正確,因此:

1-訊飛星火、文心一言、通義千問(wèn)、GPT

②中文提問(wèn)的數(shù)學(xué)幾何題

1)訊飛星火:

圖片

訊飛星火的答案正確,過(guò)程具體清晰。

2)文心一言:

圖片

文心一言的答案正確,過(guò)程同樣具體清晰。

3)通義千問(wèn):

圖片

通義千問(wèn)答案錯(cuò)誤,前三個(gè)選項(xiàng)沒(méi)問(wèn)題,第④個(gè)選項(xiàng)中顯然沒(méi)有理解題意中“一條腰上的中線”這一前提條件。

4)GPT:

圖片

GPT答案錯(cuò)誤。

因此,給出的評(píng)判是:

1-訊飛星火、文心一言

2-通義千問(wèn)

3-GPT

6

代碼能力

讓大模型幫助敲代碼,想必是許多程序員朋友們夢(mèng)寐以求的事,我們對(duì)幾個(gè)大模型進(jìn)行了代碼能力的檢測(cè)。我們提出了要求,想讓四個(gè)大模型完成“用python實(shí)現(xiàn):輸入一個(gè)整數(shù),將其分解質(zhì)因數(shù),例如輸入90,輸出90=2*3*3*5”的要求。

1)訊飛星火:

圖片

訊飛星火給出的代碼格式標(biāo)準(zhǔn),清爽很多。

2)文心一言:

圖片

文心一言給出的代碼詳細(xì),且有介紹,

3)通義千問(wèn):

圖片

通義千問(wèn)給出的代碼則更加繁瑣,且生成界面中會(huì)需要代碼執(zhí)行器完成調(diào)用。

4)GPT:

圖片

GPT沒(méi)有給出代碼。

綜上,代碼能力上:

1-訊飛星火

2-文心一言、通義千問(wèn)

3-GPT

7

文本生成能力

生成是大模型最核心的能力,通過(guò)對(duì)大量的文本進(jìn)行訓(xùn)練,能夠生成原始且連貫的文本內(nèi)容,可以創(chuàng)造性的生成一些文本,是大模型最基礎(chǔ)的能力之一。這次測(cè)評(píng)中,我們從智力游戲、文案創(chuàng)作、故事續(xù)寫(xiě)、文章寫(xiě)作、方案策劃等五個(gè)方面對(duì)幾個(gè)大模型進(jìn)行評(píng)測(cè)。

下面是他們的表現(xiàn):

① 智力游戲

 

為了測(cè)試文本生成能力,我們向四個(gè)大模型提問(wèn)了同一個(gè)問(wèn)題:“你能寫(xiě)出三個(gè)關(guān)于元宵的謎語(yǔ)么?要包含‘團(tuán)圓’二字”。這個(gè)問(wèn)題的條件有兩個(gè):1.關(guān)于元宵;2.包含“團(tuán)圓”二字。

1)訊飛星火:

圖片

星火在作出回答之前,首先回答了“能不能的問(wèn)題”,因此先回答“當(dāng)然可以”,然后再做出后續(xù)的針對(duì)該問(wèn)題的回答,答案也完美符合題意,但美中不足的是沒(méi)有進(jìn)一步的分析。

2)文心一言:

圖片

文心一言的回答符合要求,且有解析。

3)通義千問(wèn):

圖片

通義千問(wèn)的回答則考慮到了兩個(gè)要求,且還有解釋介紹謎底和謎面的關(guān)系,表現(xiàn)不錯(cuò)。

4)GPT:

圖片

GPT的回答則類似星火,在首先回答了“可以”之后,給出了比較正確的答案,但沒(méi)有進(jìn)一步解析。

因此在這一層級(jí),我們的評(píng)價(jià)是:

1-通義千問(wèn)、文心一言

2-訊飛星火、GPT

②文案創(chuàng)作

 

文案創(chuàng)作能夠體現(xiàn)大模型對(duì)語(yǔ)義的理解和創(chuàng)作能力。工作、學(xué)習(xí)中,我們都可以利用大模型的文章生成能力,學(xué)習(xí)如何寫(xiě)好對(duì)應(yīng)題材的文章。這里我們以 "兵地融合共建" 為主題,讓四款大模型寫(xiě)一篇新聞稿,并給出了具體的結(jié)構(gòu)要求,看看他們的寫(xiě)作能力如何吧。

1)訊飛星火:

圖片

首先是訊飛星火,這篇文章條理清晰,觀點(diǎn)明確,但并沒(méi)有按照要求的結(jié)構(gòu)來(lái)寫(xiě),且地點(diǎn)以“XX”來(lái)代替,不夠具體。

2)文心一言:

圖片

其次是文心一言,它的文章嚴(yán)格按照要求的結(jié)構(gòu)來(lái)寫(xiě),且自身確定了“新疆”這一地點(diǎn),文章條理清晰,脈絡(luò)明確。其中“主體”部分還分成了三項(xiàng)依次陳述。

3)通義千問(wèn):

圖片

通義千問(wèn)方面,生成的文章同樣嚴(yán)格按照要求的結(jié)構(gòu),美中不足的是,“主體”部分本應(yīng)作為文章的詳寫(xiě)部分,其他部分為略寫(xiě)部分,在詳略得當(dāng)方面做的不好。

4)GPT:

圖片

GPT方面,生成的結(jié)果主題、結(jié)構(gòu)都沒(méi)問(wèn)題,背景、結(jié)語(yǔ)也都緊扣“兵地融合”,表現(xiàn)優(yōu)秀。

我們給出的評(píng)價(jià)是:

1-通義千問(wèn)、GPT、文心一言

2-訊飛星火

③故事續(xù)寫(xiě)

故事續(xù)寫(xiě)是考驗(yàn)大模型創(chuàng)作能力的一大指標(biāo),我們以經(jīng)典的“小白兔”、“大灰狼”作為主角開(kāi)頭,看看他們會(huì)續(xù)寫(xiě)出怎樣的故事。

1)訊飛星火:

圖片

可以看到,訊飛星火續(xù)寫(xiě)的故事非常詳細(xì),描述生動(dòng)形象,甚至分成了四個(gè)章節(jié),可以算是寫(xiě)了一本短篇小說(shuō),而且小說(shuō)內(nèi)含寓意,最后一個(gè)章節(jié)點(diǎn)出了“不應(yīng)該僅憑外表和傳言判斷他人”這種道理,可以稱得上是一篇優(yōu)秀的寓言故事。

2)文心一言:

圖片

文心一言給出的故事則相對(duì)更短,且沒(méi)有太多后續(xù)情節(jié),故事邏輯和場(chǎng)景相對(duì)單一。

3)通義千問(wèn):

圖片

通義千問(wèn)給出的故事相比文心一言要更加成熟,但總體來(lái)說(shuō),文章走向很類似于訊飛星火的文章的“章節(jié)一”,整體不錯(cuò),但文章的完整度略顯不足。

4)GPT:

圖片

GPT續(xù)寫(xiě)的故事則和通義千問(wèn)如出一轍,有一定對(duì)話,雖然故事比較簡(jiǎn)單,但整個(gè)故事立意更加成熟,且結(jié)尾更留有余味。

綜合來(lái)看,在故事續(xù)寫(xiě)部分,我們給出的評(píng)價(jià)是:

1-訊飛星火、GPT

3-文心一言、通義千問(wèn)

④方案策劃

對(duì)于身處職場(chǎng)、體制內(nèi)、或者身居組織責(zé)任要職的朋友們來(lái)說(shuō),經(jīng)常需要擬定一些活動(dòng)方案、評(píng)定標(biāo)準(zhǔn)等,我們以“我是一名房地產(chǎn)銷售主管,我要給我的三個(gè)下屬制定KPI。請(qǐng)你給我一點(diǎn)KPI參考”為主題,來(lái)進(jìn)行測(cè)試。

1)訊飛星火:

圖片

訊飛星火擬定的KPI標(biāo)準(zhǔn)細(xì)則最多,共有12條,詳實(shí)具體,每一個(gè)標(biāo)準(zhǔn)都有介紹,可操作性較強(qiáng),且還在最后給出了確定這些指標(biāo)的方法,可以作為不錯(cuò)的模板使用。

2)文心一言:

圖片

文心一言給出的標(biāo)準(zhǔn)較少,且并沒(méi)有給出為什么確定這些指標(biāo),比較簡(jiǎn)略。

3)通義千問(wèn):

圖片

通義千問(wèn)則是首先回答了制定標(biāo)準(zhǔn)時(shí)需要考慮的因素,之后給出了8條標(biāo)準(zhǔn),每條標(biāo)準(zhǔn)下轄一個(gè)指標(biāo)或者具體可量化的參考,且也在最后簡(jiǎn)述了制定這些標(biāo)準(zhǔn)的方法,還比較貼心地提醒提問(wèn)者“定期回顧、適時(shí)調(diào)整”。

4)GPT:

圖片

GPT給出的答案優(yōu)點(diǎn)是:每個(gè)標(biāo)準(zhǔn)都給出了如何評(píng)判的具體介紹,但缺點(diǎn)在于:沒(méi)有提到制定這些標(biāo)準(zhǔn)的因素和方法,但只是給出了評(píng)判標(biāo)準(zhǔn),沒(méi)有給出具體指標(biāo)。

因此,這層級(jí),我們給出的評(píng)判是:

1-訊飛星火、通義千問(wèn)

2-文心一言、GPT

8

寫(xiě)在最后

本次橫評(píng),我們從語(yǔ)言理解、文本生成、知識(shí)問(wèn)答、邏輯推理、數(shù)學(xué)能力、代碼能力和多模態(tài)能力等方面對(duì)文心一言、訊飛星火、通義千問(wèn)和ChatGPT四款大模型做了詳細(xì)的體驗(yàn)橫評(píng)。

測(cè)下來(lái)后,在國(guó)內(nèi)大模型中,訊飛星火在產(chǎn)品體驗(yàn)上大幅領(lǐng)先,其中多項(xiàng)測(cè)評(píng)排列第一,尤其是在全語(yǔ)音交互能力上,星火V3.5作為國(guó)產(chǎn)大模型中目前支持“實(shí)時(shí)通話”的佼佼者,已經(jīng)表現(xiàn)出了很強(qiáng)的實(shí)力。這對(duì)于加強(qiáng)星火后續(xù)的多模態(tài)能力升級(jí)有著非常重要的戰(zhàn)略意義。

當(dāng)然,訊飛星火也并非完美,在文本生成和知識(shí)問(wèn)答等部分細(xì)分領(lǐng)域,星火V3.5也表現(xiàn)欠佳,但總體來(lái)看可以說(shuō)是和GPT有來(lái)有回的。

文心一言和通義千問(wèn)表現(xiàn)也不錯(cuò),其中,文心一言主要擅長(zhǎng)知識(shí)問(wèn)答,這也與其背靠百度這一搜索引擎巨頭有著密不可分的關(guān)系。

當(dāng)然,本次橫評(píng)所使用的問(wèn)題樣本有限,大家實(shí)際體驗(yàn)時(shí)的感受可能與我們橫評(píng)的內(nèi)容有出入,因此上述位置值也僅供大家參考,實(shí)際選擇時(shí),大家還是要根據(jù)自身的感受來(lái)選用適合自己的 AI 大模型。

無(wú)論是訊飛星火,還是文心一言、通義千問(wèn),都是國(guó)產(chǎn)大模型的第一梯隊(duì),在當(dāng)前的科技競(jìng)爭(zhēng)、產(chǎn)業(yè)競(jìng)爭(zhēng)的局勢(shì)下,背后都要加強(qiáng)創(chuàng)新,實(shí)現(xiàn)我們?cè)谕ㄓ?span id="6111611" class='hrefStyle'>人工智能上的追趕與超越。

       原文標(biāo)題 : AI大模型哪家強(qiáng)?七大維度橫評(píng)四款主流大模型!

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯(cuò)
x
*文字標(biāo)題:
*糾錯(cuò)內(nèi)容:
聯(lián)系郵箱:
*驗(yàn) 證 碼:

粵公網(wǎng)安備 44030502002758號(hào)