日韩无码精品一区二区三区,国产精品免费观看视频

被OpenAI“封號(hào)”，字節(jié)跳動(dòng)在打什么算盤？

2023-12-21 08:52

阿爾法工場(chǎng)

關(guān)注

高質(zhì)量的語(yǔ)料數(shù)據(jù) ，是大模型的“香餑餑”。

眼看著2023就要過(guò)去了，沒(méi)想到年底又曝出一個(gè)大瓜。

近期據(jù)《The Verge》報(bào)道：

字節(jié)跳動(dòng)因使用ChatGPT的API，來(lái)開(kāi)發(fā)自家大模型，被OpenAI“封號(hào)”了。

盡管在事后，字節(jié)澄清，表示自己此舉“僅為測(cè)試”，且早已勒令停止。

然而，這終歸是一件讓人浮想聯(lián)翩的事……

字節(jié)被封號(hào)的背后，打的究竟是什么算盤？

01 字節(jié)想要什么？

雖然在《The Verge》報(bào)道中，沒(méi)有明確指出字節(jié)究竟是怎么用OpenAI的API來(lái)開(kāi)發(fā)自身大模型的，但可能的訓(xùn)練路徑來(lái)說(shuō)，用一個(gè)大模型（例如OpenAI的GPT）來(lái)訓(xùn)練另一個(gè)大模型的過(guò)程，往往有以下幾種。

其中一種，就是“師傅帶徒弟”的模式。

想象一下，師傅（已有的大模型）在處理各種任務(wù)時(shí)，會(huì)生成一些輸出（例如文本、圖像等）。徒弟（新的大模型）會(huì)觀察師傅的行為，嘗試模仿這些輸出。

這樣，徒弟就能學(xué)會(huì)如何處理類似的任務(wù)。在實(shí)際應(yīng)用中，這可以通過(guò)讓新模型學(xué)習(xí)舊模型生成的數(shù)據(jù)來(lái)實(shí)現(xiàn)。

還有一種方式，就是通過(guò)聯(lián)合訓(xùn)練，讓“師傅”和“徒弟”一起處理任務(wù)。

在實(shí)際應(yīng)用中，這可以通過(guò)讓兩個(gè)模型共享一些層次或參數(shù)來(lái)實(shí)現(xiàn)，新舊模型就可以互相學(xué)習(xí)、互相幫助，共同完成任務(wù)。

從技術(shù)可行性來(lái)判斷，在這次事件中，字節(jié)使用的更有可能是第一種方法。

即利用了OpenAI API生成的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)。

因此，在這次風(fēng)波中，字節(jié)真正想要的，是ChatGPT生成的高質(zhì)量語(yǔ)料數(shù)據(jù)。

而這樣的數(shù)據(jù)，也是任何一個(gè)訓(xùn)練中的大模型，最渴望的“香餑餑”。

但由于之前OpenAI的協(xié)議中，已明確表示禁止用其大模型去開(kāi)發(fā)競(jìng)品，因此，字節(jié)被OpenAI“封號(hào)”也是一種必然。

問(wèn)題是：作為一家實(shí)力雄厚的大廠，字節(jié)理應(yīng)不缺相應(yīng)的人手和資金，去做這些數(shù)據(jù)爬取、語(yǔ)料標(biāo)注方面的工作，為何要走這一步“險(xiǎn)棋”呢？

02 為何犯險(xiǎn)？

其實(shí)，在現(xiàn)階段的大模型賽道上，字節(jié)缺的不是人才和資金，而是時(shí)間。

與百度、訊飛等國(guó)內(nèi)大廠相比，字節(jié)真正入局大模型的時(shí)間，可以說(shuō)是相當(dāng)晚了。

從時(shí)間上看，字節(jié)真正推出第一款大模型豆包的時(shí)間，是今年的8月中旬，而那時(shí)，大模型之火已經(jīng)燃燒了近半年之久。

任何真正想入局大模型的玩家都知道，模型層的競(jìng)爭(zhēng)，是有時(shí)間窗口的。

在大模型領(lǐng)域，先進(jìn)入市場(chǎng)的企業(yè)往往能夠積累更多的用戶、數(shù)據(jù)和經(jīng)驗(yàn)，從而形成競(jìng)爭(zhēng)優(yōu)勢(shì)。后來(lái)者要想迎頭趕上，需要付出更多的努力和成本。

盡管8月上線的豆包，讓字節(jié)勉強(qiáng)趕上了模型層的晚班車，但從性能和定位上看，那更像是一個(gè)“嘗鮮”的應(yīng)景之作，無(wú)法真正與字節(jié)現(xiàn)有的業(yè)務(wù)相契合。

作為一個(gè)在移動(dòng)互聯(lián)網(wǎng)時(shí)代制造了抖音這類爆款的大廠，字節(jié)真正想要的，是像文心一言那樣更通用、更全能，且能整合或嵌入進(jìn)自身的各類APP中的大模型。

這才有了后來(lái)字節(jié)的“種子計(jì)劃”——計(jì)劃在今年年底前，打造與 GPT-3.5 性能相匹敵的Seed 大模型。

問(wèn)題是，大模型的訓(xùn)練，終歸不是件一蹴而就的事。

標(biāo)注數(shù)據(jù)、提取優(yōu)質(zhì)語(yǔ)料等等一系列繁瑣的前期工作，都需要時(shí)間。

那如何在有限的、緊迫的時(shí)間內(nèi)，搜集到足夠多的高質(zhì)量語(yǔ)料數(shù)據(jù)？

一個(gè)最靠譜的辦法，就是直接使用那些已經(jīng)驗(yàn)證過(guò)的，成熟度較高的模型的數(shù)據(jù)，例如ChatGPT。

03 模型層的窗口期

其實(shí)，不只是字節(jié)，即使是身處一線的AI玩家谷歌，也為了“急于求成”，做出了類似小動(dòng)作。

本月月初，谷歌曾失望地宣布，被其寄予厚望的大模型Gemini，由于無(wú)法較好地處理非英語(yǔ)領(lǐng)域的查詢?nèi)蝿?wù)，而被推遲了上線。

可鬼使神差的是，之后沒(méi)過(guò)幾天，谷歌就來(lái)了個(gè)回馬槍，在12月6日鄭重推出了Gemini，似乎之前提到的“缺陷”已經(jīng)不是問(wèn)題。

后來(lái)，網(wǎng)友經(jīng)過(guò)測(cè)試才發(fā)現(xiàn)，原來(lái)谷歌早就從百度的文心一言那里找到了“解決之策”。

經(jīng)過(guò)微博大V@闌夕夜等眾多網(wǎng)友的測(cè)試，在與Gemini-Pro用中文交流時(shí)，如果問(wèn)“你是誰(shuí)”，Gemini-Pro上來(lái)就回答：我是百度文心大模型。

如此狀況，讓人紛紛猜測(cè)，是谷歌直接用了百度文心一言的中文語(yǔ)料進(jìn)行訓(xùn)練。

為了反超GPT-4，谷歌真是趕鴨子上架了。

不過(guò)，從長(zhǎng)遠(yuǎn)來(lái)看，這種大廠互相薅羊毛的行為，終歸是一種暫時(shí)的現(xiàn)象。

畢竟，經(jīng)過(guò)這么幾回“露餡”后，各個(gè)大廠一定會(huì)對(duì)自家的數(shù)據(jù)看得更嚴(yán)，更死。

但即便如此，這種互相套用數(shù)據(jù)的行為，也讓眾多用戶、投資人不禁暗自嘀咕：如果各個(gè)模型之間的數(shù)據(jù)，在技術(shù)上能輕易地互相套用，那將來(lái)除了ChatGPT等少數(shù)頂流外，還有哪些模型是有“真材實(shí)料”的？

這樣的擔(dān)憂背后，其實(shí)有一個(gè)更重要的前置性問(wèn)題，那就是：

我們?yōu)槭裁葱枰敲炊嗬淄拇竽Ｐ停?/strong>

畢竟，人類的語(yǔ)料數(shù)據(jù)，終歸是有限的，頂流團(tuán)隊(duì)的模型（如ChatGPT）已經(jīng)挖走了絕大部分，剩下的那一小撮專有數(shù)據(jù)，也早已被各個(gè)垂直行業(yè)瓜分完畢。

在模型層創(chuàng)業(yè)已近尾聲的今天，比起數(shù)據(jù)，更能拉開(kāi)差距的，是側(cè)重點(diǎn)不同的訓(xùn)練方式，以及由此打造的各種功能。

而這樣成為了用戶能否容忍這種“套用”行為的關(guān)鍵。

在這點(diǎn)上，谷歌的Gemini給出的答卷，是更強(qiáng)的原生多模態(tài)功能（有夸大之嫌）。

而字節(jié)的Seed大模型，將來(lái)能否逆風(fēng)翻盤，贏得用戶的信任，也得看有沒(méi)有“一美遮百丑”的亮點(diǎn)。
原文標(biāo)題 : 被OpenAI“封號(hào)”，字節(jié)跳動(dòng)在打什么算盤？

人工智能 AI OpenAI 字節(jié)跳動(dòng)

相關(guān)閱讀
人工智能 AI OpenAI 字節(jié)跳動(dòng)

AI大模型讓智慧交通“更聰明” 海信亮相2024世界人工智能大會(huì) 2024-07-08

2024世界人工智能大會(huì) | 格創(chuàng)東智：強(qiáng)化AI+工業(yè)核心技術(shù)，打造新質(zhì)生產(chǎn)力 2024-07-05

【維科杯】樓氏電子參評(píng)“維科杯·OFweek 2024人工智能行業(yè)優(yōu)秀AI賦能案例獎(jiǎng)” 2024-07-02

人工智能城市競(jìng)爭(zhēng)力100強(qiáng)：誰(shuí)才是AI第一城？ 2024-06-25

【維科杯】諾諦智能參評(píng)“維科杯·OFweek 2024人工智能行業(yè)優(yōu)秀AI賦能案例獎(jiǎng)” 2024-06-18

分享
新浪微博騰訊QQ QQ空間微信

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號(hào)的作者撰寫(xiě)，觀點(diǎn)僅代表作者本人，不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題，請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

共0條評(píng)論，0人參與

登錄登錄即可訪問(wèn)所有OFweek服務(wù)

用戶名/郵箱/手機(jī)：

密碼：

忘記密碼？

用其他賬號(hào)登錄： QQ | 微信 | 新浪微博

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁，請(qǐng)輸入驗(yàn)證碼繼續(xù)

驗(yàn)證碼：刷新

最新評(píng)論

熱門評(píng)論

暫無(wú)評(píng)論

暫無(wú)評(píng)論

圖片新聞

喜迎新車間！干冒煙的小米車間可以緩口氣

月之暗面發(fā)布 Kimi 探索版：搜索量相比普通版增強(qiáng) 10 倍

三星半導(dǎo)體裁員，先動(dòng)高管

OpenAI亞太辦事處來(lái)了

上海設(shè)立100億人工智能生態(tài)基金，Minimax階躍星辰獲支持

諾獎(jiǎng)?lì)C給深度學(xué)習(xí)之父這件事

“AI 教母”李飛飛公司獲2.3億刀融資，AMD英特爾英偉達(dá)旗下公司參投

印度總理放豪言：印度將成芯片制造強(qiáng)國(guó)，呼吁加大對(duì)印投資