訂閱
糾錯
加入自媒體

美國計劃禁止云計算廠商為中國訓(xùn)練AI大模型,我的一點(diǎn)看法

美國商務(wù)部長吉娜·雷蒙多(Gina Raimondo)在2024年1月26日接受路透采訪時宣布了限制外國客戶、尤其是中國客戶使用美國云計算廠商的服務(wù)訓(xùn)練AI大模型的計劃。雷蒙多的原話是:“我們不能允許中國或者其他我們不希望的玩家使用我們的云服務(wù)訓(xùn)練他們的模型。我們引入了芯片出口禁令,但那些芯片正在被美國的云計算數(shù)據(jù)中心使用,所以我們需要考慮關(guān)閉這些渠道,以避免潛在的惡意行為。”(注:原文可參見1月27日的路透社電訊)

毫無疑問,上述舉措把美國對華科技制裁推到了一個新的高度,對中國人工智能產(chǎn)業(yè)的潛在破壞力很大。雖然我不是芯片或人工智能方面的專家,但幸運(yùn)的是,我在這些產(chǎn)業(yè)有很多朋友。在得知這個消息之后,我馬上征詢了他們的看法,學(xué)到了很多東西。他們普遍認(rèn)為,美國商務(wù)部的新舉措從宏觀角度看是可以理解的,但是為什么要在這個時間點(diǎn)推出,就有些耐人尋味了。

過去一年多,中國的互聯(lián)網(wǎng)大廠和科技公司自稱在AI大模型領(lǐng)域取得了顯著戰(zhàn)績,“與OpenAI的差距只有半年到一年”。就在前幾天,周鴻祎還宣稱“去年我們看大模型像原子彈,今年再看大模型像茶葉蛋”——從資本市場炒作的角度看,上述說法很有道理(尤其是有利于大股東離婚減持);從技術(shù)研發(fā)的角度看就完全不是那么一回事了。事實(shí)上,中國科技行業(yè)對OpenAI的“趕超”,離不開下面三個因素的幫助:

第一,對境外開源大模型的吸收借鑒。

GPT-3以上的版本是不開源的,但是國外并不缺乏開源大模型可供借鑒(抄襲),其中最受歡迎的就是Meta于2023年2月發(fā)布的LlaMA,以及7月發(fā)布的LLaMA2。LLaMA本來只是有條件地對學(xué)術(shù)界開源,但很快遭到大規(guī)模泄露,Meta索性將其后續(xù)版本做成了全面開源。

LLaMA2有三個公開版本,分別擁有70億個、130億個和700億個參數(shù);Meta還宣布會在合適的時候公布更復(fù)雜的版本。雖然LLaMA2還是比不上GPT-4,但是作為一個借鑒(抄襲)的原點(diǎn)已經(jīng)足夠了。眾所周知,國內(nèi)一部分創(chuàng)業(yè)公司(名字就不點(diǎn)了)的“自研大模型”就是拿LLaMA2套皮的,就連參數(shù)名稱都懶得改。

第二,通過租用GPT接口,對GPT模型參數(shù)進(jìn)行“蒸餾”。

一個月前,外電報道稱字節(jié)跳動旗下產(chǎn)品疑似因為調(diào)用GPT接口訓(xùn)練自己的大模型而被封號。其實(shí)這種事情,所有人都在做,圈內(nèi)俗稱“蒸餾”。所謂“蒸餾”,就是反復(fù)與GPT進(jìn)行海量對話,通過GPT返回的數(shù)據(jù)對自己的模型參數(shù)進(jìn)行調(diào)節(jié);簡而言之,就是讓GPT幫你訓(xùn)練自己的模型。

只要有足夠的人力、財力,任何公司都可以通過先抄LLaMA2、再租用GPT進(jìn)行“蒸餾”的方法,在較短的時間內(nèi)搞出一個像模像樣的“自研大模型”,在測試中的表現(xiàn)甚至真能做到“與OpenAI只差半年到一年”(具體差多少取決于花了多少錢做蒸餾)。很可惜,通過這種方法搞出來的大模型永遠(yuǎn)無法趕超OpenAI,就像在考試時抄學(xué)霸試卷的學(xué)生永遠(yuǎn)不可能超過學(xué)霸——對了,還得小心別被監(jiān)考老師抓住。

第三,租用Azure、AWS等海外云計算服務(wù),解決算力瓶頸。

從2022年開始,美國不斷收緊對華芯片出口禁令。雖然英偉達(dá)多次推出了對華“特供版”GPU,但是美國商務(wù)部隨即補(bǔ)上了漏洞,現(xiàn)在可供利用的漏洞已經(jīng)很小了。公允地說,哪怕不考慮芯片禁令,中國公司也很難搶到足夠的GPU,因為英偉達(dá)的高端GPU一直供不應(yīng)求,亞馬遜等北美大廠經(jīng)常是“出了新型號先搶一萬張”,來自中國的客戶的優(yōu)先級肯定不會太高。

我們知道,AI大模型使用的算力分為“訓(xùn)練”和“推理”兩種,前者要求明顯更高。因此,中國科技公司普遍采取了“訓(xùn)練與推理分開”的模式,把一大塊訓(xùn)練業(yè)務(wù)交給微軟Azure、亞馬遜AWS、谷歌GCP等北美云計算大廠去做,因為只有它們有足夠的高端算力;至于推理,則可以全部放在國內(nèi)(合規(guī)要求也必須在國內(nèi)),甚至在硬件端搞一些“國產(chǎn)替代”。這個玩法,實(shí)際上是變相繞過芯片禁令,芯片雖然沒進(jìn)口到中國,相關(guān)算力卻是中國公司在使用。美國監(jiān)管當(dāng)局肯定早已注意到了這里存在的漏洞,只是以前沒管,現(xiàn)在決定出手管了。

當(dāng)然,美國商務(wù)部的提議會不會訴諸實(shí)踐、合不合法(此處是指美國的國內(nèi)法),是值得爭議一番的。不過在中美科技競爭的大背景下,這個提議得到實(shí)施的概率很大,美國云計算廠商的大門早晚是要對中國客戶關(guān)上的。真正需要回答的問題有兩個:

為什么美國要在這個時候推出新的禁令?那些認(rèn)真想趕超GPT的國內(nèi)廠商,接下來去哪里找算力?

先說第一條。從商業(yè)或科技邏輯講,美國商務(wù)部在此刻提議新的禁令,有點(diǎn)不太好理解:中國與美國在AI大模型方面的差距仍然很大,所謂“大模型從原子彈變成了茶葉蛋”純粹是A股公司大股東為了減持而吹的牛逼,業(yè)內(nèi)人士沒人相信,美國人應(yīng)該更不信。允許中國公司租用美國云計算資源,在短期內(nèi)不會影響硅谷的科技霸權(quán),反而會帶來一筆不菲的收入。芯片禁令對中國AI研發(fā)的限制已經(jīng)夠大了,有必要更進(jìn)一步、把事情做絕嗎?微軟、亞馬遜這些云計算巨頭為什么不阻止美國商務(wù)部把事情做絕呢?

對于上面的疑問有兩種解釋路徑。一種是政治解釋:今年是大選年,美國兩黨在互相比較誰對中國更強(qiáng)硬,“戰(zhàn)場州”的選民普遍對全球化沒什么好感,此時加強(qiáng)對華科技禁令是一張比較好的牌。至于硅谷科技巨頭,這幾年一直是它們春風(fēng)得意、收入和利潤猛增的時刻,失去一點(diǎn)來自中國客戶的云計算收入應(yīng)該不是大問題,沒人愿意為此事死磕。

另一種則是科技解釋:下一代AI大模型(GPT-5及其競爭對手),需要的訓(xùn)練算力可能會升級到“萬卡規(guī)模”乃至“N萬卡規(guī)模”。因為在現(xiàn)有基礎(chǔ)上進(jìn)一步提升大模型的能力,必須“大力出奇跡”、從資源規(guī)模上想辦法,就像當(dāng)年的核武器從2萬噸量級飆升到千萬噸乃至1億噸一樣。如果中國公司打算追趕到這一步,那它們對美國云計算資源的需求就會上升一個數(shù)量級;換個角度講,美國本土客戶的需求也會上升一個數(shù)量級,導(dǎo)致微軟、亞馬遜手中的高端算力更加供不應(yīng)求。

因此,美國商務(wù)部此時提出對華云計算服務(wù)禁令,一方面是提前封死中國公司追趕的道路,另一方面也有助于把寶貴的算力資源留給美國本土公司使用。在市場經(jīng)濟(jì)環(huán)境下,價高者得,發(fā)生什么事情很難說;所以最佳競爭策略是把中國公司排除在市場經(jīng)濟(jì)之外。微軟、亞馬遜肯定也知道自己手里的算力會更加精貴、不缺客戶,所以也沒有動力提出反對。

現(xiàn)在輪到第二個問題:對于那些真心想追上世界領(lǐng)先水平(而不是炒高股價、離婚減持)的中國科技公司而言,接下來要去哪里找算力呢?答案取決于它們愿意付出多高的代價,而且不僅是經(jīng)濟(jì)代價。哪怕美國商務(wù)部正式頒布并嚴(yán)格執(zhí)行禁令,中國公司要通過注冊海外分支機(jī)構(gòu)、尋找海外合作伙伴的方式去變相購買美國云計算服務(wù),應(yīng)該也是有門路的。問題在于一旦被抓,后果可能很嚴(yán)重——永遠(yuǎn)不要低估美國監(jiān)管者下死手的力度。國內(nèi)互聯(lián)網(wǎng)大廠多是美國、香港上市公司,它們有沒有膽子為了AI大模型冒如此巨大的風(fēng)險呢?

如果不考慮上述冒險做法,那就只有立足于發(fā)掘國內(nèi)算力資源了。目前AI相關(guān)芯片領(lǐng)域所有的“國產(chǎn)替代”都集中在推理端,因為推理所需算力要求不高。在訓(xùn)練端,全世界都存在對英偉達(dá)(設(shè)計)+臺積電(制造)的替代需求,可是全世界都沒做到(包括美國自己的科技大廠);蛟S再過五年、十年,總歸有人能拿出替代方案,但那時的世界又不一樣了。上文提到過,目前國內(nèi)自研AI大模型與GPT的差距還是明顯的,而且GPT自身也在迅速迭代,訓(xùn)練算力的需求一時半會是下不來的。

目前國內(nèi)的幾家主流大廠(大家都知道是哪幾家),平均每家手頭只有1000-2000張用于通用大模型訓(xùn)練的顯卡,有的多些、有的少些。有人猜測,某些大廠可能在海外囤積了大批顯卡;不過考慮到近年來英偉達(dá)顯卡一直供不應(yīng)求,就算“囤積”了,規(guī)模也不會太大。即將到來的GPT-5時代,可能是一個“萬卡規(guī)模”的時代,全國現(xiàn)有的符合要求的顯卡加起來可能都滿足不了哪怕一個自研大模型的訓(xùn)練需求。怎么辦?我也很想知道。

附帶說一句,在2022年11月ChatGPT橫空出世之前,中國科技公司囤積英偉達(dá)顯卡的最強(qiáng)動力,竟然是為云游戲做準(zhǔn)備——當(dāng)時很多互聯(lián)網(wǎng)大廠是真心相信云游戲是未來、而且能迅速兌現(xiàn)的。無心插柳柳成蔭,云游戲雖然一直沒起來,為云游戲準(zhǔn)備的顯卡卻成了中國AI大模型的救命稻草。

真是令人啼笑皆非:過去三年,中國游戲行業(yè)遭受了來自四面八方的一輪又一輪的抨擊,夾起尾巴做人,在社交媒體上動不動就能看到“游戲算科技嗎”“游戲有什么技術(shù)含量”的說法。現(xiàn)在,居然是游戲行業(yè)要在拯救中國“硬科技”的過程中,發(fā)揮舉足輕重的作用。我們所有人都欠游戲行業(yè)一個感謝。那些一貫輕視、侮辱、詆毀游戲的人,還欠游戲行業(yè)一個道歉。我等待著他們的道歉,我希望能聽到他們的道歉!

       原文標(biāo)題 : 美國計劃禁止云計算廠商為中國訓(xùn)練AI大模型,我的一點(diǎn)看法

聲明: 本文由入駐維科號的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯
x
*文字標(biāo)題:
*糾錯內(nèi)容:
聯(lián)系郵箱:
*驗 證 碼:

粵公網(wǎng)安備 44030502002758號