国产精彩视频在线观看免费蜜芽,新美国农夫色导航,国产午夜精品久久久久免费视小说

對國內(nèi)AI算力緊缺問題的若干看法

2024-06-11 16:43

今天凌晨的蘋果WWDC證實了一點：AI推理算力將長期處于“云端為主”的狀態(tài)，這個“長期”至少是三到五年。是的，蘋果與OpenAI建立了戰(zhàn)略合作，計劃將下一代iOS系統(tǒng)與ChatGPT深度融合；但是絕大部分生成式AI推理，包括文字和圖片生成任務(wù)，仍將上傳到ChatGPT的數(shù)據(jù)中心，在云端完成。關(guān)于這一點，OpenAI在公告中已經(jīng)說得很清楚了。蘋果的“端側(cè)AI”主要仍局限于軟件層面。

如果連蘋果都做不到推理算力的“端側(cè)化”，那么其他手機廠商就更做不到了。PC端可能比移動端的進展稍微好一點，但是在可見的未來，大部分AI PC（包括桌面工作站）仍將基于英偉達的桌面級顯卡，而且只能執(zhí)行參數(shù)規(guī)模相對較小的（蒸餾后的）大模型推理。無論從技術(shù)角度還是成本角度考慮，大模型及應(yīng)用開發(fā)商都會更樂意在云端即數(shù)據(jù)中心完成大部分推理任務(wù)。資本市場再次認識到了這一點，所以WWDC舉行之后，蘋果股價下跌而英偉達股價微漲。

在未來很長一段時間里，我們不必過多考慮“端側(cè)算力”。既然如此，國內(nèi)AI算力緊缺的問題，就不可能通過發(fā)展所謂“端側(cè)算力”的方式去解決。自從2022年11月底ChatGPT橫空出世以來，國內(nèi)AI算力幾乎始終處于緊缺狀態(tài)，這是由下列因素共同決定的：

全球AI算力均十分緊缺，尤其在制造端，英偉達H系列顯卡僅能由臺積電代工（三星不行），產(chǎn)能瓶頸將持續(xù)到多年以后。

美國芯片出口禁令日益嚴格，尤其在2023年下半年的全方位加強之后，許多“后門”被堵上了，國內(nèi)廠商采購數(shù)據(jù)中心級顯卡的難度與日俱增。

我們知道，AI大模型所需算力分為訓(xùn)練和推理兩種，前者的要求更高一些；國內(nèi)的現(xiàn)狀則是兩種算力都缺乏。諷刺的是，前幾年國內(nèi)發(fā)展云游戲期間，互聯(lián)網(wǎng)大廠和電信運營商均采購了一批英偉達Turing架構(gòu)的顯卡用于架設(shè)RTX刀片服務(wù)器，這些顯卡可以用于AI推理；如果沒有云游戲，國內(nèi)推理算力的瓶頸將更加嚴重。中國游戲產(chǎn)業(yè)是一個任勞任怨的背鍋產(chǎn)業(yè)，誰都能來踩一腳，誰都能污名化，但是拯救所謂“硬科技”產(chǎn)業(yè)偏偏還得靠它！

即便如此，國內(nèi)AI推理算力的供需關(guān)系仍然十分緊張。所以，過去一個月國產(chǎn)大模型的“降價”舉措，很大程度上僅僅是行為藝術(shù)罷了。尤其是對于B端客戶而言，無論大模型API的調(diào)用價格降到多低，關(guān)鍵在于能不能買到量。現(xiàn)在的問題就是“有價無市”：只有極小規(guī)模的采購才能以“刊例價”執(zhí)行，稍大規(guī)模的采購就必須找銷售人員單獨洽談并排隊，實際成交價格難以預(yù)料（肯定遠高于“刊例價”）。

不要說B端用戶，哪怕C端用戶也能感受到推理算力的緊張：國內(nèi)的幾個最流行的AI大模型應(yīng)用，免費用戶在高峰期幾乎一定會遇到需要排隊的狀況，必須充值或打賞才能加快進度。要知道，目前國內(nèi)主流生成式AI應(yīng)用的DAU普遍只有幾百萬量級，推理算力就已經(jīng)如此匱乏；如果真的出現(xiàn)上億DAU的AI超級應(yīng)用，算力幾乎肯定是跟不上的——所以目前國內(nèi)不可能出現(xiàn)這樣的超級應(yīng)用。（注：文心一言和通義千問均自稱累計用戶超過1億、每日API調(diào)用次數(shù)超過1億，但是與1億DAU還差很遠；豆包估計也差很遠。）

可以想象，比推理要求更高的訓(xùn)練算力更加緊缺。2024年2月，字節(jié)跳動在一篇論文當中公布了它于前一年9月組建的“萬卡集群”。遺憾的是，它是由1.2萬張（比較落后的）A100顯卡組成，而美國科技巨頭早已換上了由（更先進的）H100組成的“萬卡集群”，例如Meta的LLaMA-3就是由2.5萬張H100組成的集群訓(xùn)練的；以亞馬遜為代表的云計算大廠正在積極轉(zhuǎn)向（更更先進的）B100及GB200算力集群。A系列顯卡發(fā)布于2020年，當時芯片禁令尚未出臺，國內(nèi)采購沒有多大障礙；H系列發(fā)布于2022年，芯片禁令已經(jīng)出臺，但是國內(nèi)仍然可以通過采購“專供版”（主要是H800）的方式繞過；B系列于2024年發(fā)布，此時繞過芯片禁令的途徑已經(jīng)非常狹窄、朝不保夕。

長期、嚴重的算力瓶頸，給國內(nèi)AI產(chǎn)業(yè)帶來了兩個深刻影響。首先，算力緊缺意味著算力價格高昂（無論以自購顯卡還是租用的形式），國內(nèi)所有大模型廠商的售價均無法覆蓋訓(xùn)練+推理成本，有些甚至無法覆蓋邊際推理成本，賣一單虧一單（最近一波降價之后可能虧的更嚴重）。其次，國內(nèi)大部分算力集中在少量科技大廠手中，創(chuàng)業(yè)公司高度依賴它們，十分渴望它們以算力的方式投資入股。結(jié)論就是大模型創(chuàng)業(yè)在國內(nèi)是一門非常差的生意，遠遠比不上當年的移動互聯(lián)網(wǎng)創(chuàng)業(yè)。

下面我們不妨以問答的形式，進一步說明國內(nèi)AI算力的現(xiàn)狀。問題是市場上最關(guān)心的那些問題，回答則不是來自我本人，而是來自我在云計算和AI行業(yè)的信賴的朋友，我只是總結(jié)他們的答案罷了。

問：目前國內(nèi)AI算力儲備及分布狀況大致如何？

答：先說訓(xùn)練使用的“大卡”。如果把A100-800、H100-800均算作“大卡”的話，那么國內(nèi)的“大卡”儲備肯定超過六位數(shù)，甚至可能超過了20萬張。問題在于隨著技術(shù)進步，A系列已經(jīng)很難再被視為“大卡”了。如果按照扎克伯格所謂的“H100等效算力”，國內(nèi)的儲備肯定不超過六位數(shù)，而僅僅Meta一家的“H100等效算力”就已經(jīng)超過了30萬張，2024年底將突破65萬張，遠遠超過了國內(nèi)所有大廠的算力儲備之和。

具體到算力分布，有兩個標準：第一是“掌握的算力”，第二是“能調(diào)用的算力”。阿里這樣的云計算大廠掌握了巨大的算力，但其中很大一部分要出租給客戶，自家大模型訓(xùn)練和推理能調(diào)用的算力未必有絕對優(yōu)勢。如果只計算“掌握的算力”，國內(nèi)第一的無疑是阿里，其次是百度、字節(jié)跳動，騰訊可能更少一點。掌握一兩千張大卡的互聯(lián)網(wǎng)公司很多，因為內(nèi)容推薦算法、自動駕駛訓(xùn)練等環(huán)節(jié)都需要。

至于推理算力的分布就更加駁雜了。上文提到過，云游戲使用的顯卡可以承擔一定的推理任務(wù)，目前國內(nèi)的推理算力可能有很大一部分來自以前的云游戲算力。

問：怎么看AI算力的國產(chǎn)替代？

答：在訓(xùn)練端難度極大，哪怕某些國產(chǎn)顯卡自稱其技術(shù)參數(shù)能達到A100的水平，它們也不具備NVlink互聯(lián)技術(shù)和CUDA開發(fā)環(huán)境，從而無法承擔大模型訓(xùn)練使命。況且，A100是英偉達2020年發(fā)布的產(chǎn)品，在2024年“追上”前者四年前的水平并無先進性可言。大模型不是原子彈，它是一種重視性價比的民用商品，使用非主流硬件開發(fā)出來的大模型可能毫無商業(yè)價值可言。

但是在推理端，不是完全沒有可能，因為推理卡對NVlink和CUDA的依賴程度很小。英偉達在推理端的城墻仍然很高，但是比起訓(xùn)練端就要差了不少。問題在于，推理算力的技術(shù)路線也在不斷變遷，技術(shù)變遷的領(lǐng)導(dǎo)者還是英偉達。假如有選擇的話，主流大廠肯定樂意采購英偉達的推理解決方案。國內(nèi)廠商的問題是在芯片禁令之下沒有選擇，在推理端進行國產(chǎn)替代總歸比沒有強。

問：怎么看Groq以及國內(nèi)某些廠商推出的“遠超英偉達”的推理卡？

答：在高度特化的技術(shù)路線下，確實有可能做出表觀技術(shù)遠超英偉達同期產(chǎn)品的推理卡——但是付出的代價是應(yīng)用場景十分狹窄。這樣的顯卡不僅只勝任大模型推理，甚至可能僅勝任某一特定類型的推理。大廠建立數(shù)據(jù)中心需要考慮通用性以及后續(xù)升級需求，高度特化的顯卡無法滿足這些需求。上面提到過，云游戲使用的顯卡可以用于推理，但高度特化的推理卡可以執(zhí)行圖形渲染任務(wù)嗎？可以執(zhí)行自動駕駛等非生成式的推理任務(wù)嗎？

而且，硅谷那些不差錢的大廠，現(xiàn)在流行以“大卡”同時執(zhí)行訓(xùn)練和推理任務(wù)：速度更快、更具靈活性、管理起來更方便。你的訓(xùn)練任務(wù)在全年之中不是平均分布的，可能這三個月訓(xùn)練消耗的算力多一些，接下來推理消耗的算力多一些，統(tǒng)一組建“大卡”集群有助于提升靈活性。當然，這樣做不夠經(jīng)濟，所以推理任務(wù)主要還是得由推理卡去執(zhí)行。我只是想說，英偉達在訓(xùn)練端和推理端的護城河是相輔相成的，不是彼此孤立的。

問：繞過芯片禁令的可能性大嗎？目前大家的替代方案是什么？

答：很多人認為，芯片禁令可以以“非正常”手段繞過。但他們忽視了兩點：第一，英偉達高端顯卡近年來一直供不應(yīng)求，所以不存在龐大的二手及散貨市場，哪怕是海外大廠淘汰下來的顯卡一般也是內(nèi)部發(fā)揮余熱。第二，即便你能繞過英偉達官方銷售獲得一些顯卡，也無法獲得技術(shù)支持。

H系列和B系列訓(xùn)練卡都不是單片出售的，而是以服務(wù)器（訓(xùn)練機）為單位出售。B系列訓(xùn)練機已經(jīng)非常像高端數(shù)控機床這樣的高精尖設(shè)備，內(nèi)部可以植入地理位置判斷系統(tǒng)，發(fā)現(xiàn)地理位置偏移之后可以自動停機。所以無論在理論上還是實踐中，只要英偉達愿意認真執(zhí)行芯片禁令，就是很難繞過的。雖然英偉達肯定愿意多賣幾個客戶、開拓中國市場，但現(xiàn)在它的顯卡反正不愁賣，短期內(nèi)也不可能主動承擔破壞禁令的風險。

當然，一切都是可以談的。只要雙方都想認真做生意，拿出一些東西做交換，沒有什么生意是一定做不成的。關(guān)鍵看大家做生意的意愿有多強烈了！我們不能低估解決問題的難度——因為只有充分估計難度，才能站在現(xiàn)實角度解決問題。片面低估難度并裝做問題已經(jīng)解決是不可取的，相信真正的從業(yè)者不會這樣做。

原文標題 : 對國內(nèi)AI算力緊缺問題的若干看法