国语视频免费观看8x8x8,日日夜夜伊人

算力之戰(zhàn)，英偉達(dá)再度釋放AI“炸彈”

2023-08-15 10:28

近日，在計(jì)算機(jī)圖形學(xué)頂會(huì)SIGGRAPH 2023現(xiàn)場(chǎng)，英偉達(dá)再度釋放深夜“炸彈”，大模型專用芯片迎來(lái)升級(jí)版本。

英偉達(dá)在會(huì)上發(fā)布了新一代GH200 Grace Hopper平臺(tái)，該平臺(tái)依托于搭載全球首款搭載HBM3e處理器的新型Grace Hopper超級(jí)芯片——GH200，專為處理大語(yǔ)言模型、推薦系統(tǒng)、矢量數(shù)據(jù)庫(kù)等全球最復(fù)雜的生成式AI工作負(fù)載而構(gòu)建。

據(jù)悉，GH200芯片將成為世界上第一個(gè)配備HBM3e（High Bandwidth Memory 3e）內(nèi)存的GPU芯片。

與當(dāng)前一代產(chǎn)品相比，最新版本的GH200超級(jí)芯片內(nèi)存容量增加了3.5倍，帶寬增加了3倍；相比最熱門(mén)的H100芯片，其內(nèi)存增加1.7倍，傳輸頻寬增加1.5倍。

在當(dāng)前生成式AI不斷激增的需求下，GH200超級(jí)芯片的推出，進(jìn)一步吹響了AI算力之戰(zhàn)的號(hào)角。

性能更高的GH200芯片

據(jù)介紹，GH200 Grace Hopper平臺(tái)的HBM3e內(nèi)存比當(dāng)前HBM3快50%，可提供總計(jì)10TB/s的帶寬。這使得新平臺(tái)能夠運(yùn)行比上一版本大3.5倍的模型，同時(shí)憑借快3倍的內(nèi)存帶寬提升性能。

同時(shí)，該平臺(tái)采用雙配置，包括一個(gè)擁有144個(gè)Arm Neoverse內(nèi)核、8 petaflops的AI性能和282GB最新HBM3e內(nèi)存技術(shù)的單個(gè)服務(wù)器。

英偉達(dá)創(chuàng)始人兼首席執(zhí)行官黃仁勛表示：“為了滿足對(duì)生成式 AI不斷激增的需求，數(shù)據(jù)中心需要能夠滿足特定需求的加速計(jì)算平臺(tái)。全新GH200 Grace Hopper超級(jí)芯片平臺(tái)以出色的內(nèi)存技術(shù)和帶寬，提高了吞吐量，在不影響性能的情況下可連接多GPU以整合性能，并且具有可以輕松部署到整個(gè)數(shù)據(jù)中心的服務(wù)器設(shè)計(jì)。”

據(jù)英偉達(dá)公布信息，新平臺(tái)可以通過(guò) NVIDIA NVLink™ 與其他超級(jí)芯片連接，使它們能夠協(xié)同工作，從而部署當(dāng)下大型生成式AI模型。這種高速、一致性技術(shù)使GPU可以完全訪問(wèn)CPU 內(nèi)存，在雙配置中可提供總計(jì)1.2TB的快速內(nèi)存。

值得注意的是，新平臺(tái)采用的新款超級(jí)芯片GH200與此前發(fā)布的H100相比，二者使用同樣的GPU，但GH200將同時(shí)配備高達(dá)141G的內(nèi)存和72核ARM中央處理器，每秒5TB帶寬，內(nèi)存增加了1.7倍，帶寬增加了1.5倍。

新平臺(tái)和芯片的加持，也讓大模型訓(xùn)練的成本得到有效降低。黃仁勛表示，一臺(tái)服務(wù)器可以同時(shí)裝載兩個(gè)GH200超級(jí)芯片，大型語(yǔ)言模型的推理成本將會(huì)大幅降低。

據(jù)介紹，投資800萬(wàn)美元Grace Hopper，就相當(dāng)于8800個(gè)價(jià)值1億美元的x86 GPU，意味著成本降低12倍，能耗降低20倍。

英偉達(dá)稱，GH200已于5月全面投產(chǎn)，基于GH200 Grace Hopper平臺(tái)的新系統(tǒng)將于2024年第二季度交付。

不過(guò)一個(gè)關(guān)鍵的問(wèn)題是，英偉達(dá)沒(méi)有透露超級(jí)芯片GH200的價(jià)格，這對(duì)計(jì)算成本高昂的大模型來(lái)說(shuō)尤為重要，H100系列目前售價(jià)約為4萬(wàn)美元。

為什么內(nèi)存對(duì)大模型重要？

事實(shí)上，GH200超級(jí)芯片本身并不是一個(gè)新產(chǎn)品，而是今年5月在中國(guó)臺(tái)北Computex展上發(fā)布的GH200芯片的更新版。

英偉達(dá)超大規(guī)模和高性能計(jì)算副總裁兼總經(jīng)理伊恩·巴克（Ian Buck）表示：“我們對(duì)這款新的GH200感到非常興奮。HBM3e不僅增加了GPU的容量和內(nèi)存量，而且速度也更快。”

但為什么GPU內(nèi)存這么重要？

這是因?yàn)殡S著支撐生成式人工智能應(yīng)用程序的基礎(chǔ)AI模型尺寸的增加，為了能夠在不連接獨(dú)立芯片和系統(tǒng)的情況下運(yùn)行，大模型需要更大的內(nèi)存量，以避免性能下降。

擁有更大的內(nèi)存允許模型保留在單個(gè)GPU上，并且不需要多個(gè)系統(tǒng)或多個(gè)GPU來(lái)運(yùn)行，而額外的內(nèi)存只會(huì)提高 GPU的性能。

目前即使使用英偉達(dá)最頂級(jí)的H100芯片，有些模型也必須在其他GPU中“分解”模型才能運(yùn)行。

據(jù)英偉達(dá)介紹，最新版本GH200配備141GB的HBM3e內(nèi)存，旨在處理“世界上最復(fù)雜的生成式人工智能工作負(fù)載，涵蓋大型語(yǔ)言模型、推薦系統(tǒng)和矢量數(shù)據(jù)庫(kù)”。

對(duì)AI領(lǐng)域的影響

英偉達(dá)的GH200超級(jí)芯片和DGX GH200超級(jí)計(jì)算機(jī)是AI領(lǐng)域的重大突破，它們?yōu)榇笠?guī)模生成式AI工作負(fù)載提供了前所未有的性能和內(nèi)存空間，使得訓(xùn)練千億甚至萬(wàn)億參數(shù)的巨型模型成為可能。

這些模型可以在自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)、推薦系統(tǒng)、圖形分析等領(lǐng)域?qū)崿F(xiàn)更高的精度和效率，為人類解決更復(fù)雜的問(wèn)題提供了強(qiáng)大的工具。

在多位AI從業(yè)者看來(lái)，當(dāng)前大模型的訓(xùn)練需求過(guò)于迫切，對(duì)性能的要求也很高，而GPU的適配和生態(tài)轉(zhuǎn)移都需要很長(zhǎng)時(shí)間，因此目前大家都優(yōu)先選擇英偉達(dá)，和其他廠商的測(cè)試驗(yàn)證也在進(jìn)行中。

一場(chǎng)新的算力之戰(zhàn)已經(jīng)拉開(kāi)帷幕，如果說(shuō)算力是一個(gè)江湖，那么此刻英偉達(dá)就是一名絕世高手。

它身懷加速計(jì)算的絕技，尤其在AI戰(zhàn)場(chǎng)上一騎絕塵，似乎每一次都能精準(zhǔn)地踏在浪潮的節(jié)奏上。從游戲PC市場(chǎng)、到深度學(xué)習(xí)的崛起、到云計(jì)算的普及、再到生成式AI的降臨，英偉達(dá)的技術(shù)所向披靡。

回頭看，英偉達(dá)早已超越了GPU本身的概念，AI成為最大的標(biāo)簽，算力的絕世武功撐起了新的萬(wàn)億帝國(guó)。

2022年，英偉達(dá)推出了多款重磅產(chǎn)品，分別是基于全新Hopper架構(gòu)的H100 GPU、CPU和GPU的合體Grace Hopper、兩個(gè)CPU組合的Grace CPU Superchip，CPU的產(chǎn)品在2023年上市。

其中，設(shè)計(jì)GPU新架構(gòu)Hopper時(shí)，英偉達(dá)增添了一個(gè)Transformer引擎，專門(mén)為T(mén)ransformer算法做了硬件優(yōu)化，加快AI計(jì)算的效率。

一位國(guó)內(nèi)芯片從業(yè)者直言：“H100出來(lái)，其實(shí)就是一個(gè)新時(shí)代了，Grace-Hopper再一個(gè)組合，加上高配的互聯(lián)，完全不給活路，英偉達(dá)贏家通吃，AMD、Intel繼續(xù)苦追。”

同時(shí)他也表示：“目前國(guó)內(nèi)一些企業(yè)還是在盯著CNN做優(yōu)化，英偉達(dá)已經(jīng)有Transformer引擎，然后AIGC火熱，恰好能做支持。這個(gè)眼光，只能佩服他們的科學(xué)家們對(duì)這個(gè)領(lǐng)域深刻的認(rèn)識(shí)。”

一位學(xué)術(shù)界人士也分析道：“從H100上，包括專用的Transformer引擎以及對(duì)FP8格式的支持，可以看到計(jì)算硬件在向應(yīng)用定制的方向前進(jìn)。Grace CPU說(shuō)明了整合異構(gòu)計(jì)算系統(tǒng)的重要性。單純的加速器優(yōu)化和設(shè)計(jì)已經(jīng)不能夠滿足現(xiàn)在對(duì)于計(jì)算系統(tǒng)的算力和能效比的要求，需要各個(gè)部分的協(xié)同優(yōu)化和設(shè)計(jì)。”

他還表示，Grace CPU通過(guò)提高通信帶寬和在CPU和GPU之間建立一致（coherent）的內(nèi)存模型來(lái)解決運(yùn)算中的瓶頸，這也和學(xué)界（近存計(jì)算，存內(nèi)計(jì)算）與業(yè)界（CXL，CCI等等系統(tǒng)互聯(lián)協(xié)議）一直在關(guān)注的方向是一致的。

總而言之，在GPU和CPU的各種排列組合中，英偉達(dá)又將算力提升到了新高度。正如黃仁勛所言：“我們正在重新發(fā)明計(jì)算機(jī)，加速計(jì)算和人工智能標(biāo)志著計(jì)算正在被重新定義。”

黃仁勛在采訪中還提到，數(shù)據(jù)中心需要用的CPU越來(lái)越少，不再是傳統(tǒng)上購(gòu)買(mǎi)數(shù)百萬(wàn)個(gè)CPU，而是轉(zhuǎn)而購(gòu)買(mǎi)數(shù)百萬(wàn)個(gè)GPU。換言之，在他看來(lái)，AI算力江湖已經(jīng)是GPU的主場(chǎng)。

英偉達(dá)的野心

事實(shí)上，隨著ChatGPT引發(fā)AI大模型需求熱潮，作為加速計(jì)算領(lǐng)導(dǎo)者，英偉達(dá)今年以來(lái)股價(jià)累計(jì)漲幅已超過(guò)210%，近三個(gè)月內(nèi)漲幅就達(dá)56%，過(guò)去7年股價(jià)增長(zhǎng)超40倍，目前市值沖破1.1萬(wàn)億美元。

公開(kāi)數(shù)據(jù)顯示，英偉達(dá)占據(jù)全球80%以上的GPU服務(wù)器市場(chǎng)份額，同時(shí)擁有全球91.4%的企業(yè)GPU市場(chǎng)份額。

據(jù)投資者服務(wù)公司穆迪今年5月份發(fā)布的一份研究報(bào)告，英偉達(dá)在未來(lái)幾個(gè)季度將實(shí)現(xiàn)“無(wú)與倫比”的收入增長(zhǎng)，其數(shù)據(jù)中心業(yè)務(wù)的收入將超過(guò)競(jìng)爭(zhēng)對(duì)手英特爾和AMD的總和。

但摩根士丹利策略分析師斯坦利（Edward Stanley）在最新報(bào)告中稱，根據(jù)歷史背景，英偉達(dá)的股價(jià)飆升處于“后期”階段，摩根士丹利認(rèn)為這標(biāo)志著 AI 行業(yè)的“泡沫”。

GPU持續(xù)緊缺下，如今英偉達(dá)產(chǎn)品價(jià)格已同比上漲超30%，英偉達(dá)A800單卡現(xiàn)貨近13萬(wàn)元一顆，eBay上H100售價(jià)高達(dá)4.5萬(wàn)美元。

同時(shí)，OpenAI的GPT-4大模型需要至少2.5萬(wàn)張英偉達(dá)A100 GPU芯片，而該公司目前至少已擁有1000萬(wàn)顆GPU芯片。

正如黃仁勛常說(shuō)的，“你GPU買(mǎi)得越多，你越省錢(qián)”。主要原因是新的GPU產(chǎn)品能顯著提升加速計(jì)算，比CPU性能更強(qiáng)、算力更大、功耗更低。

但英偉達(dá)的布局還不止于此。

一個(gè)現(xiàn)實(shí)問(wèn)題是，高性能的算力也意味著高昂的價(jià)格。大模型訓(xùn)練成本動(dòng)輒成千上百萬(wàn)美元，并不是所有公司都能承受。

而英偉達(dá)同時(shí)提出了云服務(wù)的解決方案NVIDIA AI foundations，黃仁勛表示要做“AI界的臺(tái)積電”。臺(tái)積電大大降低了芯片設(shè)計(jì)公司生產(chǎn)門(mén)檻，英偉達(dá)也要做代工廠的角色，通過(guò)和大模型廠商、云廠商合作提供高性價(jià)比的云服務(wù)。

在幫助下游企業(yè)降低大模型訓(xùn)練成本的同時(shí)，英偉達(dá)還在逐步參與到上游的產(chǎn)業(yè)鏈升級(jí)中。今年，英偉達(dá)牽手臺(tái)積電、ASML、新思，發(fā)布了計(jì)算光刻庫(kù)cuLitho。

計(jì)算光刻是在芯片設(shè)計(jì)和制造領(lǐng)域的關(guān)鍵步驟，也是最大的計(jì)算負(fù)載之一。計(jì)算光刻庫(kù)的技術(shù)突破就在于，可以通過(guò)部署有大量GPU的DGX AI計(jì)算系統(tǒng)對(duì)計(jì)算光刻進(jìn)行加速，使其達(dá)到原有的基于CPU的計(jì)算速度的幾十倍，同時(shí)降低計(jì)算過(guò)程的總能耗。

這將有助于晶圓廠縮短原型周期時(shí)間、提高產(chǎn)量、減少碳排放，為2nm及更先進(jìn)的工藝奠定基礎(chǔ)，并為曲線掩模、高數(shù)值孔徑極紫外、亞原子級(jí)光刻膠模型等新技術(shù)節(jié)點(diǎn)所需的新型解決方案和創(chuàng)新技術(shù)提供更多可能性。

在多位產(chǎn)業(yè)界人士看來(lái)，雖然短期內(nèi)不會(huì)影響到下游的應(yīng)用方面，但是這些上游的研發(fā)和升級(jí)將長(zhǎng)期影響產(chǎn)業(yè)的發(fā)展，累積形成代際差。

“英偉達(dá)在GPU架構(gòu)的迭代上，一直都有屬于自己的發(fā)展路徑，這幾年的發(fā)展，也讓英偉達(dá)躍居AI算力芯片領(lǐng)域的領(lǐng)導(dǎo)者，也因?yàn)轭I(lǐng)先，所以英偉達(dá)會(huì)思考如何做更多元的布局與行業(yè)內(nèi)的深度合作，這樣更能了解行業(yè)的需求，比方和臺(tái)積電等合作便是很好的例子”，某芯片行業(yè)專家表示。

當(dāng)然，英特爾和AMD都已經(jīng)吹響反攻的號(hào)角。

7月，英特爾面向中國(guó)市場(chǎng)推出了AI芯片Habana Gaudi 2；6月，AMD推出AI芯片Instinct MI 300X，兩者都直接對(duì)標(biāo)英偉達(dá)100系列。

目前，在數(shù)據(jù)中心市場(chǎng)，英偉達(dá)和Intel、AMD形成三足鼎立之勢(shì)。但隨著GH200的正式發(fā)布，Grace CPU正式登臺(tái)爭(zhēng)角，最應(yīng)該感到如芒在背的應(yīng)該是Intel、AMD。雖說(shuō)大家都知道GH200遲早發(fā)布，但等真正發(fā)布了，還是有所觸動(dòng)。

圍繞著算力的權(quán)力游戲還將繼續(xù)。

相關(guān)閱讀

爭(zhēng)奪算力話語(yǔ)權(quán)，云計(jì)算廠商迎來(lái)自研芯片“覺(jué)醒時(shí)刻”

AMD成功收購(gòu)賽靈思，英偉達(dá)無(wú)緣ARM，芯片界巨型收購(gòu)潮走向尾聲？

新一輪科技革命吹響號(hào)角，Chiplet或成AI芯片關(guān)鍵“破局”點(diǎn)

AI大模型背后，竟是驚人的碳排放

“吞金獸”ChatGPT背后：AI算力告急！

【科技云報(bào)道原創(chuàng)】

轉(zhuǎn)載請(qǐng)注明“科技云報(bào)道”并附本文鏈接

原文標(biāo)題 : 算力之戰(zhàn)，英偉達(dá)再度釋放AI“炸彈”