訂閱
糾錯(cuò)
加入自媒體

8年增長1000倍,英偉達(dá)帶來史上最成功的產(chǎn)品

作者 | 章漣漪

編輯 | 章漣漪

“It’s ok,Hopper。You’re very good,good boy or good girl”。

北京時(shí)間3月19日凌晨,GTC最重磅的主題演講開始,英偉達(dá)創(chuàng)始人黃仁勛身著標(biāo)志性的皮衣,先是感謝了“改變世界的Hopper”,并宣布重磅推出新一代AI芯片架構(gòu)Blackwell

在他看來,加速計(jì)算已達(dá)轉(zhuǎn)折點(diǎn),通用計(jì)算已走到盡頭,需要有另一種計(jì)算方式,來進(jìn)一步降低計(jì)算成本、提高計(jì)算效率。"我們需要更大的GPU。"黃仁勛說。過去8年時(shí)間里,AI算力需求有了1000倍增長。在Blackwell架構(gòu)下,芯片之間可連接構(gòu)建出大型AI超算集群,支撐更大的計(jì)算需求。“它是英偉達(dá)最成功的產(chǎn)品”。黃仁勛進(jìn)一步介紹表示,Blackwell擁有2080億個(gè)晶體管,是上一代芯片“Hopper”800億個(gè)晶體管的兩倍多,可以支持多達(dá)10萬億個(gè)參數(shù)的AI模型。“其將成為亞馬遜、微軟、谷歌、甲骨文等全球最大數(shù)據(jù)中心運(yùn)營商部署的新計(jì)算機(jī)和其他產(chǎn)品的基石”。

第一款采用Blackwell架構(gòu)的芯片名為GB200。它被黃仁勛稱為“史上最強(qiáng)AI芯片”,將于今年晚些時(shí)候上市。B200芯片擁有2080億個(gè)晶體管,采用臺(tái)積電定制的4NP工藝制造。值得一提的是,這次的芯片將兩個(gè)die連接成一個(gè)統(tǒng)一的GPU,die之間的通信速度可以達(dá)到10TB/秒。黃仁勛強(qiáng)調(diào),Blackwell架構(gòu)的全新型GPU處理器設(shè)計(jì)架構(gòu)在處理支持人工智能的大語言模型訓(xùn)練、推理方面速度提高數(shù)倍,而成本和能耗較前代改善巨大。他舉例表示,如果要訓(xùn)練一個(gè)1.8萬億參數(shù)量的GPT模型,需要8000張Hopper GPU,消耗15兆瓦的電力,連續(xù)跑上90天。但如果使用GB200 Blackwell GPU,只需要2000張,同樣跑90天只消耗四分之一的電力。不只是訓(xùn)練,生成Token的成本也會(huì)隨之顯著降低。016大創(chuàng)新技術(shù),Blackwell被認(rèn)為是“最成功產(chǎn)品”“1993年,英偉達(dá)旅程開始……”

Blackwell GPU登場(chǎng)之前,黃仁勛先回顧了英偉達(dá)30年發(fā)展歷程,他認(rèn)為沿途有幾個(gè)重要里程碑。

首先是2006年,CUDA發(fā)布,黃仁勛表示,后來被證明是一種革命性的計(jì)算模型。

“我們當(dāng)時(shí)認(rèn)為它是革命性的,以為它將一夜之間獲得成功。”黃仁勛如是表示,

從后續(xù)發(fā)展來看,CUDA確實(shí)配得上“革命”這個(gè)詞。

作為一項(xiàng)同時(shí)支持硬件和軟件的技術(shù),CUDA可利用圖形處理器中的多顆計(jì)算核心進(jìn)行通用計(jì)算處理工作,極大加快了開發(fā)模型的訓(xùn)練速度。

可以簡單理解為,CUDA是英偉達(dá)實(shí)現(xiàn)軟硬件適配的一種架構(gòu),而軟件生態(tài)決定了產(chǎn)品的適用性,計(jì)算平臺(tái)決定了硬件的使用效率,CUDA是英偉達(dá)實(shí)現(xiàn)生態(tài)的絕對(duì)護(hù)城河。

不過,外界認(rèn)識(shí)到CUDA的價(jià)值還是將近10年之后。

2016年,AlexNet與CUDA首次接觸,一種名為DGX1的新型計(jì)算機(jī)誕生,首次將170teraflops和8個(gè)GPU連接在一起。正如外界了解那樣,黃仁勛笑言,“我親自交付了第一臺(tái)DGX1給一家位于舊金山的初創(chuàng)公司,名為OpenAI”。

2017年,Transformer到來。

2022年,ChatGPT捕獲了世界的想象力,人們意識(shí)到人工智能的重要性和能力。

2023年,生成式AI出現(xiàn),新的行業(yè)開始形成。

“為什么是一個(gè)新行業(yè)?”黃仁勛表示,因?yàn)檫@樣的軟件以前從未存在過,我們現(xiàn)在正在使用計(jì)算機(jī)編寫軟件,這是一個(gè)全新的類別,它從無到有占據(jù)了市場(chǎng)份額,生產(chǎn)軟件方式與此前在數(shù)據(jù)中心所做的完全不同。

面對(duì)全新的市場(chǎng)和需求,需要更強(qiáng)大的GPU。

“Hopper很棒,但Blackwell更好”。黃仁勛認(rèn)為,生成式AI是這個(gè)時(shí)代的決定性技術(shù),Blackwell是推動(dòng)這場(chǎng)新工業(yè)革命的引擎。

根據(jù)黃仁勛介紹,Blackwell GPU有6大創(chuàng)新技術(shù),包括:

全球最強(qiáng)大的芯片。具有2080億個(gè)晶體管,采用專門定制的雙倍光刻極限尺寸4NP TSMC工藝制造,通過10 TB/s的片間互聯(lián),將GPU裸片連接成一塊統(tǒng)一的GPU。第二代Transformer引擎。得益于全新微張量縮放支持,以及集成于TensorRT-LLM和NeMo Megatron框架中的英偉達(dá)動(dòng)態(tài)范圍管理算法,Blackwell將在新型4位浮點(diǎn)AI推理能力下實(shí)現(xiàn)算力和模型大小翻倍。

第五代 NVLink。為了提升萬億級(jí)參數(shù)模型和混合專家AI模型的性能,最新一代 NVIDIA NVLink為每塊GPU提供1.8TB/s雙向吞吐量,確保多達(dá)576塊GPU之間的無縫高速通信。

RAS引擎。采用Blackwell架構(gòu)的GPU包含一個(gè)用于保障可靠性、可用性和可維護(hù)性的專用引擎。此外,Blackwell架構(gòu)還增加了多項(xiàng)芯片級(jí)功能,能夠利用AI預(yù)防性維護(hù)來運(yùn)行診斷并預(yù)測(cè)可靠性相關(guān)的問題。這將最大程度延長系統(tǒng)正常運(yùn)行時(shí)間,提高大規(guī)模AI部署的彈性,使其能夠連續(xù)不間斷運(yùn)行數(shù)周乃至數(shù)月,同時(shí)降低運(yùn)營成本。

安全AI。機(jī)密計(jì)算功能可以在不影響性能的情況下保護(hù)AI模型和客戶數(shù)據(jù),并且支持全新本地接口加密協(xié)議。

解壓縮引擎。專用的解壓縮引擎支持最新格式,通過加速數(shù)據(jù)庫查詢提供極其強(qiáng)大的數(shù)據(jù)分析和數(shù)據(jù)科學(xué)性能。

在黃仁勛看來,未來幾年,每年需要企業(yè)花費(fèi)數(shù)百億美元的數(shù)據(jù)處理將越來越多地由GPU加速。02多次迭代,英偉達(dá)不斷拉大與對(duì)手差距之所以取名Blackwell是為了致敬美國科學(xué)院首位黑人院士、杰出統(tǒng)計(jì)學(xué)家兼數(shù)學(xué)家David Blackwell,其擅長將復(fù)雜的問題簡單化,獨(dú)立發(fā)明的“動(dòng)態(tài)規(guī)劃”、“更新定理”被廣泛運(yùn)用于多個(gè)科學(xué)、工程學(xué)等多個(gè)領(lǐng)域。而這,也是每一代英偉達(dá)GPU架構(gòu)的命名習(xí)慣。GPU的概念,是由英偉達(dá)在1999年發(fā)布Geforce256圖形處理芯片時(shí)首先提出的,從此英偉達(dá)顯卡的芯就用GPU來稱呼,它是專門設(shè)計(jì)用于處理圖形渲染的處理器,主要負(fù)責(zé)將圖像數(shù)據(jù)轉(zhuǎn)換為可以在屏幕上顯示的圖像。

與CPU不同,GPU具有數(shù)千個(gè)較小的內(nèi)核(內(nèi)核數(shù)量取決于型號(hào)和應(yīng)用),因此GPU架構(gòu)針對(duì)并行處理進(jìn)行了優(yōu)化,可以同時(shí)處理多個(gè)任務(wù),并且在處理圖形和數(shù)學(xué)工作負(fù)載時(shí)速度更快。

隨后20多年時(shí)間,英偉達(dá)每隔1-2年提出新的芯片架構(gòu)以適應(yīng)計(jì)算需求升級(jí),陸續(xù)推出Tesla、Fermi、Kepler、Maxwell、Pascal、Volta、Turing、Ampere和Hopper等。不斷增強(qiáng)GPU的計(jì)算能力和程序性,推動(dòng)GPU在圖形渲染、人工智能和高性能計(jì)算等領(lǐng)域的應(yīng)用。

比如,2020年Ampere架構(gòu)在計(jì)算能力、能效和深度學(xué)習(xí)性能方面大幅提升,采用多個(gè)SM和更大的總線寬度,提供更多CUDA Core及更高頻率,引入第三代Tensor Core,具有更高的內(nèi)存容量和帶寬,適用于大規(guī)模數(shù)據(jù)處理和機(jī)器學(xué)習(xí)任務(wù)。再比如,2022年發(fā)布Hopper架構(gòu),支持第四代TensorCore,采用新型流式處理器,每個(gè)SM能力更強(qiáng)。

可以理解為,GPU架構(gòu)的更新主要體現(xiàn)在SM、TPC(CUDA核心的分組結(jié)構(gòu))增加,最終體現(xiàn)在GPU浮點(diǎn)計(jì)算能力的提升

從Pascal架構(gòu)到Blackwell架構(gòu),過去8年,英偉達(dá)將AI計(jì)算性能提升了1000倍。“在Blackwell架構(gòu)下,芯片之間可連接構(gòu)建出大型AI超算集群,支撐更大的計(jì)算需求。”黃仁勛表示,GPU的形態(tài)已徹底改變,未來英偉達(dá)DGX AI超級(jí)計(jì)算機(jī),就是AI工業(yè)革命的工廠。從數(shù)據(jù)和性能看,英偉達(dá)的GPU產(chǎn)品在AI訓(xùn)練上的性能和水平,確實(shí)與全球其他玩家的差距在進(jìn)一步拉大。這也使得英偉達(dá)芯片在大模型訓(xùn)練領(lǐng)域占比不斷提升,但受限于芯片管制、產(chǎn)能等因素,在推理市場(chǎng),英偉達(dá)丟失了一些份額03生成式AI微服務(wù)推出,打造AI應(yīng)用級(jí)入口兩周前,英偉達(dá)在CUDA11.6更新版本中強(qiáng)調(diào):“禁止其他硬件平臺(tái)上運(yùn)行基于 CUDA的軟件”。顯然,它想要訓(xùn)練和推理芯市場(chǎng)一起抓。為了上述目標(biāo)的實(shí)現(xiàn),光有硬件還不夠,軟件護(hù)城河也要跟上。

因此,在講完硬件生態(tài)之后,黃仁勛開始介紹在AI軟件方面的創(chuàng)新,即生成式AI微服務(wù)NIMS(Nvidia Inference Micro Service)

在黃仁勛看來,生成式AI改變了應(yīng)用程序編程方式。未來,企業(yè)不再編寫軟件,而是組裝AI模型,指定任務(wù),給出工作產(chǎn)品示例,審查計(jì)劃和中間結(jié)果。而NIM的出現(xiàn)能夠讓這件事的實(shí)現(xiàn)更加簡單。黃仁勛希望,用NIM平臺(tái),支持應(yīng)用廠商開發(fā)智能應(yīng)用,將NIM打造為CUDA生態(tài)之后的一個(gè)AI應(yīng)用級(jí)入口,增加生態(tài)護(hù)城河價(jià)值。據(jù)介紹,英偉達(dá)NIM是英偉達(dá)推理微服務(wù)的參考,是由英偉達(dá)的加速計(jì)算庫和生成式AI模型構(gòu)建的。微服務(wù)支持行業(yè)標(biāo)準(zhǔn)的API,在英偉達(dá)大型CUDA安裝基礎(chǔ)上工作,并針對(duì)新的GPU進(jìn)行優(yōu)化。“企業(yè)可以利用這些微服務(wù)在自己的平臺(tái)上創(chuàng)建和部署定制應(yīng)用,同時(shí)保留對(duì)知識(shí)產(chǎn)權(quán)的完整所有權(quán)和控制權(quán)”。據(jù)黃仁勛介紹,NIM微服務(wù)提供基于英偉達(dá)推理軟件的預(yù)構(gòu)建容器,使開發(fā)者能夠?qū)⒉渴饡r(shí)間從幾周縮短至幾分鐘。它們?yōu)檎Z言、語音和藥物發(fā)現(xiàn)等領(lǐng)域提供行業(yè)標(biāo)準(zhǔn)API,使開發(fā)者能夠使用安全托管在自己的基礎(chǔ)設(shè)施中的專有數(shù)據(jù),來快速構(gòu)建AI應(yīng)用。這些應(yīng)用可按需擴(kuò)展,從而為在英偉達(dá)加速計(jì)算平臺(tái)上運(yùn)行生產(chǎn)級(jí)生成式AI提供靈活性和性能。

用戶將能夠從亞馬遜SageMaker、谷歌Kubernetes Engine和微軟Azure AI中訪問NIM微服務(wù),并與Deepset、LangChain和LlamaIndex等AI框架集成。同時(shí),為助力各行業(yè)加快開發(fā)生產(chǎn)級(jí)AI,CUDA-X微服務(wù)還為數(shù)據(jù)準(zhǔn)備、定制和訓(xùn)練提供端到端的構(gòu)建模塊,企業(yè)可以使用CUDA-X微服務(wù),包括用于定制語音和翻譯AI的Riva、用于路由優(yōu)化的cuOpt,以及用于高分辨率氣候和天氣模擬的Earth-2。與此同時(shí),英偉達(dá)還在不斷打造相關(guān)生態(tài)系統(tǒng),包括Abridge、Anyscale、Dataiku、DataRobot、Glean、H2O.ai、Securiti AI、Scale.ai、OctoAI和 Weights & Biases等數(shù)百家AI 和 MLOps企業(yè)將通過AI Enterprise來支持英偉達(dá)微服務(wù)。04AI+汽車落地,英偉達(dá)繼續(xù)擴(kuò)大汽車朋友圈技術(shù)價(jià)值的實(shí)現(xiàn),最終需要落地。演講中,黃仁勛還介紹了AI+醫(yī)藥、AI+汽車、AI+家電、AI+工業(yè)設(shè)計(jì)以及AI+機(jī)器人等方面的進(jìn)展。其中,汽車方面,黃仁勛透露,比亞迪不止采用英偉達(dá)集中式車載計(jì)算平臺(tái)Drive Thor開發(fā)下一代電動(dòng)車,還計(jì)劃將英偉達(dá)的AI基礎(chǔ)設(shè)施用于云端AI開發(fā)和訓(xùn)練技術(shù),并使用英偉達(dá)Isaac與Omniverse平臺(tái)來開發(fā)用于虛擬工廠規(guī)劃和零售配置器的工具與應(yīng)用。

除了比亞迪之外,其他多家汽車制造商和自動(dòng)駕駛卡車開發(fā)商也宣布擴(kuò)大與英偉達(dá)的合作。廣汽埃安旗下高端豪華品牌昊鉑宣布其下一代電動(dòng)汽車將采用DRIVE Thor平臺(tái),新車型將于2025年開始量產(chǎn)。小鵬宣布將把DRIVE Thor平臺(tái)作為其下一代電動(dòng)汽車的“AI大腦”。這款新一代車載計(jì)算平臺(tái)將助力該電動(dòng)汽車制造商自研的XNGP智能輔助駕駛系統(tǒng),實(shí)現(xiàn)自動(dòng)駕駛和泊車、駕乘人員監(jiān)控等功能。DRIVE Thor是英偉達(dá)于2022年9月發(fā)布的最新一代Drive平臺(tái)。彼時(shí),英偉達(dá)方面稱,這顆SoC芯片內(nèi)部擁有770億個(gè)晶體管,可實(shí)現(xiàn)2000 TOPS的AI算力,或者是2000TFLOPs。根據(jù)英偉達(dá)介紹,除乘用車外,DRIVE Thor在自動(dòng)駕駛領(lǐng)域也在持續(xù)擴(kuò)張。

其中,Nuro正致力于開發(fā)用于商用車和乘用車的L4級(jí)自動(dòng)駕駛技術(shù),該公司選擇DRIVE Thor為Nuro Driver提供助力;智加科技宣布,其L4級(jí)解決方案SuperDriv的下一代產(chǎn)品將在DRIVE Thor計(jì)算平臺(tái)上運(yùn)行;文遠(yuǎn)知行正在與聯(lián)想車計(jì)算一同基于DRIVE Thor來創(chuàng)建多個(gè)商用L4級(jí)自動(dòng)駕駛解決方案。可以預(yù)見,伴隨著Blackwell架構(gòu)和Thor芯片的推出、落地,英偉達(dá)將進(jìn)一步鞏固在智能駕駛、人工智能等領(lǐng)域的地位。

       原文標(biāo)題 : 8年增長1000倍,英偉達(dá)帶來史上最成功的產(chǎn)品

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯(cuò)
x
*文字標(biāo)題:
*糾錯(cuò)內(nèi)容:
聯(lián)系郵箱:
*驗(yàn) 證 碼:

粵公網(wǎng)安備 44030502002758號(hào)