E Ink元太科技連三年入選道瓊可持續(xù)雙指數(shù)撬動(dòng)6000億GTV后,抖音計(jì)劃偷襲美團(tuán)大本營(yíng)AGI Open Network(AON):賦能每個(gè)人創(chuàng)建、部署和貨幣化AI Agent貸款利率史上最低了嗎?東融教你看懂歷年啥水平“客服來(lái)電”有詐?抖音客服上線“驗(yàn)證助手”助用戶識(shí)別詐騙OpenAI新模型GPT-5研發(fā)未達(dá)預(yù)期:成本高昂 效果不佳曝天馬打入果鏈:為蘋果HomePod供應(yīng)LCD屏 每塊屏僅10美元曝OPPO或首發(fā)新款天璣次旗艦芯片 兩大子品牌Q2發(fā)力諾基亞攜手阿聯(lián)酋運(yùn)營(yíng)商e&,展示全球首個(gè)固網(wǎng)游戲端到端網(wǎng)絡(luò)切片方案零下25℃制熱26℃!海爾水暖通黑科技亮相冰雪大世界三星沒放棄曲面屏開發(fā)!最新專利曝光暗示有望回歸三大運(yùn)營(yíng)商11月成績(jī)單:用戶數(shù)據(jù)增幅放緩打造下一個(gè)英偉達(dá),孫正義的2026芯片計(jì)劃曝光瞭望2025全球6G技術(shù)發(fā)展趨勢(shì)AI時(shí)代云安全新范式,暢捷通智能守護(hù)小微企業(yè)安全上云百川智能發(fā)布全鏈路領(lǐng)域增強(qiáng)金融大模型 Baichuan4-Finance年末家電消費(fèi)觀察:品質(zhì)生活類產(chǎn)品熱賣,將持續(xù)迎來(lái)剛需式普及?GPT-5研發(fā)受阻:OpenAI 新一代模型難見突破性進(jìn)展新一代語(yǔ)言模型ModernBERT發(fā)布,RAG等任務(wù)處理速度快四倍、成本低新研究顯示:Anthropic 的 Claude AI 在合作能力上領(lǐng)先于 OpenAI 和谷歌模型
  • 首頁(yè) > 數(shù)據(jù)存儲(chǔ)頻道 > 數(shù)據(jù).存儲(chǔ)頻道 > 半導(dǎo)體

    英偉達(dá)最新GPU和互聯(lián)路線圖

    2024年06月03日 10:50:56   來(lái)源:微信公眾號(hào):半導(dǎo)體行業(yè)觀察

      在計(jì)算、網(wǎng)絡(luò)和圖形發(fā)展史上,Nvidia 有許多獨(dú)特之處。但其中之一就是它目前手頭有如此多的資金,而且由于其架構(gòu)、工程和供應(yīng)鏈,它在生成式人工智能市場(chǎng)處于*地位,因此它可以隨心所欲地實(shí)施它認(rèn)為可能取得進(jìn)展的任何路線圖。

      到 21 世紀(jì),Nvidia 已經(jīng)是一個(gè)非常成功的創(chuàng)新者,它實(shí)際上沒有必要擴(kuò)展到數(shù)據(jù)中心計(jì)算領(lǐng)域。但 HPC 研究人員將 Nvidia 帶入了加速計(jì)算領(lǐng)域,然后 AI 研究人員利用 GPU 計(jì)算創(chuàng)造了一個(gè)全新的市場(chǎng),這個(gè)市場(chǎng)已經(jīng)等待了四十年,希望以合理的價(jià)格實(shí)現(xiàn)大量計(jì)算,并與大量數(shù)據(jù)碰撞,真正讓越來(lái)越像思考機(jī)器的東西成為現(xiàn)實(shí)。

      向 Danny Hillis、Marvin Minksy 和 Sheryl Handler 致敬,他們?cè)?20 世紀(jì) 80 年代嘗試制造這樣的機(jī)器,當(dāng)時(shí)他們創(chuàng)立了 Thinking Machines 來(lái)推動(dòng) AI 處理,而不是傳統(tǒng)的 HPC 模擬和建模應(yīng)用程序,以及 Yann LeCun,他當(dāng)時(shí)在 AT&T 貝爾實(shí)驗(yàn)室創(chuàng)建了卷積神經(jīng)網(wǎng)絡(luò)。他們既沒有數(shù)據(jù),也沒有計(jì)算能力來(lái)制造我們現(xiàn)在所知道的 AI。當(dāng)時(shí),Jensen Huang 是 LSI Logic 的董事,該公司生產(chǎn)存儲(chǔ)芯片,后來(lái)成為 AMD 的 CPU 設(shè)計(jì)師。就在 Thinking Machines 在 20 世紀(jì) 90 年代初陷入困境(并最終破產(chǎn))時(shí),黃仁勛在圣何塞東側(cè)的 Denny's 與 Chris Malachowsky 和Curtis Priem 會(huì)面,他們創(chuàng)立了 Nvidia。正是 Nvidia 看到了來(lái)自研究和超大規(guī)模社區(qū)的新興人工智能機(jī)遇,并開始構(gòu)建系統(tǒng)軟件和底層大規(guī)模并行硬件,以實(shí)現(xiàn)自*天起就一直是計(jì)算一部分的人工智能革命夢(mèng)想。

      這一直是計(jì)算的最終狀態(tài),也是我們一直在走向的奇點(diǎn)——或者可能是兩極。如果其他星球上有生命,那么生命總會(huì)進(jìn)化到這樣一個(gè)地步:那個(gè)世界擁有大規(guī)模毀滅性武器,并且總會(huì)創(chuàng)造出人工智能。而且很可能是在同一時(shí)間。在那一刻之后,那個(gè)世界對(duì)這兩種技術(shù)的處理方式?jīng)Q定了它能否在大規(guī)模滅絕事件中幸存下來(lái)。

      這聽起來(lái)可能不像是討論芯片制造商發(fā)展路線圖的正常開場(chǎng)白。事實(shí)并非如此,因?yàn)槲覀兩钤谝粋(gè)有趣的時(shí)代。

      在中國(guó)臺(tái)北舉行的年度 Computex 貿(mào)易展上,Nvidia 的聯(lián)合創(chuàng)始人兼首席執(zhí)行官在主題演講中再次試圖將生成式人工智能革命(他稱之為第二次工業(yè)革命)置于其背景中,并一窺人工智能的未來(lái),尤其是 Nvidia 硬件的未來(lái)。我們獲得了 GPU 和互連路線圖的預(yù)覽,據(jù)我們所知,這是直到最后一刻才列入計(jì)劃的一部分,黃仁勛和他的主題演講通常都是這樣。

      革命不可避免

      生成式人工智能的關(guān)鍵在于規(guī)模,黃仁勛提醒我們這一點(diǎn),并指出 2022 年底的 ChatGPT 時(shí)刻之所以會(huì)發(fā)生,只有出于技術(shù)和經(jīng)濟(jì)原因。

      要實(shí)現(xiàn) ChatGPT 的突破,需要大幅提高 GPU 的性能,然后在此基礎(chǔ)上增加大量 GPU。Nvidia 確實(shí)實(shí)現(xiàn)了性能,這對(duì)于 AI 訓(xùn)練和推理都很重要,而且重要的是,它大大減少了生成大型語(yǔ)言模型響應(yīng)中的 token 所需的能量。請(qǐng)看一看:

      從“Pascal” P100 GPU 一代到“Blackwell” B100 GPU 一代,八年間 GPU 的性能提升了 1053 倍,后者將于今年晚些時(shí)候開始出貨,并將持續(xù)到 2025 年。(我們知道圖表上說(shuō)的是 1000 倍,但這并不準(zhǔn)確。)

      部分性能是通過降低浮點(diǎn)精度來(lái)實(shí)現(xiàn)的——降低了 4 倍,從 Pascal P100、Volta V100 和 Ampere A100 GPU 中的 FP16 格式轉(zhuǎn)變?yōu)?Blackwell B100s 中使用的 FP4 格式。如果沒有這種精度的降低,性能提升將只有 263 倍,而這不會(huì)對(duì) LLM 性能造成太大影響——這要?dú)w功于數(shù)據(jù)格式、軟件處理和硬件中的大量數(shù)學(xué)魔法。請(qǐng)注意,對(duì)于 CPU 市場(chǎng)的八年來(lái)說(shuō),這已經(jīng)相當(dāng)不錯(cuò)了,每個(gè)時(shí)鐘的核心性能提高 10% 到 15%,核心數(shù)量增加 25% 到 30% 都是正常的。如果升級(jí)周期為兩年,那么在同樣的八年里,CPU 吞吐量將增加 4 到 5 倍。

      如上所示,每單位工作量的功耗降低是一個(gè)關(guān)鍵指標(biāo),因?yàn)槿绻銦o(wú)法為系統(tǒng)供電,你就無(wú)法使用它。令牌的能源成本必須降低,這意味著 LLM 產(chǎn)生的每令牌能源的降低速度必須快于性能的提高。

      在他的主題演講中,為了給你提供更深入的背景知識(shí),在 Pascal P100 GPU 上生成一個(gè) token 需要 17000 焦耳的能量,這大致相當(dāng)于點(diǎn)亮兩個(gè)燈泡兩天,平均每個(gè)單詞需要大約三個(gè) token。所以如果你要生成很多單詞,那就需要很多燈泡!現(xiàn)在你開始明白為什么八年前甚至不可能以能夠使其在任務(wù)上表現(xiàn)良好的規(guī)模運(yùn)行 LLM。看看在 1.8 萬(wàn)億個(gè)參數(shù) 8 萬(wàn)億個(gè) token 數(shù)據(jù)驅(qū)動(dòng)模型的情況下訓(xùn)練 GPT-4 專家混合模型 LLM 所需的能力:

      P100 集群的耗電量超過 1000 千兆瓦時(shí),這真是太驚人了。

      黃仁勛解釋說(shuō),借助 Blackwell GPU,公司將能夠在約 10,000 個(gè) GPU 上用大約 10 天的時(shí)間來(lái)訓(xùn)練這個(gè) GPT-4 1.8T MoE 模型。

      如果人工智能研究人員和 Nvidia 沒有轉(zhuǎn)向降低精度,那么在這八年的時(shí)間里性能提升只會(huì)是 250 倍。

      降低能源成本是一回事,降低系統(tǒng)成本又是另一回事。在傳統(tǒng)摩爾定律的末期,兩者都是非常困難的技巧,因?yàn)槊?18 到 24 個(gè)月晶體管就會(huì)縮小一次,芯片變得越來(lái)越便宜、越來(lái)越小,F(xiàn)在,計(jì)算復(fù)合體已經(jīng)達(dá)到光罩極限,每個(gè)晶體管都變得越來(lái)越昂貴——因此,由晶體管制成的設(shè)備本身也越來(lái)越昂貴。HBM 內(nèi)存是成本的很大一部分,先進(jìn)封裝也是如此。

      在 SXM 系列 GPU 插槽中(非 PCI-Express 版本的 GPU),P100 的發(fā)布價(jià)約為 5,000 美元;V100 的發(fā)布價(jià)約為 10,000 美元;A100 的發(fā)布價(jià)約為 15,000 美元;H100 的發(fā)布價(jià)約為 25,000 至 30,000 美元。B100 的預(yù)計(jì)售價(jià)在 35,000 至 40,000 美元之間——黃仁勛本人在今年早些時(shí)候接受CNBC采訪時(shí)曾表示,Blackwell 的價(jià)格是這個(gè)數(shù)字。

      黃仁勛沒有展示的是,每一代需要多少 GPU 來(lái)運(yùn)行 GPT-4 1.8T MoE 基準(zhǔn)測(cè)試,以及這些 GPU 或電力在運(yùn)行時(shí)的成本是多少。因此,我們根據(jù)黃所說(shuō)的需要大約 10,000 個(gè) B100 來(lái)訓(xùn)練 GPT-4 1.8T MoE 大約十天,制作了一個(gè)電子表格:

      在這八年中,GPU 價(jià)格上漲了 7.5 倍,但性能卻提高了 1,000 多倍。因此,現(xiàn)在可以想象使用 Blackwell 系統(tǒng)在十天左右的時(shí)間內(nèi)訓(xùn)練出具有 1.8 萬(wàn)億個(gè)參數(shù)的大型模型,比如 GPT-4,而兩年前 Hopper 一代剛開始時(shí),也很難在數(shù)月內(nèi)訓(xùn)練出具有數(shù)千億個(gè)參數(shù)的模型,F(xiàn)在,系統(tǒng)成本將與該系統(tǒng)兩年的電費(fèi)相當(dāng)。(GPU 約占 AI 訓(xùn)練系統(tǒng)成本的一半,因此購(gòu)買 10,000 個(gè) GPU 的 Blackwell 系統(tǒng)大約需要 8 億美元,運(yùn)行十天的電費(fèi)約為 540,000 美元。如果購(gòu)買更少的 GPU,您可以減少每天、每周或每月的電費(fèi),但您也會(huì)相應(yīng)增加訓(xùn)練時(shí)間,這會(huì)使成本再次上漲。)

      你不可能贏,但你也不能放棄。

      猜猜怎么著?Nvidia 也做不到。所以就是這樣。即使 Hopper H100 GPU 平臺(tái)是“歷史上最成功的數(shù)據(jù)中心處理器”,正如黃仁勛在 Computex 主題演講中所說(shuō),Nvidia 也必須繼續(xù)努力。

      附注:我們很樂意將 Hopper/Blackwell 的這次投資周期與六十年前 IBM System/360 的發(fā)布進(jìn)行比較,正如我們?nèi)ツ晁忉尩哪菢,?dāng)時(shí) IBM 做出了至今仍是企業(yè)歷史上*的賭注。1961 年,當(dāng) IBM 啟動(dòng)其“下一個(gè)產(chǎn)品線”研發(fā)項(xiàng)目時(shí),它是一家年收入 22 億美元的公司,在整個(gè) 60 年代花費(fèi)超過 50 億美元。藍(lán)色巨人是華爾街*家藍(lán)籌公司,正是因?yàn)樗ㄙM(fèi)了兩年的收入和二十年的利潤(rùn)來(lái)創(chuàng)建 System/360。是的,它的一些部分有些晚了,表現(xiàn)也不佳,但它徹底改變了企業(yè)數(shù)據(jù)處理的性質(zhì)。IBM 認(rèn)為它可能會(huì)在 60 年代后期帶來(lái) 600 億美元的銷售額(以我們調(diào)整后的 2019 年美元計(jì)算),但他們的銷售額只有 1,390 億美元,利潤(rùn)約為 520 億美元。

      Nvidia 無(wú)疑為數(shù)據(jù)中心計(jì)算的第二階段掀起了更大的浪潮。那么現(xiàn)在真正的贏家可能被稱為綠色芯片公司(green chip company)嗎?

      抵抗是徒勞的

      無(wú)論是 Nvidia 還是其競(jìng)爭(zhēng)對(duì)手或客戶都無(wú)法抵擋未來(lái)的引力以及生成性人工智能帶來(lái)的利潤(rùn)和生產(chǎn)力承諾,而這種承諾不僅僅是在我們耳邊低語(yǔ),更是在屋頂上大聲呼喊。

      因此,Nvidia 將加快步伐,突破極限。憑借 250 億美元的銀行存款和今年預(yù)計(jì)超過 1000 億美元的收入,以及可能再有 500 億美元的銀行存款,它有能力突破極限,帶領(lǐng)我們走向未來(lái)。

      “在這一驚人增長(zhǎng)時(shí)期,我們希望確保繼續(xù)提高性能,繼續(xù)降低成本——訓(xùn)練成本、推理成本——并繼續(xù)擴(kuò)展 AI 功能以供每家公司使用。我們?cè)教岣咝阅,成本下降得就越厲害?rdquo;

      正如我們上面所列的表格清楚表明的那樣,這是事實(shí)。

      這給我們帶來(lái)了更新的 Nvidia 平臺(tái)路線圖:

      這有點(diǎn)難讀,所以讓我們仔細(xì)研究一下。

      在 Hopper 一代中,最初的 H100 于 2022 年推出,具有六層 HBM3 內(nèi)存,并配有一個(gè)具有 900 GB/秒端口的 NVSwitch 將它們連接在一起,并配有 Quantum X400(以前稱為 Quantum-2)InfiniBand 交換機(jī),具有 400 Gb/秒端口和 ConnectX-7 網(wǎng)絡(luò)接口卡。2023 年,H200 升級(jí)為六層 HBM3E 內(nèi)存,具有更高的容量和帶寬,這提高了 H200 封裝中底層 H100 GPU 的有效性能。BlueField 3 NIC 也問世了,它為 NIC 添加了 Arm 內(nèi)核,以便它們可以執(zhí)行附加工作。

      2024 年,Blackwell GPU 當(dāng)然會(huì)推出八層 HBM3e 內(nèi)存,并與具有 1.8 TB/秒端口的 NVSwitch 5、800 Gb/秒 ConnectX-8 NIC 以及具有 800 GB/秒端口的 Spectrum-X800 和 Quantum-X800 交換機(jī)配對(duì)。

      我們現(xiàn)在可以看到,到 2025 年,B200(上圖稱為 Blackwell Ultra)將擁有 8 堆疊 HBM3e 內(nèi)存,每疊有 12 個(gè)die高。B100 中的疊層大概是 8 堆疊,因此這應(yīng)該代表 Blackwell Ultra 上的 HBM 內(nèi)存容量至少增加 50%,甚至可能更多,具體取決于所使用的 DRAM 容量。HBM3E 內(nèi)存的時(shí)鐘速度也可能更高。Nvidia 對(duì) Blackwell 系列的內(nèi)存容量一直含糊其辭,但我們?cè)?3 月份 Blackwell 發(fā)布會(huì)上估計(jì),B100 將擁有 192 GB 內(nèi)存和 8 TB/秒帶寬。隨著未來(lái)的 Blackwell Ultra 的推出,我們預(yù)計(jì)會(huì)有更快的內(nèi)存,如果看到 288 GB 內(nèi)存和 9.6 TB/秒帶寬,我們也不會(huì)感到驚訝。

      Nvidia 還將在 2025 年推出更高基數(shù)的 Spectrum-X800 以太網(wǎng)交換機(jī),可能配備六個(gè) ASIC,以創(chuàng)建無(wú)阻塞架構(gòu),就像其他交換機(jī)通常做的那樣,將總帶寬翻倍,從而使每個(gè)端口的帶寬或交換機(jī)的端口數(shù)量翻倍。

      2026 年,我們將看到“Rubin” R100 GPU,它在去年發(fā)布的 Nvidia 路線圖中曾被稱為 X100,正如我們當(dāng)時(shí)所說(shuō),我們認(rèn)為 X 是一個(gè)變量,而不是任何東西的縮寫。事實(shí)證明確實(shí)如此。Rubin GPU 將使用 HBM4 內(nèi)存,并將有 8 個(gè)堆棧,大概每個(gè)堆棧都有 12 個(gè) DRAM,而 2027 年的 Rubin Ultra GPU 將有 12 個(gè) HBM4 內(nèi)存堆棧,并且可能還有更高的堆棧(盡管路線圖沒有提到這一點(diǎn))。

      我們要等到 2026 年,也就是當(dāng)前“Grace”CPU 的后續(xù)產(chǎn)品“Vera”CPU 問世時(shí),Nvidia 才會(huì)推出一款更強(qiáng)大的 Arm 服務(wù)器 CPU。NVSwitch 6 芯片與這些芯片配對(duì),端口速度為 3.6 TB/秒,ConnectX-9 的端口速度為 1.6 Tb/秒。有趣的是,還有一種名為 X1600 IB/以太網(wǎng)交換機(jī)的產(chǎn)品,這可能意味著 Nvidia 正在融合其 InfiniBand 和以太網(wǎng) ASIC,就像 Mellanox 十年前所做的那樣。

      或者,這可能意味著 Nvidia 試圖讓我們所有人都感到好奇,只是為了好玩。2027 年還有其他跡象表明,這可能意味著超級(jí)以太網(wǎng)聯(lián)盟將完全支持 NIC 和交換機(jī),甚至可能使用 UALink 交換機(jī)將節(jié)點(diǎn)內(nèi)和跨機(jī)架將 GPU 連接在一起。

      屆時(shí)我們可能將會(huì)看到。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    新聞

    明火炊具市場(chǎng):三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實(shí)力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來(lái)實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。

    研究

    中國(guó)信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專題論壇在沈陽(yáng)成功舉辦。