下單前先比價不花冤枉錢 同款圖書京東價低于抖音6折日媒感慨中國電動汽車/智駕遙遙領先:本田、日產、三菱合并也沒戲消委會吹風機品質檢測結果揭曉 徠芬獨占鰲頭 共話新質營銷力,2024梅花數據峰會圓滿落幕索尼影像專業(yè)服務 PRO Support 升級,成為會員至少需注冊 2 臺 α 全畫幅相機、3 支 G 大師鏡頭消息稱vivo加碼電池軍備競賽:6500mAh 旗艦機+7500mAh中端機寶馬M8雙門轎跑車明年年初將停產,后續(xù)無2026款車型比亞迪:2025 款漢家族車型城市領航智駕功能開啟內測雷神預告2025年首次出席CES 將發(fā)布三款不同技術原理智能眼鏡realme真我全球首發(fā)聯發(fā)科天璣 8400 耐玩戰(zhàn)神共創(chuàng)計劃iQOO Z9 Turbo長續(xù)航版手機被曝電池加大到6400mAh,搭驍龍 8s Gen 3處理器普及放緩 銷量大跌:曝保時捷將重新評估電動汽車計劃來京東參與榮耀Magic7 RSR 保時捷設計預售 享365天只換不修國補期間電視迎來換機潮,最暢銷MiniLED品牌花落誰家?美團旗下微信社群團購業(yè)務“團買買”宣布年底停運消息稱微軟正與第三方廠商洽談,試圖合作推出Xbox游戲掌機設備在海外,要再造一個京東物流?消息稱蘋果正為AirPods開發(fā)多項健康功能,包括心率監(jiān)測和溫度感應一加 Ace 5系列將搭載全新游戲助手:大幅提升游戲體驗東芝全部業(yè)務實現盈利,退市裁員重組后終于賺錢
  • 首頁 > 產經新聞頻道 > 科技資訊

    1530億顆晶體管AMD 甩出最強AI芯片 單個GPU跑大模型

    2023年06月14日 17:31:10   來源:芯東西 (ID:aichip001)

      專為生成式 AI 設計的 GPU:HBM 密度是英偉達 H100 的 2.4 倍,帶寬是英偉達 H100 的 1.6 倍。

      作者 |  ZeR0

      編輯 |  漠影

      芯東西 6 月 14 日報道,今日凌晨,英偉達的頭號勁敵 AMD,終于放出了令人期待已久的 AI 大招。

      2014 年,蘇姿豐成為 AMD CEO 時,這家芯片企業(yè)正瀕臨生存危機,裁員約 1/4,股價徘徊在 2 美元。隨后在蘇姿豐的掌舵之下,AMD 完成了漂亮的轉身,9 年來股價飆升近 30 倍,對英偉達和英特爾兩家頂級芯片巨頭形成了制衡。

      隨著生成式 AI 颶風席卷全球,英偉達 GPU 被各家大廠爭相搶購,焦點很快轉移到 AMD 身上 ——AMD 能否生產出足夠強大的 AI 芯片來打破英偉達近乎壟斷的市場地位,抓住新一波 AI 浪潮?

      今日,AMD 交出階段性答卷。

      在展示下一代 AI 芯片 MI300X 加速器時,蘇姿豐滿面笑容地說:“我愛這顆芯片”。

      MI300X 是一個純 GPU 版本,采用 AMD CDNA 3 技術,使用多達 192 GB 的 HBM3 高帶寬內存來加速大型語言模型和生成式 AI 計算。

      AMD 主要客戶將在第三季度開始試用 MI300X,第四季度開始全面生產。另一種型號 Instinct MI300A 現在正在向客戶發(fā)售。

      蘇姿豐說,人工智能是 AMD“最大、最具戰(zhàn)略意義的長期增長機會”。

      現場,AMD 與明星 AI 獨角獸企業(yè) Hugging Face 宣布了一項新的合作伙伴關系,為 AMD 的 CPU、GPU 和其他 AI 硬件優(yōu)化他們的模型。

      除了 AI 芯片外,AMD 還推出專為云計算和超大規(guī)模用戶設計的全新 EPYC 服務器處理器,代號為 Bergamo,每個插槽最多包含 128 個內核,并針對各種容器化工作負載進行了優(yōu)化。

      亞馬遜旗下云計算部門 AWS、甲骨文云、Meta、微軟 Azure 的高管均來到現場,分享在其數據中心使用 AMD 芯片及軟件的感受。

      01.加速生成式 AI:192GB HBM3,單個 GPU 跑大模型

      此前,AMD Instinct GPU 已經被許多世界上最快的超級計算機采用。

      MI300X 加速器是 AMD Instinct MI300 系列的新成員,提供一個僅有 GPU 配置的芯片版本。

      MI300X 及其 CDNA 架構專為大型語言模型和其他先進 AI 模型而設計,將 12 個 5nm chiplets 封裝在一起,共有 1530 億顆晶體管。

      這款全新 AI 芯片舍棄了 APU 的 24 個 Zen 內核和 I / O 芯片,轉而采用更多的 CDNA 3 GPU 和更大的 192GB HBM3,提供 5.2 TB / s 的內存帶寬和 896GB/s的無限帶寬。

      MI300X 的 HBM 密度是英偉達 H100 的 2.4 倍,帶寬是英偉達 H100 的 1.6 倍,這意味著 AMD 可以運行比英偉達芯片更大的模型。

      AMD 演示了在單個 MI300X GPU 上運行擁有 400 億個參數的 Falcon-40B 大型語言模型,讓它寫了一首關于舊金山的詩。

      “模型尺寸變得越來越大,你需要多個 GPU 來運行最新的大型語言模型,”蘇姿豐說,隨著 AMD 芯片上內存增加,開發(fā)者將不需要那么多 GPU。

      另一款 MI300A 被蘇姿豐稱作“面向 AI 和高性能計算的全球首款 APU 加速器”,將多個 CPU、GPU 和高帶寬內存封在一起,在 13 個 chiplets 上擁有 1460 億顆晶體管。

      MI300A 采用 5nm 和 6nm 制程、CDNA 3 GPU 架構,搭配 24 個 Zen 4 核心、128GB HBM3,相比 MI250 提供了 8 倍以上的性能和 5 倍以上的效率。

      AMD 還公布了一種 AMD Infinity 架構。該架構將 8 個 MI300X 加速器連接在一個考慮了 AI 推理和訓練的標準系統(tǒng)中,提供共 1.5TB HBM3 內存。

      據臺媒報道,AMD 的 Instinct MI300 系列以及英偉達的 H100 / H800 系列 GPU 都在采用臺積電先進的后端 3D 封裝方法 CoWoS,導致臺積電 CoWoS 產能短缺將持續(xù)存在。臺積電目前有能力每月處理大約 8000 片 CoWoS 晶圓,其中英偉達和 AMD 合計占了大約 70% 到 80%。

      此外,英偉達近年備受開發(fā)者偏愛的一大關鍵護城河是 CUDA 軟件。AMD 總裁 Victor Peng 也展示了 AMD 在開發(fā)軟件生態(tài)方面所做的努力。

      AMD 計劃在 AI 軟件生態(tài)系統(tǒng)開發(fā)中采用“開放(Open)、成熟(Proven)、就緒(Ready)”的理念。

      AMD 的 ROCm 是一套完整的庫和工具,用于優(yōu)化 AI 軟件棧。不同于 CUDA,這是一個開放的平臺。

      AMD 還分享了 PyTorch 與 ROCm 的合作。新的 PyTorch 2.0 的速度幾乎是之前版本的兩倍。AMD 是 PyTorch 基金會的創(chuàng)始成員之一。

      AMD 正在不斷優(yōu)化 ROCm。Victor Peng 說:“雖然這是一段旅程,但我們在構建可與模型、庫、框架和工具的開放生態(tài)系統(tǒng)協同工作的強大軟件棧方面取得了真正的巨大進步。”

      02.云原生處理器 Bergamo:128 核,256 個線程,最高 vCPU 密度

      再來看下 AMD 的數據中心 CPU。

      蘇姿豐首先分享了 AMD EPYC 處理器的進展,特別是在全球范圍內可用的云計算實例方面。

      她強調說,AMD 第四代 EPYC Genoa 處理器在云計算工作負載方面的性能是英特爾競品的 1.8 倍,在企業(yè)工作負載方面的性能提高到 1.9 倍。

      絕大多數 AI 都在 CPU 上運行,AMD 稱,與英特爾至強 8490H 相比,第四代 EPYC 在性能上遙遙領先,性能優(yōu)勢高出 1.9 倍。

      蘇姿豐說,云原生處理器以吞吐量為導向,需要最高的性能、可擴展性、計算密度和能效。

      新發(fā)布的 Bergamo,便是云原生處理器市場的入口。

      該芯片有 820 億顆晶體管,提供了最高的 vCPU 密度。

      在大散熱器下,有一個表面看起來非常像以前的 EPYC 的芯片,跟與 Rome 或 Milan 一樣有中央 I / O 芯片和 8 個核心復合芯片(CCD)。

      Bergamo 的每個插槽有多達 128 個核心、256 個線程,分布在 8 個 CCD 上,每個 CCD 的核心數量是 Genoa 16 個核心的兩倍,采用比標準 Zen 4 內核提供更高密度的全新 Zen 4c 核心設計,并支持一致的 x86 ISA。

      “Zen 4c 針對性能和功耗的最佳平衡點進行了優(yōu)化,這為我們提供了更好的密度和能效,”蘇姿豐在演講中談道,“結果設計面積縮小了 35%,每瓦性能顯著提高。”

      Bergamo 現在正在向 AMD 的云客戶發(fā)貨。AMD 還分享了第四代 EPYC 9754 與英特爾至強 8490H 的性能、密度和能效和對比:

      除了 Bergamo 的新核心和 Chiplet 架構之外,該處理器與 Genoa 有很多共同之處,包括支持 12 通道 DDR5 內存、最新 PCIe 5.0、單插槽或雙插槽配置等等。

      不過,多核心不再只是 AMD 處理器獨有的特色。不久之前,數據中心處理器新起之秀 Ampere Computing 剛推出擁有多達 192 個單線程 Ampere 核心的 Ampere One 系列處理器。英特爾也計劃在 2024 年初推出內核優(yōu)化的至強處理器 Sierra Forest,將內置 144 個高效能核心。

      AMD 還展示了其最新的緩存堆疊 X 芯片,代號為 Genoa-X,現已上市。

      該芯片針對高性能計算工作負載,包括計算流體動力學、電子設計自動化、有限元分析、地震層析成像及其他帶寬敏感型工作負載,這些工作負載受益于大量共享緩存。

      Genoa-X CPU 基于 AMD 的標準 Genoa 平臺,采用 AMD 3D V-Cache 技術,通過在每個 CCD 上垂直堆疊 SRAM 模塊來提高可用的 L3 緩存。

      該芯片可提供多達 96 個內核和總計 1.1GB 的 L3 高速緩存,每個 CCD 上堆疊了一個 64MB SRAM 塊。

      據 AMD 披露的數據,在各種計算流體動力學和有限元分析工作負載方面,與英特爾最高規(guī)格的 60 核 Sapphire Rapids 至強相比,Genoa-X 緩存提升的性能提高到 2.2 倍到 2.9 倍。

      下圖是 Genoa-X 與相同數量核心的英特爾至強的性能對比:

      03.即將推出全新 DPU

      最后,AMD 簡要介紹了其網絡基礎設施。

      去年 AMD 以 19 億美元收購 Pensando,進入 DPU 賽道。AMD 解釋了如何使用其 DPU 來減少數據中心的網絡開銷。

      AMD 將其 P4 DPU 架構稱作“世界上最智能的 DPU”,并稱其 Pensando SmartNIC 是新數據中心架構不可或缺的一部分。

      AMD 還在現場展示了與 Aruba Networks 共同開發(fā)的智能交換機。AMD 計劃將 P4 DPU 卸載集成到網絡交換機本身,從而提供機架級服務。

      AMD 最新的 DPU 旨在從 CPU 卸載網絡、安全和虛擬化任務,與當前一代 P4 DPU 相比將提供更高的性能和能效。

      其 DPU 已得到微軟、IBM 云、甲骨文云等許多主要云提供商以及 VMware 虛擬機管理程序等軟件套件的支持。

      AMD 打算在今年晚些時候推出 Giglio DPU 之前擴大兼容軟件列表,推出“芯片軟件開發(fā)工具包”,以便用戶更輕松地在其 DPU 上部署工作負載。

      04.結語:到 2027 年,數據中心 AI 加速器市場規(guī)模將超過 1500 億美元

      全球數據中心 GPU 和 CPU 的頭部企業(yè)英偉達和英特爾均在強調其加速 AI 的實力。作為這兩條賽道“萬年老二”的 AMD,也在競相滿足對 AI 計算日益增長的需求,并通過推出適應最新需求的數據中心 GPU 來挑戰(zhàn)英偉達在新興市場的主導地位。

      生成式 AI 和大型語言模型的應用熱潮正在將數據中心推向極限。截至目前,英偉達在提供處理這些工作負載所需的技術方面具有優(yōu)勢。根據市場調研機構 New Street Research 的數據,英偉達占據了可用于機器學習的 GPU 市場的 95%。

      “我們仍處于 AI 生命周期的非常、非常早的階段,”蘇姿豐預測,到 2027 年,數據中心 AI 加速器總潛在市場規(guī)模將增長 5 倍,從今年的 300 億美元左右以超過 50% 的復合年增長率增長到 2027 年的 1500 億美元以上。

      AMD 并未透露兩款 MI300 新芯片的價格,但這可能會給英偉達帶來一定價格壓力,之前 H100 價格據傳高達 30000 美元乃至更多。

      本文來自微信公眾號:芯東西 (ID:aichip001),作者:ZeR0

      文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。

    即時

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(AVC)推總數據顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應用,“區(qū)塊鏈+政務服務”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現能力,為您的創(chuàng)作工作帶來實質性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯網標識解析體系

    9月14日,2024全球工業(yè)互聯網大會——工業(yè)互聯網標識解析專題論壇在沈陽成功舉辦。