1530億顆晶體管AMD 甩出最強AI芯片單個GPU跑大模型

2023年06月14日 17:31:10 ZeR0 來源：芯東西 (ID：aichip001)

　　專為生成式 AI 設計的 GPU：HBM 密度是英偉達 H100 的 2.4 倍，帶寬是英偉達 H100 的 1.6 倍。

　　作者 | ZeR0

　　編輯 | 漠影

　　芯東西 6 月 14 日報道，今日凌晨，英偉達的頭號勁敵 AMD，終于放出了令人期待已久的 AI 大招。

　　2014 年，蘇姿豐成為 AMD CEO 時，這家芯片企業(yè)正瀕臨生存危機，裁員約 1/4，股價徘徊在 2 美元。隨后在蘇姿豐的掌舵之下，AMD 完成了漂亮的轉身，9 年來股價飆升近 30 倍，對英偉達和英特爾兩家頂級芯片巨頭形成了制衡。

　　隨著生成式 AI 颶風席卷全球，英偉達 GPU 被各家大廠爭相搶購，焦點很快轉移到 AMD 身上 ——AMD 能否生產出足夠強大的 AI 芯片來打破英偉達近乎壟斷的市場地位，抓住新一波 AI 浪潮?

　　今日，AMD 交出階段性答卷。

　　在展示下一代 AI 芯片 MI300X 加速器時，蘇姿豐滿面笑容地說：“我愛這顆芯片”。

　　MI300X 是一個純 GPU 版本，采用 AMD CDNA 3 技術，使用多達 192 GB 的 HBM3 高帶寬內存來加速大型語言模型和生成式 AI 計算。

　　AMD 主要客戶將在第三季度開始試用 MI300X，第四季度開始全面生產。另一種型號 Instinct MI300A 現在正在向客戶發(fā)售。

　　蘇姿豐說，人工智能是 AMD“最大、最具戰(zhàn)略意義的長期增長機會”。

　　現場，AMD 與明星 AI 獨角獸企業(yè) Hugging Face 宣布了一項新的合作伙伴關系，為 AMD 的 CPU、GPU 和其他 AI 硬件優(yōu)化他們的模型。

　　除了 AI 芯片外，AMD 還推出專為云計算和超大規(guī)模用戶設計的全新 EPYC 服務器處理器，代號為 Bergamo，每個插槽最多包含 128 個內核，并針對各種容器化工作負載進行了優(yōu)化。

　　亞馬遜旗下云計算部門 AWS、甲骨文云、Meta、微軟 Azure 的高管均來到現場，分享在其數據中心使用 AMD 芯片及軟件的感受。

　　01.加速生成式 AI：192GB HBM3，單個 GPU 跑大模型

　　此前，AMD Instinct GPU 已經被許多世界上最快的超級計算機采用。

　　MI300X 加速器是 AMD Instinct MI300 系列的新成員，提供一個僅有 GPU 配置的芯片版本。

　　MI300X 及其 CDNA 架構專為大型語言模型和其他先進 AI 模型而設計，將 12 個 5nm chiplets 封裝在一起，共有 1530 億顆晶體管。

　　這款全新 AI 芯片舍棄了 APU 的 24 個 Zen 內核和 I / O 芯片，轉而采用更多的 CDNA 3 GPU 和更大的 192GB HBM3，提供 5.2 TB / s 的內存帶寬和 896GB/s的無限帶寬。

　　MI300X 的 HBM 密度是英偉達 H100 的 2.4 倍，帶寬是英偉達 H100 的 1.6 倍，這意味著 AMD 可以運行比英偉達芯片更大的模型。

　　AMD 演示了在單個 MI300X GPU 上運行擁有 400 億個參數的 Falcon-40B 大型語言模型，讓它寫了一首關于舊金山的詩。

　　“模型尺寸變得越來越大，你需要多個 GPU 來運行最新的大型語言模型，”蘇姿豐說，隨著 AMD 芯片上內存增加，開發(fā)者將不需要那么多 GPU。

　　另一款 MI300A 被蘇姿豐稱作“面向 AI 和高性能計算的全球首款 APU 加速器”，將多個 CPU、GPU 和高帶寬內存封在一起，在 13 個 chiplets 上擁有 1460 億顆晶體管。

　　MI300A 采用 5nm 和 6nm 制程、CDNA 3 GPU 架構，搭配 24 個 Zen 4 核心、128GB HBM3，相比 MI250 提供了 8 倍以上的性能和 5 倍以上的效率。

　　AMD 還公布了一種 AMD Infinity 架構。該架構將 8 個 MI300X 加速器連接在一個考慮了 AI 推理和訓練的標準系統(tǒng)中，提供共 1.5TB HBM3 內存。

　　據臺媒報道，AMD 的 Instinct MI300 系列以及英偉達的 H100 / H800 系列 GPU 都在采用臺積電先進的后端 3D 封裝方法 CoWoS，導致臺積電 CoWoS 產能短缺將持續(xù)存在。臺積電目前有能力每月處理大約 8000 片 CoWoS 晶圓，其中英偉達和 AMD 合計占了大約 70% 到 80%。

　　此外，英偉達近年備受開發(fā)者偏愛的一大關鍵護城河是 CUDA 軟件。AMD 總裁 Victor Peng 也展示了 AMD 在開發(fā)軟件生態(tài)方面所做的努力。

　　AMD 計劃在 AI 軟件生態(tài)系統(tǒng)開發(fā)中采用“開放(Open)、成熟(Proven)、就緒(Ready)”的理念。

　　AMD 的 ROCm 是一套完整的庫和工具，用于優(yōu)化 AI 軟件棧。不同于 CUDA，這是一個開放的平臺。

　　AMD 還分享了 PyTorch 與 ROCm 的合作。新的 PyTorch 2.0 的速度幾乎是之前版本的兩倍。AMD 是 PyTorch 基金會的創(chuàng)始成員之一。

　　AMD 正在不斷優(yōu)化 ROCm。Victor Peng 說：“雖然這是一段旅程，但我們在構建可與模型、庫、框架和工具的開放生態(tài)系統(tǒng)協同工作的強大軟件棧方面取得了真正的巨大進步。”

　　02.云原生處理器 Bergamo：128 核，256 個線程，最高 vCPU 密度

　　再來看下 AMD 的數據中心 CPU。

　　蘇姿豐首先分享了 AMD EPYC 處理器的進展，特別是在全球范圍內可用的云計算實例方面。

　　她強調說，AMD 第四代 EPYC Genoa 處理器在云計算工作負載方面的性能是英特爾競品的 1.8 倍，在企業(yè)工作負載方面的性能提高到 1.9 倍。

　　絕大多數 AI 都在 CPU 上運行，AMD 稱，與英特爾至強 8490H 相比，第四代 EPYC 在性能上遙遙領先，性能優(yōu)勢高出 1.9 倍。

　　蘇姿豐說，云原生處理器以吞吐量為導向，需要最高的性能、可擴展性、計算密度和能效。

　　新發(fā)布的 Bergamo，便是云原生處理器市場的入口。

　　該芯片有 820 億顆晶體管，提供了最高的 vCPU 密度。

　　在大散熱器下，有一個表面看起來非常像以前的 EPYC 的芯片，跟與 Rome 或 Milan 一樣有中央 I / O 芯片和 8 個核心復合芯片(CCD)。

　　Bergamo 的每個插槽有多達 128 個核心、256 個線程，分布在 8 個 CCD 上，每個 CCD 的核心數量是 Genoa 16 個核心的兩倍，采用比標準 Zen 4 內核提供更高密度的全新 Zen 4c 核心設計，并支持一致的 x86 ISA。

　　“Zen 4c 針對性能和功耗的最佳平衡點進行了優(yōu)化，這為我們提供了更好的密度和能效，”蘇姿豐在演講中談道，“結果設計面積縮小了 35%，每瓦性能顯著提高。”

　　Bergamo 現在正在向 AMD 的云客戶發(fā)貨。AMD 還分享了第四代 EPYC 9754 與英特爾至強 8490H 的性能、密度和能效和對比：

　　除了 Bergamo 的新核心和 Chiplet 架構之外，該處理器與 Genoa 有很多共同之處，包括支持 12 通道 DDR5 內存、最新 PCIe 5.0、單插槽或雙插槽配置等等。

　　不過，多核心不再只是 AMD 處理器獨有的特色。不久之前，數據中心處理器新起之秀 Ampere Computing 剛推出擁有多達 192 個單線程 Ampere 核心的 Ampere One 系列處理器。英特爾也計劃在 2024 年初推出內核優(yōu)化的至強處理器 Sierra Forest，將內置 144 個高效能核心。

　　AMD 還展示了其最新的緩存堆疊 X 芯片，代號為 Genoa-X，現已上市。

　　該芯片針對高性能計算工作負載，包括計算流體動力學、電子設計自動化、有限元分析、地震層析成像及其他帶寬敏感型工作負載，這些工作負載受益于大量共享緩存。

　　Genoa-X CPU 基于 AMD 的標準 Genoa 平臺，采用 AMD 3D V-Cache 技術，通過在每個 CCD 上垂直堆疊 SRAM 模塊來提高可用的 L3 緩存。

　　該芯片可提供多達 96 個內核和總計 1.1GB 的 L3 高速緩存，每個 CCD 上堆疊了一個 64MB SRAM 塊。

　　據 AMD 披露的數據，在各種計算流體動力學和有限元分析工作負載方面，與英特爾最高規(guī)格的 60 核 Sapphire Rapids 至強相比，Genoa-X 緩存提升的性能提高到 2.2 倍到 2.9 倍。

　　下圖是 Genoa-X 與相同數量核心的英特爾至強的性能對比：

　　03.即將推出全新 DPU

　　最后，AMD 簡要介紹了其網絡基礎設施。

　　去年 AMD 以 19 億美元收購 Pensando，進入 DPU 賽道。AMD 解釋了如何使用其 DPU 來減少數據中心的網絡開銷。

　　AMD 將其 P4 DPU 架構稱作“世界上最智能的 DPU”，并稱其 Pensando SmartNIC 是新數據中心架構不可或缺的一部分。

　　AMD 還在現場展示了與 Aruba Networks 共同開發(fā)的智能交換機。AMD 計劃將 P4 DPU 卸載集成到網絡交換機本身，從而提供機架級服務。

　　AMD 最新的 DPU 旨在從 CPU 卸載網絡、安全和虛擬化任務，與當前一代 P4 DPU 相比將提供更高的性能和能效。