云天勵飛“算力積木”架構(gòu):引領(lǐng)邊緣AI芯片新變革徹底告別3999元!小米15入網(wǎng) 支持90W快充FF發(fā)布第二品牌Faraday X:對標(biāo)豐田 專注增程式混動車型黑神話悟空總收入超67億:銷量已超2000萬份通快成立激光業(yè)務(wù)區(qū)域中心(中國),強(qiáng)勢布局中國市場Sandalwood Advisors受邀參加第31屆中信里昂投資者論壇淘寶倒逼新風(fēng)向:一場電商減負(fù)運(yùn)動博浪AI時代,阿里、華為“硬碰硬”Youtube將推出人工智能工具 可生成創(chuàng)意、標(biāo)題甚至完整視頻申通、圓通、韻達(dá)發(fā)布 8 月簡報:快遞業(yè)務(wù)量、收入均同比增長,單票收入均下降蘋果iPhone 16系列開啟發(fā)售,Max最高加2500元TECNO 全球發(fā)布二代折疊屏旗艦—PHANTOM V Fold2 5G及PHANTOM V Flip2 5G科大訊飛還是AI“小甜甜”嗎?消息稱美團(tuán)外賣調(diào)整經(jīng)營目標(biāo),從追求 GMV 變?yōu)樽非笥唵瘟?/a>消息稱淘寶“大服飾全球包郵計劃”升級,品類“擴(kuò)容”至全行業(yè)Brightband獲1000萬美元融資,可用AI預(yù)測極端天氣菊樂股份再次申報IPO:四度闖關(guān)未果,超七成收入來自四川傳AI芯片設(shè)計公司Ampere尋求出售,或放棄IPO引領(lǐng)通用具身新時代:普渡發(fā)布首款類人形機(jī)器人PUDU D7辦公軟件的超級英雄?金山WPS AI會員人數(shù)破百萬,鴻蒙版全面開跑
  • 首頁 > 數(shù)據(jù)存儲頻道 > 數(shù)據(jù).存儲頻道 > 半導(dǎo)體

    GPU,一統(tǒng)天下

    2024年03月08日 14:03:48   來源:微信公眾號:半導(dǎo)體行業(yè)觀察

      三十年前,CPU 和其他專用處理器幾乎處理所有計算任務(wù)。那個時代的顯卡有助于加快 Windows 和應(yīng)用程序中 2D 形狀的繪制速度,但沒有其他用途。

      快進(jìn)到今天,GPU 已經(jīng)成為業(yè)界最 具主導(dǎo)地位的芯片之一。

      但具有諷刺意味的是,圖形芯片的唯 一功能是圖形的日子已經(jīng)一去不復(fù)返了,機(jī)器學(xué)習(xí)和高性能計算嚴(yán)重依賴于不起眼的 GPU 的處理能力。與我們一起探索這款單芯片如何從一個不起眼的像素推動器演變成一個強(qiáng)大的浮點(diǎn)計算引擎。

      一開始,CPU統(tǒng)治一切

      讓我們回到 20 世紀(jì) 90 年代末。高性能計算領(lǐng)域,包括超級計算機(jī)的科學(xué)工作、標(biāo)準(zhǔn)服務(wù)器上的數(shù)據(jù)處理以及工作站上的工程和設(shè)計任務(wù),完全依賴于兩種類型的 CPU:1)專為單一目的而設(shè)計的專用處理器,2)來自AMD、IBM 或 Intel 的現(xiàn)成芯片。

      ASCI Red 超級計算機(jī)是 1997 年左右最強(qiáng)大的超級計算機(jī)之一,由 9,632 個 Intel Pentium II Overdrive CPU 組成(如下圖所示)。每個單元的運(yùn)行頻率為 333 MHz,該系統(tǒng)的理論峰值計算性能略高于 3.2 TFLOPS(每秒萬億次浮點(diǎn)運(yùn)算)。

      由于我們將在本文中經(jīng)常提到 TFLOPS,因此值得花點(diǎn)時間來解釋它的含義。在計算機(jī)科學(xué)中,浮點(diǎn)數(shù)(或簡稱floats )是表示非整數(shù)值的數(shù)據(jù)值,例如 6.2815 或 0.0044。整數(shù)值(稱為整數(shù))經(jīng)常用于控制計算機(jī)及其上運(yùn)行的任何軟件所需的計算。

      浮點(diǎn)數(shù)對于精度至關(guān)重要的情況至關(guān)重要,特別是與科學(xué)或工程相關(guān)的任何事情。即使是簡單的計算,例如確定圓的周長,也至少涉及一個浮點(diǎn)值。

      幾十年來,CPU 一直擁有單獨(dú)的電路來對整數(shù)和浮點(diǎn)數(shù)執(zhí)行邏輯運(yùn)算。在上述 Pentium II Overdrive 的情況下,它可以在每個時鐘周期執(zhí)行一次基本浮點(diǎn)運(yùn)算(乘法或加法)。理論上,這就是為什么 ASCI Red 的峰值浮點(diǎn)性能為 9,632 個 CPU x 3.33 億個時鐘周期 x 1 次操作/周期 = 3,207,456 百萬次 FLOPS。

      這些數(shù)字基于理想條件(例如,對適合緩存的數(shù)據(jù)使用最簡單的指令),并且在現(xiàn)實生活中很少可以實現(xiàn)。然而,它們很好地表明了系統(tǒng)的潛在能力。

      其他超級計算機(jī)也擁有類似數(shù)量的標(biāo)準(zhǔn)處理器——勞倫斯利弗莫爾國家實驗室的Blue Pacific使用 5808 個 IBM PowerPC 604e芯片,洛斯阿拉莫斯國家實驗室的Blue Mountain(上圖)則使用 6144 個MIPS Technologies R1000。

      為了達(dá)到萬億次浮點(diǎn)運(yùn)算級別的處理能力,需要數(shù)千個 CPU,所有這些都需要大量 RAM 和硬盤存儲的支持。這過去是,現(xiàn)在仍然是,由于機(jī)器的數(shù)學(xué)要求。

      當(dāng)我們在學(xué)校第 一次接觸物理、化學(xué)和其他學(xué)科的方程時,一切都是一維的。換句話說,我們使用一個數(shù)字來表示距離、速度、質(zhì)量、時間等。然而,為了準(zhǔn)確地建模和模擬現(xiàn)象,需要更多的維度,并且數(shù)學(xué)上升到向量、矩陣和張量的領(lǐng)域。

      它們在數(shù)學(xué)中被視為單個實體,但包含多個值,這意味著任何進(jìn)行計算的計算機(jī)都需要同時處理大量數(shù)字。鑒于當(dāng)時的 CPU 每個周期只能處理一到兩個浮點(diǎn)數(shù),因此需要數(shù)千個浮點(diǎn)數(shù)。

      SIMD 加入競爭:

      MMX、3DNow!和上交所

      1997 年,Intel 通過名為MMX 的技術(shù)擴(kuò)展更新了 Pentium CPU 系列,這是一組利用內(nèi)核內(nèi)部八個附加寄存器的指令。每個都被設(shè)計為存儲一到四個整數(shù)值。該系統(tǒng)允許處理器同時執(zhí)行跨多個數(shù)字的一條指令,這種方法被稱為 SIMD(Single Instruction, Multiple Data)。

      一年后,AMD 推出了自己的版本,名為3DNow!。它的性能尤其優(yōu)越,因為寄存器可以存儲浮點(diǎn)值。又過了一年,英特爾才在 MMX 中解決這個問題,并在 Pentium III 中引入了SSE (Streaming SIMD Extensions)。

      隨著日歷進(jìn)入新千年,高性能計算機(jī)的設(shè)計者可以使用能夠有效處理矢量數(shù)學(xué)的標(biāo)準(zhǔn)處理器。

      一旦擴(kuò)展到數(shù)千個,這些處理器就可以同樣出色地管理矩陣和張量。盡管取得了這一進(jìn)步,超級計算機(jī)世界仍然青睞舊的或?qū)S玫男酒驗檫@些新的擴(kuò)展并不是專門為此類任務(wù)而設(shè)計的。對于另一種快速普及的處理器來說,GPU 也是如此,它比 AMD 或 Intel 的任何 CPU 都更擅長 SIMD 工作。

      在圖形處理器的早期,CPU 處理構(gòu)成場景的三角形的計算(因此 AMD 用于執(zhí)行 SIMD 的名稱為 3DNow!)。然而,像素的著色和紋理完全由 GPU 處理,并且這項工作的許多方面都涉及矢量數(shù)學(xué)。

      20 多年前最 好的消費(fèi)級顯卡,例如 3dfx Voodoo5 5500和 Nvidia GeForce 2 Ultra,都是出色的 SIMD 設(shè)備。然而,它們的創(chuàng)建目的是為游戲生成 3D 圖形,而不是其他任何東西。即使是專業(yè)市場的顯卡也只專注于渲染。

      ATI 售價 2,000 美元的 ATI FireGL 3 配備了兩個 IBM 芯片(一個 GT1000 幾何引擎和一個 RC1000 光柵器)、一個巨大的 128 MB DDR-SDRAM 以及據(jù)稱 30 GFLOPS 的處理能力。但這一切都是為了使用 OpenGL 渲染 API 加速 3D Studio Max 和 AutoCAD 等程序中的圖形。

      那個時代的 GPU 無法用于其他用途,因為轉(zhuǎn)換 3D 對象并將其轉(zhuǎn)換為監(jiān)視器圖像的過程并不涉及大量的浮點(diǎn)數(shù)學(xué)。事實上,其中很大一部分是在整數(shù)級別,并且圖形卡需要幾年的時間才開始在整個管道中大量使用浮點(diǎn)值。

      第 一個是ATI 的 R300 處理器,它有 8 個獨(dú)立的像素管道,以 24 位浮點(diǎn)精度處理所有數(shù)學(xué)運(yùn)算。不幸的是,除了圖形之外,沒有其他方法可以利用這種能力——硬件和相關(guān)軟件完全以圖像為中心。

      計算機(jī)工程師并沒有忘記 GPU 擁有大量 SIMD 功能,但缺乏將其應(yīng)用到其他領(lǐng)域的方法這一事實。令人驚訝的是,這是一個游戲機(jī),展示了如何解決這個棘手的問題。

      統(tǒng)一的新時代

      微軟的Xbox 360于2005年11月上市,其CPU由IBM設(shè)計和制造,基于PowerPC架構(gòu),GPU由ATI設(shè)計、臺積電制造。

      這款代號為 Xenos 的圖形芯片很特別,因為它的布局完全避開了單獨(dú)的頂點(diǎn)和像素管道的經(jīng)典方法。

      取而代之的是一個三路 SIMD 陣列集群。具體來說,每個集群由 16 個向量處理器組成,每個向量處理器包含 5 個數(shù)學(xué)單元。這種布局使每個陣列能夠在每個周期對 80 個浮點(diǎn)數(shù)據(jù)值同時執(zhí)行來自線程的兩條順序指令。

      被稱為統(tǒng)一著色器架構(gòu)(unified shader architecture),每個陣列可以處理任何類型的著色器。盡管 Xenos 使芯片的其他方面變得更加復(fù)雜,但它引發(fā)了一種至今仍在使用的設(shè)計范例。在時鐘速度為 500 MHz 的情況下,整個集群理論上可以為乘法加法命令的三個線程實現(xiàn) 240 GFLOPS (500 x 16 x 80 x 2) 的處理速率。

      為了讓這個數(shù)字有一定的規(guī)模感,十年前的一些世界頂 級超級計算機(jī)無法匹敵這個速度。例如,桑迪亞國家實驗室的aragon XP/S140憑借 3,680 個 Intel i860 CPU 在 1994 年名列世界超級計算機(jī)榜首,峰值速度為 184 GFLOPS。芯片開發(fā)的速度很快就超過了這臺機(jī)器,但 GPU 也是如此。

      CPU 多年來一直在整合自己的 SIMD 陣列,例如,英特爾最初的 Pentium MMX 有一個專用單元,用于在向量上執(zhí)行指令,最多包含 8 個 8 位整數(shù)。當(dāng) Xbox 的 Xenos 在全球家庭中使用時,此類設(shè)備的尺寸至少增加了一倍,但與 Xenos 相比,它們?nèi)匀缓苄 ?/p>

      當(dāng)消費(fèi)級顯卡開始采用具有統(tǒng)一著色器架構(gòu)的 GPU 時,它們已經(jīng)擁有比 Xbox 360 的圖形芯片明顯更高的處理速率。

      GeForce 8800 GTX (2006 ) 中使用的 Nvidia G80(上圖)的理論峰值為 346 GLFOPS,而Radeon HD 2900 XT (2007) 中的 ATI R600 則擁有 476 GLFOPS。

      兩家圖形芯片制造商很快就在其專業(yè)模型中利用了這種計算能力。雖然價格過高,但 ATI FireGL V8650 和 Nvidia Tesla C870 非常適合高端科學(xué)計算機(jī)。然而,在最 高 級別上,全世界的超級計算機(jī)仍然依賴標(biāo)準(zhǔn) CPU。事實上,幾年后 GPU 才開始出現(xiàn)在最強(qiáng)大的系統(tǒng)中。

      超級計算機(jī)和類似系統(tǒng)的設(shè)計、建造和操作都極其昂貴。多年來,它們都是圍繞大量 CPU 陣列構(gòu)建的,因此集成另一個處理器并不是一朝一夕的事。此類系統(tǒng)在增加芯片數(shù)量之前需要進(jìn)行徹底的規(guī)劃和初始小規(guī)模測試。

      其次,讓所有這些組件協(xié)調(diào)運(yùn)行,尤其是軟件方面,絕非易事,這也是當(dāng)時 GPU 的一個重大弱點(diǎn)。雖然它們已經(jīng)變得高度可編程,但以前可供它們使用的軟件相當(dāng)有限。

      Microsoft 的 HLSL(Higher Level Shader Language)、Nvidia 的Cg 庫和 OpenGL 的 GLSL 使訪問圖形芯片的處理能力變得簡單,盡管純粹是為了渲染。

      統(tǒng)一著色器架構(gòu) GPU 改變了這一切。

      2006 年,當(dāng)時已成為AMD 子公司的ATI和 Nvidia 發(fā)布了軟件工具包,旨在將這種能力不僅僅用于圖形,其 API 分別稱為 CTM(Close To Metal)和CUDA(Compute Unified Device Architecture)。

      然而,科學(xué)和數(shù)據(jù)處理社區(qū)真正需要的是一個全面的軟件包,它將大量的 CPU 和 GPU(通常稱為異構(gòu)平臺)視為由眾多計算設(shè)備組成的單個實體。

      他們的需求在 2009 年得到滿足。OpenCL 最初由 Apple 開發(fā),由 Khronos Group 發(fā)布,該集團(tuán)幾年前吸收了 OpenGL,成為在日常圖形之外或當(dāng)時該領(lǐng)域使用 GPU 的事實上的軟件平臺GPGPU 指的是 GPU 上的通用計算,該術(shù)語由Mark Harris創(chuàng)造。

      GPU 進(jìn)入計算競賽

      與廣闊的技術(shù)評論世界不同,全球范圍內(nèi)并沒有數(shù)百名評論者測試超級計算機(jī)的性能主張。然而,德國曼海姆大學(xué)于 20 世紀(jì) 90 年代初啟動的一個正在進(jìn)行的項目正是致力于實現(xiàn)這一目標(biāo)。

      該組織被稱為“TOP500”,每年兩次發(fā)布全球最強(qiáng)大的 10 臺超級計算機(jī)排行榜。

      第 一個夸耀 GPU 的條目出現(xiàn)在 2010 年,中國有兩個系統(tǒng)——Nebulae 和Tianhe-1。它們分別依賴于 Nvidia 的Tesla C2050(本質(zhì)上是 GeForce GTX 470,如下圖所示)和 AMD 的Radeon HD 4870芯片,前者的理論峰值為 2,984 TFLOPS。

      在高端 GPGPU 的早期階段,Nvidia 是為計算巨頭配備的首 選供應(yīng)商,不是因為性能(因為 AMD 的 Radeon 卡通常提供更高程度的處理性能),而是因為軟件支持。CUDA經(jīng)歷了快速發(fā)展,幾年后 AMD 才找到合適的替代方案,鼓勵用戶改用 OpenCL。

      然而,英偉達(dá)并沒有完全主導(dǎo)市場,英特爾的至強(qiáng)融核處理器試圖占據(jù)一席之地。這些大型芯片源自一個名為 Larrabee 的已中止的 GPU 項目,是一種特殊的 CPU-GPU 混合體,由多個類似奔騰的核心(CPU 部分)與大型浮點(diǎn)單元(GPU 部分)配對組成。

      對 Nvidia Tesla C2050 內(nèi)部結(jié)構(gòu)的檢查揭示了 14 個稱為流式多處理器 (SM) 的塊,由緩存和中央控制器劃分。每一個都包含 32 組兩個邏輯電路(Nvidia 稱之為 CUDA 核心),用于執(zhí)行所有數(shù)學(xué)運(yùn)算——一組用于整數(shù)值,另一組用于浮點(diǎn)數(shù)。在后一種情況下,內(nèi)核可以在每個時鐘周期以單(32 位)精度管理一次 FMA(融合乘加)操作;雙精度(64 位)運(yùn)算至少需要兩個時鐘周期。

      Xeon Phi 芯片(如下所示)中的浮點(diǎn)單元看起來有些相似,只是每個內(nèi)核處理的數(shù)據(jù)值是 C2050 中 SM 的一半。盡管如此,由于與 Tesla 的 14 個重復(fù)核心相比,有 32 個重復(fù)核心,單個 Xeon Phi 處理器總體上每個時鐘周期可以處理更多的值。然而,英特爾首次發(fā)布的該芯片更多的是一個原型,并不能完全發(fā)揮其潛力——英偉達(dá)的產(chǎn)品運(yùn)行速度更快,功耗更低,并被證明最終是優(yōu)越的。

      這將成為 AMD、英特爾和 Nvidia 之間三路 GPGPU 之爭中反復(fù)出現(xiàn)的主題。一種型號可能擁有數(shù)量較多的處理核心,而另一種型號可能具有更快的時鐘速度或更強(qiáng)大的緩存系統(tǒng)。

      CPU 對于所有類型的計算仍然至關(guān)重要,許多超級計算機(jī)和高端計算系統(tǒng)仍然由 AMD 或英特爾處理器組成。雖然單個 CPU 無法與普通 GPU 的 SIMD 性能競爭,但當(dāng)數(shù)千個 CPU 連接在一起時,它們就證明足夠了。然而,此類系統(tǒng)缺乏功效。

      例如,在天河一號超級計算機(jī)使用Radeon HD 4870 GPU的同時,AMD最 大的服務(wù)器CPU(12核Opteron 6176 SE)也開始流行。對于大約 140 W 的功耗,CPU 理論上可以達(dá)到 220 GFLOPS,而 GPU 只需額外 10 W 即可提供 1,200 GFLOPS 的峰值,而且成本僅為其一小部分。

      一個可以(做更多事情)的小顯卡

      幾年后,不僅僅是世界上的超級計算機(jī)在利用 GPU 來集體進(jìn)行并行計算。Nvidia 正在積極推廣其GRID 平臺,這是一種用于科學(xué)和其他應(yīng)用的 GPU 虛擬化服務(wù)。最初是作為托管基于云的游戲的系統(tǒng)而推出的,對大規(guī)模、經(jīng)濟(jì)實惠的 GPGPU 不斷增長的需求使得這一轉(zhuǎn)變不可避免。在其年度技術(shù)會議上,GRID 被認(rèn)為是各領(lǐng)域工程師的重要工具。

      在同一事件中,GPU 制造商展示了代號為 Volta 的未來架構(gòu)。公布的細(xì)節(jié)很少,普遍的假設(shè)是這將是另一款服務(wù)于英偉達(dá)所有市場的芯片。

      與此同時,AMD 也在做類似的事情,在其專注于游戲的 Radeon 系列以及 FirePro 和 Radeon Sky 服務(wù)器卡中利用定期更新的 Graphics Core Next (GCN) 設(shè)計。那時,性能數(shù)據(jù)已經(jīng)令人震驚——FirePro W9100 的峰值 FP32 吞吐量為 5.2 TFLOPS(32 位浮點(diǎn)),這個數(shù)字對于不到二十年前的超級計算機(jī)來說是不可想象的。

      GPU 仍然主要是為 3D 圖形設(shè)計的,但渲染技術(shù)的進(jìn)步意味著這些芯片必須越來越熟練地處理一般計算工作負(fù)載。唯 一的問題是它們執(zhí)行高精度浮點(diǎn)數(shù)學(xué)(即 FP64 或更高)的能力有限。

      縱觀2015 年頂 級超級計算機(jī),與完全基于 CPU 的超級計算機(jī)相比,使用 GPU(英特爾的 Xeon Phi 或 Nvidia 的 Tesla)的數(shù)量相對較少。

      當(dāng) Nvidia 在 2016 年推出Pascal 架構(gòu)時,這一切都發(fā)生了變化。這是該公司首次嘗試專門為高性能計算市場設(shè)計 GPU,其他 GPU 則用于多個領(lǐng)域。前者只生產(chǎn)過一款(GP100),并且只產(chǎn)生了 5 種產(chǎn)品,但之前所有架構(gòu)都只配備少數(shù) FP64 內(nèi)核,而這款芯片卻容納了近 2,000 個內(nèi)核。

      Tesla P100 提供超過 9 TFLOPS 的 FP32 處理能力和 FP64 處理能力的一半,它的功能非常強(qiáng)大。AMD 的 Radeon Pro W9100 使用 Vega 10 芯片,在 FP32 下速度快了 30%,但在 FP64 下慢了 800%。此時,英特爾因銷售不佳而瀕臨停產(chǎn) Xeon Phi。

      一年后,Nvidia 終于發(fā)布了 Volta,這表明該公司不僅僅有興趣將其 GPU 引入 HPC 和數(shù)據(jù)處理市場,它還瞄準(zhǔn)了另一個市場。

      神經(jīng)元、網(wǎng)絡(luò)

      深度學(xué)習(xí)是機(jī)器學(xué)習(xí)這一更廣泛學(xué)科中的一個領(lǐng)域,而機(jī)器學(xué)習(xí)又是人工智能的一個子集。它涉及使用復(fù)雜的數(shù)學(xué)模型(稱為神經(jīng)網(wǎng)絡(luò))從給定數(shù)據(jù)中提取信息。

      一個例子是確定所呈現(xiàn)的圖像描繪特定動物的概率。為此,模型需要進(jìn)行“訓(xùn)練”——在本例中,顯示了數(shù)百萬張該動物的圖像,以及數(shù)百萬張不顯示該動物的圖像。所涉及的數(shù)學(xué)植根于矩陣和張量計算。

      幾十年來,此類工作負(fù)載只適合基于 CPU 的大型超級計算機(jī)。然而,早在 2000 年代,GPU 就顯然非常適合此類任務(wù)。

      盡管如此,英偉達(dá)還是押注于深度學(xué)習(xí)市場的大幅擴(kuò)張,并在其 Volta 架構(gòu)中添加了額外的功能,使其在該領(lǐng)域脫穎而出。這些是作為張量核心銷售的 FP16 邏輯單元組,作為一個大型陣列一起運(yùn)行,但功能非常有限。

      事實上,它們的功能非常有限,只能執(zhí)行一個功能:將兩個 FP16 4x4 矩陣相乘,然后將另一個 FP16 或 FP32 4x4 矩陣添加到結(jié)果中(這一過程稱為 GEMM 運(yùn)算)。Nvidia 之前的 GPU 以及競爭對手的 GPU 也能夠執(zhí)行此類計算,但速度遠(yuǎn)不及 Volta。使用該架構(gòu)的唯 一GPU GV100 總共容納了 512 個張量核心,每個核心能夠在每個時鐘周期執(zhí)行 64 個 GEMM。

      根據(jù)數(shù)據(jù)集中矩陣的大小以及所使用的浮點(diǎn)大小,Tesla V100 卡在這些張量計算中理論上可以達(dá)到 125 TFLOPS。Volta 顯然是為小眾市場設(shè)計的,但 GP100 在超級計算機(jī)領(lǐng)域的進(jìn)展有限,而新的 Tesla 型號則迅速被采用。

      PC 愛好者會知道,Nvidia 隨后在圖靈架構(gòu)的通用消費(fèi)產(chǎn)品中添加了張量核心,并開發(fā)了一種名為DLSS(Deep Learning Super Sampling)的升級技術(shù),該技術(shù)使用 GPU 中的核心在計算機(jī)上運(yùn)行神經(jīng)網(wǎng)絡(luò)。放大圖像,糾正幀中的任何偽影。

      在短時間內(nèi),Nvidia 獨(dú)占了 GPU 加速的深度學(xué)習(xí)市場,其數(shù)據(jù)中心部門的收入大幅增長——2017 財年增長率為 145%,2018 財年增長率為 133%,2019 財年增長率為 52%。截至 2019 財年末,HPC、深度學(xué)習(xí)等領(lǐng)域的銷售額總計 29 億美元,這是一個非常積極的結(jié)果。

      但隨后,市場真的爆發(fā)了。該公司 2023 年第四季度的總收入為 221 億美元,同比增長 265%。其中大部分增長來自該公司的人工智能計劃,該計劃創(chuàng)造了 184 億美元的收入。

      然而,只要有錢,競爭就不可避免,盡管 Nvidia 仍然是迄今為止最 大的 GPU 提供商,但其他大型科技公司也沒有坐以待斃。

      2018 年,谷歌開始通過云服務(wù)提供對其內(nèi)部開發(fā)的張量處理芯片的訪問。亞馬遜很快也緊隨其后,推出了專用 CPU AWS Graviton。與此同時,AMD 正在重組其 GPU 部門,形成兩條不同的產(chǎn)品線:一條主要用于游戲 (RDNA),另一條專門用于計算 (CDNA)。

      雖然 RDNA 與其前身明顯不同,但 CDNA 在很大程度上是 GCN 的自然演變,盡管規(guī)模擴(kuò)大到了一個巨大的水平?纯串(dāng)今用于超級計算機(jī)、數(shù)據(jù)服務(wù)器和人工智能機(jī)器的 GPU,一切都非常巨大。

      AMD 的 CDNA 2 驅(qū)動的MI250X擁有 220 個計算單元,提供略低于 48 TFLOPS 的雙精度 FP64 吞吐量和 128 GB 的高帶寬內(nèi)存 (HBM2e),這兩個方面在 HPC 應(yīng)用中都備受追捧。Nvidia 的 GH100 芯片采用Hopper 架構(gòu)和 576 個 Tensor Core,在 AI 矩陣計算中采用低精度 INT8 數(shù)字格式,有可能達(dá)到 4000 TOPS。

      英特爾的Ponte Vecchio GPU 同樣龐大,擁有 1000 億個晶體管,AMD 的 MI300 擁有 460 億個晶體管,包括多個 CPU、圖形和內(nèi)存小芯片。

      然而,它們共有的一件事是它們絕 對不是 GPU:它們不是 GPU。早在英偉達(dá)將該術(shù)語用作營銷工具之前,該縮寫詞就代表圖形處理單元。AMD 的 MI250X 沒有任何渲染輸出單元 (ROP:render output units),甚至 GH100 也僅擁有類似于 GeForce GTX 1050 的Direct3D 性能,使得 GPU 中的“G”變得無關(guān)緊要。

      那么,我們可以稱呼它們什么呢?

      “GPGPU”并不理想,因為它是一個笨拙的短語,指的是在通用計算中使用 GPU,而不是設(shè)備本身。“HPCU”(高性能計算單元)也好不了多少。但也許這并不重要。

      畢竟,“CPU”一詞非常廣泛,涵蓋了各種不同的處理器和用途。

      GPU 接下來要征服什么?

      Nvidia、AMD、Apple、Intel 和其他數(shù)十家公司在 GPU 研發(fā)上投入了數(shù)十億美元,當(dāng)今的圖形處理器不會很快被任何截然不同的產(chǎn)品所取代。

      對于渲染,最新的 API 和使用它們的軟件包(例如游戲引擎和 CAD 應(yīng)用程序)通常與運(yùn)行代碼的硬件無關(guān),因此從理論上講,它們可以適應(yīng)全新的東西。

      然而,GPU 中專門用于圖形的組件相對較少,三角形設(shè)置引擎和 ROP 是最明顯的組件,并且最近版本中的光線追蹤單元也高度專業(yè)化。然而,其余部分本質(zhì)上是大規(guī)模并行 SIMD 芯片,由強(qiáng)大而復(fù)雜的內(nèi)存/緩存系統(tǒng)支持。

      基本設(shè)計與以往一樣好,未來的任何改進(jìn)都與半導(dǎo)體制造技術(shù)的進(jìn)步緊密相關(guān)。換句話說,它們只能通過容納更多邏輯單元、以更高的時鐘速度運(yùn)行或兩者的組合來改進(jìn)。

      當(dāng)然,它們可以合并新功能,使其能夠在更廣泛的場景中發(fā)揮作用。在 GPU 的歷史上,這種情況已經(jīng)發(fā)生過多次,但向統(tǒng)一著色器架構(gòu)的過渡尤為重要。雖然最 好擁有專用硬件來處理張量或光線追蹤計算,但現(xiàn)代 GPU 的核心能夠管理這一切,盡管速度較慢。

      這就是為什么 AMD MI250 和 Nvidia GH100 等產(chǎn)品與臺式電腦的同類產(chǎn)品非常相似,未來用于 HPC 和 AI 的設(shè)計很可能會遵循這一趨勢。那么,如果芯片本身不會發(fā)生重大變化,那么它們的應(yīng)用又如何呢?

      鑒于與 AI 相關(guān)的任何事物本質(zhì)上都是計算的一個分支,因此只要需要執(zhí)行大量 SIMD 計算,就可能會使用 GPU。雖然科學(xué)和工程領(lǐng)域沒有多少領(lǐng)域尚未使用此類處理器,但我們可能會看到 GPU 衍生產(chǎn)品的使用激增。

      目前人們可以購買配備微型芯片的手機(jī),其唯 一功能是加速張量計算。隨著ChatGPT等工具的功能和普及度不斷增強(qiáng),我們將看到更多配備此類硬件的設(shè)備。

      不起眼的 GPU 已經(jīng)從僅僅比 CPU 更快地運(yùn)行游戲的設(shè)備發(fā)展成為通用加速器,為全球的工作站、服務(wù)器和超級計算機(jī)提供動力。

      全球數(shù)百萬人每天都在使用它——不僅在我們的計算機(jī)、電話、電視和流媒體設(shè)備中,而且在我們使用包含語音和圖像識別或提供音樂和視頻推薦的服務(wù)時也是如此。

      GPU 真正的下一步可能是一個未知的領(lǐng)域,但有一點(diǎn)是肯定的,圖形處理單元將在未來幾十年內(nèi)繼續(xù)成為計算和人工智能的主要工具。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。

    即時

    TCL實業(yè)榮獲IFA2024多項大獎,展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費(fèi)品展覽會(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產(chǎn)品設(shè)計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強(qiáng)大影響力。

    新聞

    敢闖技術(shù)無人區(qū) TCL實業(yè)斬獲多項AWE 2024艾普蘭獎

    近日,中國家電及消費(fèi)電子博覽會(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項AWE 2024艾普蘭大獎。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    “純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

    2024年3月12日,由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會在上海盛大舉行。

    研究

    2024全球開發(fā)者先鋒大會即將開幕

    由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。