首頁(yè) > 數(shù)據(jù)存儲(chǔ)頻道 > 數(shù)據(jù).存儲(chǔ)頻道 > 半導(dǎo)體

2024年起，再怎么重視「異構(gòu)芯片」都不為過(guò)

2024年01月30日 10:05:52 北電數(shù)智 來(lái)源：微信公眾號(hào)：錦緞

　　進(jìn)入大模型時(shí)代，全社會(huì)算力需求被推高到了前所未有的程度。2024年1月，微軟聯(lián)合創(chuàng)始人比爾·蓋茨與OpenAI首席執(zhí)行官山姆·奧特曼進(jìn)行了一次對(duì)話，奧特曼在對(duì)話中表示人工智能將引發(fā)人類(lèi)歷史上“最快”的一次技術(shù)革命，人類(lèi)可能還沒(méi)有準(zhǔn)備好以多快的速度適應(yīng)這種變革。奧特曼預(yù)計(jì)，這項(xiàng)技術(shù)將迅速發(fā)展，使系統(tǒng)的計(jì)算能力達(dá)到GPT-4的10萬(wàn)倍或100萬(wàn)倍。

　　簡(jiǎn)單來(lái)說(shuō)，用于人工智能計(jì)算的英偉達(dá)GPU芯片遠(yuǎn)遠(yuǎn)不夠用了。2024年1月，Meta公司CEO扎克伯格宣布到今年年底將需要大約35萬(wàn)塊英偉達(dá)H100，將其他GPU包括在內(nèi)的話，算力總水平相當(dāng)于近60萬(wàn)塊H100，而60萬(wàn)塊H100的采購(gòu)費(fèi)用保守估計(jì)約90億美元。在中國(guó)市場(chǎng)，不僅阿里、騰訊等互聯(lián)網(wǎng)和云公司紛紛囤積GPU，甚至像蓮花味精這樣的上市公司也斥資6.93億采購(gòu)了330臺(tái)英偉達(dá)H800 GPU，更不用說(shuō)各種在建智算中心。

　　而為應(yīng)對(duì)GPU全球供應(yīng)短缺問(wèn)題，以及美國(guó)對(duì)GPU的出口限制問(wèn)題，當(dāng)然更重要的是在AI場(chǎng)景下降低成本，于是市場(chǎng)上涌現(xiàn)了各類(lèi)異構(gòu)AI芯片。由于大模型AI對(duì)于全社會(huì)的重要性，以及各行各業(yè)加快建設(shè)智算中心，也引發(fā)了全社會(huì)學(xué)習(xí)異構(gòu)AI芯片的熱潮，即使是企業(yè)領(lǐng)導(dǎo)干部也需要了解一些異構(gòu)AI芯片的知識(shí)。

　　從基本的計(jì)算機(jī)原理講起

　　在了解相關(guān)CPU、GPU等異構(gòu)AI芯片的知識(shí)之前，讓我們先來(lái)了解一下基本的計(jì)算機(jī)原理。

　　現(xiàn)代計(jì)算機(jī)由處理器、內(nèi)存、I/O(輸入/輸出)設(shè)備三大部分構(gòu)成。在處理器方面，一直以來(lái)都遵循馮·諾依曼架構(gòu)，即處理器也是一個(gè)系統(tǒng)。處理器又叫中央處理單元(Central Processing Unit)，即CPU。程序員通過(guò)輸入設(shè)備發(fā)出指令，經(jīng)過(guò)CPU和內(nèi)存的處理，再將處理結(jié)果發(fā)送到輸出設(shè)備。

　　ISA指令集體系結(jié)構(gòu)是處理器與程序員進(jìn)行交互的方式，指令集是處理器指令的完整集合，體系結(jié)構(gòu)是處理器系統(tǒng)的構(gòu)建方式，特定的處理器需要配備相應(yīng)的指令集，才能與程序員交互。32位處理器是指能夠處理32位指令和數(shù)據(jù)的CPU和計(jì)算機(jī)架構(gòu);64位處理器是指能夠處理64位指令和數(shù)據(jù)的CPU和計(jì)算機(jī)架構(gòu)。

　　RISC即精簡(jiǎn)指令集計(jì)算機(jī)架構(gòu)，CISC即復(fù)雜指令集計(jì)算機(jī)架構(gòu)，英特爾X86是典型的CISC架構(gòu)，而MIPS(適用于嵌入式和消費(fèi)級(jí)設(shè)備)和ARMv8架構(gòu)(適用于移動(dòng)設(shè)備、服務(wù)器、網(wǎng)絡(luò)設(shè)備、物聯(lián)網(wǎng)設(shè)備等)都是典型的RISC架構(gòu)。RISC-V是一個(gè)基于RISC原則的開(kāi)源指令集架構(gòu)，RISC-V指令集可以自由地用于任何目的，允許任何人設(shè)計(jì)、制造和銷(xiāo)售RISC-V芯片和軟件。

　　CISC架構(gòu)適用于通用計(jì)算任務(wù)的計(jì)算機(jī)。既然要完成各種通用計(jì)算任務(wù)，勢(shì)必帶來(lái)指令集的冗余，因此CISC指令集中只有約20%的指令會(huì)經(jīng)常被用到，其余80%的指令則不經(jīng)常被用到，這些不經(jīng)常被用到的特殊指令讓CPU的設(shè)計(jì)變得非常復(fù)雜，也導(dǎo)致CPU的面積越來(lái)越大。而RISC架構(gòu)只包含處理器常用的指令，對(duì)于不常用的操作，通過(guò)執(zhí)行多條常用指令的方式來(lái)達(dá)到同樣的效果。

　　基礎(chǔ)芯片，從CPU到ASIC

　　CPU

　　理解了這些最基本的概念，讓我們來(lái)看一看CPU、GPU、FPGA、ASIC這幾種最基礎(chǔ)的異構(gòu)芯片。CPU通常指英特爾X86，AMD公司也生產(chǎn)X86架構(gòu)CPU。X86架構(gòu)最早出現(xiàn)在上世紀(jì)70年代末的Intel 8086處理器上，后發(fā)展為80286、80386、80486等，逐步演化為現(xiàn)代的X86架構(gòu)。

　　X86架構(gòu)的特點(diǎn)包括屬于CISC架構(gòu)，X86架構(gòu)在個(gè)人計(jì)算機(jī)、服務(wù)器和工作站市場(chǎng)占主流地位，具有很高的兼容性，能夠運(yùn)行大量軟件和操作系統(tǒng)，無(wú)需重新編寫(xiě)或修改就可以移植軟件，X86架構(gòu)引入了64位處理器，能夠處理更大的內(nèi)容和數(shù)據(jù)，而由于X86架構(gòu)支持多核心處理等，適合運(yùn)行虛擬機(jī)，因而也在虛擬化和云計(jì)算中得到了廣泛應(yīng)用。

　　當(dāng)然，在英特爾和AMD之前是大型主機(jī)和小型機(jī)的年代。整個(gè)現(xiàn)代PC產(chǎn)業(yè)主要指X86架構(gòu)的個(gè)人計(jì)算機(jī)、服務(wù)器和工作站以及基于這些硬件的軟硬件生態(tài)。而整個(gè)現(xiàn)代PC產(chǎn)業(yè)和之前的小型機(jī)產(chǎn)業(yè)都是IBM大型主機(jī)技術(shù)降維應(yīng)用的紅利。在1960年代初，IBM投入了50億美元開(kāi)發(fā)大型主機(jī)，這相當(dāng)于今天接近400億美元的投資。1969年，人類(lèi)*位宇航員登陸月球，而在阿波羅登月項(xiàng)目中，IBM大型主機(jī)System360做出了重要貢獻(xiàn)。IBM大型主機(jī)技術(shù)孵化了后來(lái)的小型機(jī)以及整個(gè)現(xiàn)代PC與PC服務(wù)器產(chǎn)業(yè)。

　　與PC和PC服務(wù)器不同，大型主機(jī)和小型機(jī)都是高度集成的系統(tǒng)，而不像X86那樣易用化、模塊化、工業(yè)標(biāo)準(zhǔn)化，從而支撐起龐大的軟件產(chǎn)業(yè)和用戶(hù)群。今天，大型主機(jī)和小型機(jī)仍然在進(jìn)化和使用中，但其用戶(hù)群主要集中在*金融機(jī)構(gòu)或?qū)π阅芎桶踩砸蟪叩钠髽I(yè)或政府機(jī)構(gòu)。大型主機(jī)和小型機(jī)的CPU處理器與X86架構(gòu)CPU處理器不同，目前主要由IBM維護(hù)和推出新的大型主機(jī)與小型機(jī)CPU。

　　在馮·諾依曼架構(gòu)下，CPU也是一個(gè)系統(tǒng)，今天已經(jīng)發(fā)展成為超大規(guī)模集成電路。X86 CPU從單核到雙核以及包含更多核心的CPU，越來(lái)越復(fù)雜、性能也越來(lái)越高。最新的第五代英特爾至強(qiáng)服務(wù)器CPU最高支持64個(gè)核心，AMD已經(jīng)發(fā)布的第四代EPYC霄龍服務(wù)器CPU最高支持96個(gè)核心;而根據(jù)有關(guān)披露，即將發(fā)布的第六代至強(qiáng)服務(wù)器CPU最高將支持288個(gè)核心(能效核)。當(dāng)然，僅從核心數(shù)量并不能判定CPU性能的高低，英特爾與AMD對(duì)于核心的定義也各不相同。但一個(gè)CPU處理器內(nèi)將容納更多的核心，甚至是異構(gòu)芯片，將是CPU的發(fā)展趨勢(shì)。

　　PCIe是一種高速串行計(jì)算機(jī)擴(kuò)展總線標(biāo)準(zhǔn)，是當(dāng)前主流的片間互連高速總線，為主板上的各類(lèi)外設(shè)以及擴(kuò)展卡等提供與CPU之間的高速連接。PCIe由PCI發(fā)展而來(lái)，PCI外設(shè)組件互連總線由英特爾公司在1991年推出，允許在當(dāng)時(shí)的計(jì)算機(jī)內(nèi)安裝多達(dá)10個(gè)遵從PCI標(biāo)準(zhǔn)的擴(kuò)展卡。PCIe擴(kuò)展了PCI的性能，支持邏輯隔離的多個(gè)虛擬設(shè)備。

　　ASIC

　　再回到指令集和指令集架構(gòu)。在現(xiàn)代計(jì)算機(jī)產(chǎn)業(yè)中，根據(jù)指令的復(fù)雜度，處理器分為CPU、Coprocessor協(xié)處理器、GPU(圖形處理器)、FPGA(現(xiàn)場(chǎng)可編程門(mén)陣列)、DSA(特定領(lǐng)域加速器)和ASIC(專(zhuān)用集成電路)等，按從CPU到ASIC的順序，通用性、靈活性和成本不斷降低，面積也越來(lái)越小，但在應(yīng)對(duì)特定計(jì)算場(chǎng)景的性能不斷提升，其中CPU是能夠獨(dú)立運(yùn)行的處理器，其它處理器則需要在CPU的協(xié)助下運(yùn)行。

　　接下來(lái)先看一下ASIC專(zhuān)用集成電路。ASIC與CPU可以說(shuō)是天平的兩端，CPU是一個(gè)硬件與軟件解耦的架構(gòu)，而ASIC是硬件與軟件高度集成的架構(gòu)。ASIC為特定應(yīng)用而設(shè)計(jì)，可以通過(guò)定制化設(shè)計(jì)，以滿足特定應(yīng)用的需求。與通用芯片相比，ASIC具有更高的效率和更低的功耗。

　　由于ASIC是完全不可編程的定制處理引擎，因此理論上也具有最復(fù)雜的“指令”以及最高的性能效率。因?yàn)槊糠NASIC可覆蓋的場(chǎng)景非常小，因此需要數(shù)量眾多的ASIC處理引擎，才能覆蓋各類(lèi)場(chǎng)景。例如，在網(wǎng)絡(luò)交換機(jī)中常采用ASIC芯片，用于交換機(jī)所有端口之間直接并行轉(zhuǎn)發(fā)數(shù)據(jù)，以提高交換機(jī)高速轉(zhuǎn)發(fā)數(shù)據(jù)性能;ASIC也被用于各種汽車(chē)系統(tǒng)，包括ADAS高級(jí)駕駛員輔助系統(tǒng)、發(fā)動(dòng)機(jī)控制單元和信息娛樂(lè)系統(tǒng)等;在消費(fèi)電子設(shè)備、醫(yī)療設(shè)備和工業(yè)控制系統(tǒng)中，也大量應(yīng)用了ASIC芯片。

　　進(jìn)入人工智能時(shí)代，ASIC芯片還被用于NPU、TPU等人工智能算法專(zhuān)用芯片。由于ASIC廠商眾多，不同的ASIC廠商推出各種的編程語(yǔ)言，可謂五花八門(mén)、各不相同，因此ASIC芯片很難培養(yǎng)起龐大的生態(tài)。

　　FPGA理解了ASIC，那么FPGA就是處于CPU與ASIC之間的一種集成電路。FPGA又稱(chēng)現(xiàn)場(chǎng)可編程門(mén)陣列，是ASIC專(zhuān)用集成電路領(lǐng)域中的一種半定制電路，是可重復(fù)編程的設(shè)備。

　　一般來(lái)說(shuō)，F(xiàn)PGA比ASIC的速度慢，實(shí)現(xiàn)同樣功能要比ASIC電路面積大，功耗、成本等都高于ASIC，但是可以快速成品，可以被修改。由于可重復(fù)編程的特點(diǎn)，F(xiàn)PGA的通用性要比ASIC更好。FPGA無(wú)需像ASIC設(shè)計(jì)那樣要經(jīng)過(guò)數(shù)百萬(wàn)美元的流片階段，也不用承擔(dān)流片失敗的風(fēng)險(xiǎn)。因此，F(xiàn)PGA通常用于ASIC芯片的驗(yàn)證。

　　FPGA本質(zhì)上是并行計(jì)算，這種并行處理能力使得 FPGA在高速數(shù)據(jù)處理的應(yīng)用中表現(xiàn)出色，例如數(shù)字信號(hào)處理、圖像處理和加密等。同樣，在人工智能時(shí)代，F(xiàn)PGA也被用于人工智能算法處理。特別是AI算法推陳出新，對(duì)硬件的算力及靈活度都有較高要求，而FPGA正好符合了這樣的需求。

　　DSA

　　接下來(lái)看DSA特定領(lǐng)域加速器。DSA是一種針對(duì)特定領(lǐng)域定制的可編程處理器，能夠用于加速某些應(yīng)用程序，實(shí)現(xiàn)更好的性能和性?xún)r(jià)比。DSA介于FPGA與ASIC之間，ASIC是完全不能編程的軟硬件高度集成的定制芯片，F(xiàn)PGA是面向不同領(lǐng)域的可編程處理器，而DSA則是專(zhuān)門(mén)面向特定領(lǐng)域的可編程處理器。由此可見(jiàn)，DSA的靈活性在FPGA與ASIC之間，成本、功耗等也在二者之間。

　　DSA的好處就是能夠面向特定領(lǐng)域，形成自己的生態(tài)，只要該領(lǐng)域的市場(chǎng)足夠大，比如人工智能計(jì)算加速、圖形渲染加速等。某種程度上，GPU就是基于DSA思路而設(shè)計(jì)開(kāi)發(fā)的產(chǎn)品。隨著摩爾定律的失效，現(xiàn)代計(jì)算機(jī)專(zhuān)家們認(rèn)為DSA能夠提高CPU處理器的效率和速度。2017年，圖靈獎(jiǎng)獲得者John Hennessy與David Patterson聯(lián)合發(fā)表了“計(jì)算機(jī)體系架構(gòu)的黃金年代”文章，指出由于目前通用計(jì)算的性能瓶頸，需要面向不同應(yīng)用場(chǎng)景開(kāi)發(fā)針對(duì)性?xún)?yōu)化的架構(gòu)，他們給出的解決方案就是DSA。

　　DSA既是一種架構(gòu)，也是一種設(shè)計(jì)理念。狹義的DSA基于ASIC實(shí)現(xiàn)，廣義的DSA基于FPGA實(shí)現(xiàn)，或者基于顆粒度更小的Chiplet小芯片集成起來(lái)實(shí)現(xiàn)。所謂Chiplet，即將一個(gè)大芯片裸片(Die)切成小芯片，切下來(lái)的小芯片是已經(jīng)完成了設(shè)計(jì)、制造、測(cè)試流程的成品小裸片，只需要一次封裝加工就可以使用，既可以復(fù)用給其他芯片，也可以將眾多Chiplet集成起來(lái)實(shí)現(xiàn)新的功能。DNN深度神經(jīng)網(wǎng)絡(luò)是DSA應(yīng)用的一個(gè)重要領(lǐng)域。

　　GPU

　　那么接下來(lái)讓我們了解一下當(dāng)下最火爆的GPU。GPU又稱(chēng)圖形處理器，目前分為消費(fèi)級(jí)GPU和數(shù)據(jù)中心級(jí)GPU。消費(fèi)級(jí)GPU主要用于游戲電腦、設(shè)計(jì)、3D顯示等場(chǎng)景，而數(shù)據(jù)中心級(jí)GPU主要用于人工智能場(chǎng)景。CPU與GPU*的區(qū)別之一是CPU是基于串行計(jì)算，而GPU是基于并行計(jì)算，這讓GPU天然就適合基于并行計(jì)算的人工智能算法。GPU作為一種DSA，在設(shè)計(jì)上就是專(zhuān)門(mén)為了需要大規(guī)模并行計(jì)算的圖形處理而生，因此GPU的核心數(shù)通常遠(yuǎn)超CPU，可達(dá)512核甚至更多，但GPU也沒(méi)有CPU上那么多適用通用計(jì)算的組件。典型的GPU廠商有NVIDIA英偉達(dá)、AMD、英特爾等。

　　*現(xiàn)代通用GPU架構(gòu)(即GPGPU)由英偉達(dá)在2006年推出，這就是Tesla。Tesla采用全新的CUDA架構(gòu)，支持C語(yǔ)言對(duì)GPU編程，可用于通用數(shù)據(jù)的并行計(jì)算，標(biāo)志著GPU開(kāi)始從專(zhuān)用圖形處理器轉(zhuǎn)變?yōu)橥ㄓ脭?shù)據(jù)并行處理器。隨著英偉達(dá)公司發(fā)布NVIDIA GPU專(zhuān)用編程庫(kù)CUDA，AMD和Apple等公司推出開(kāi)源的OpenCL(Open Computing Language, 開(kāi)放設(shè)計(jì)語(yǔ)言，是一個(gè)為異構(gòu)平臺(tái)CPU/GPU/DSP/FPGA等等進(jìn)行編程設(shè)計(jì)的框架)，GPU開(kāi)始在通用計(jì)算領(lǐng)域得到廣泛應(yīng)用，如數(shù)值分析、海量數(shù)據(jù)處理、金融分析等等。

　　近年來(lái)，隨著人工智能的大火，GPGPU也在深度學(xué)習(xí)算法等人工智能計(jì)算中廣泛應(yīng)用。數(shù)據(jù)中心級(jí)GPU就是為了人工智能的智算需求而生，英偉達(dá)A100、H100被認(rèn)為是功能最強(qiáng)大的數(shù)據(jù)中心級(jí)GPU，也是各大人工智能公司、云廠商、互聯(lián)網(wǎng)公司等競(jìng)相爭(zhēng)奪的資源。

　　Co-processor協(xié)處理器

　　所謂協(xié)處理器，顧名思義即協(xié)助CPU中央處理器完成各種計(jì)算任務(wù)的處理器，特別是協(xié)助中央處理器完成無(wú)法執(zhí)行或執(zhí)行效率、效果低下的處理任務(wù)而開(kāi)發(fā)和應(yīng)用的處理器，例如數(shù)學(xué)協(xié)處理器、圖形協(xié)處理器、音頻協(xié)處理器、網(wǎng)絡(luò)協(xié)處理器或手機(jī)上的運(yùn)行協(xié)處理器等。協(xié)處理器通常被集成在計(jì)算機(jī)的主板或者CPU內(nèi)部，也可以作為外部設(shè)備連接到主板上。例如，早期的圖形協(xié)處理器Intel 82786，而今天的英特爾GPU也開(kāi)始具備更強(qiáng)的能力，以應(yīng)對(duì)英偉達(dá)對(duì)于GPU市場(chǎng)的壟斷。(作者：北電數(shù)智(公眾號(hào)同名)))

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信