以“智聯(lián)世界 生成未來”為主題的2023世界人工智能大會,即將在本周(7月6日)拉開帷幕。
從今年的大會主題不難看出,生成式人工智能(AIGC),正是當下人工智能學(xué)術(shù)界、產(chǎn)業(yè)界的最大熱點,可以想見,大會期間,各家廠商的自研大模型將上演一場名副其實的“百模大戰(zhàn)”。
回顧AIGC走紅的過程,2018年谷歌發(fā)布Transformer模型無疑是一個關(guān)鍵里程碑。由于舍棄了NLP領(lǐng)域自回歸計算范式的LSTM/GRU傳統(tǒng)算法,從CV領(lǐng)域借用已較為成熟的注意力機制,以位置信息取代時序信息,Transformer得以充分利用GPU等SIMD架構(gòu)處理器硬件的并行處理能力,實現(xiàn)了令人驚艷的工程效果,并使大型語言模型(LLM)成為其后迅速走向主流的研究路徑,工程實踐與能力涌現(xiàn)的良性循環(huán),最終為ChatGPT、Midjourney等產(chǎn)品的現(xiàn)象級傳播奠定了基礎(chǔ)。
當下這場無人甘于錯失的AI淘金熱中,大算力AI芯片,順理成章成為衡量各家AIGC業(yè)務(wù)能力的最重要標尺之一,得到了空前關(guān)注。不過在公眾輿論場中,這一極具解析價值的議題似乎被簡單粗暴地等同于“囤積了多少塊英偉達A100/H100”。
有鑒于此,集微網(wǎng)特意對國內(nèi)外開發(fā)大算力AI芯片的科技公司概況進行了整理,以期為讀者提供一幅AI“大芯片”全景圖譜。
01 通用還是定制,AI芯片體系結(jié)構(gòu)“天問”
1991年,當黃仁勛還未創(chuàng)立英偉達之時,深度學(xué)習(xí)“三巨頭”之一的楊立昆(Yann LeCun),就已經(jīng)在貝爾實驗室開發(fā)了卷積神經(jīng)網(wǎng)絡(luò)專用訓(xùn)練芯片ANNA,初步驗證了為AI訓(xùn)練、推理任務(wù)開發(fā)的領(lǐng)域?qū)S眉軜?gòu)在算力、能效上的優(yōu)越性。
2015年前后,在AlexNet、AlphaGO的震撼下,大批企業(yè)涌入AI芯片市場,掀起了這一細分賽道的第一波創(chuàng)投熱潮。
作為AI芯片中最為高端的品類之一,面向數(shù)據(jù)中心市場的AI大算力芯片也吸引了眾多新老玩家。集微網(wǎng)所梳理的主要廠商,彼時普遍押注于兩大技術(shù)路線,即英偉達為代表的GPGPU路線,和谷歌TPU為代表的定制ASIC路線。
數(shù)年后的今天,英偉達GPGPU無疑依然占據(jù)著市場主導(dǎo)地位。
根據(jù)集微咨詢(JW Insights)統(tǒng)計,AI類芯片在2022年352億美元的市場規(guī)模中,GPGPU占比接近60%,TrendForce則預(yù)測,2023年AI服務(wù)器(包含搭載GPU、FPGA、ASIC定制芯片)出貨量近120萬臺,其中英偉達GPU市占率約60-70%,云計算巨頭自研AI芯片占比約20%。
在英偉達高端產(chǎn)品一卡難求的同時,不少曾經(jīng)的AI芯片獨角獸則已悄然退場,連續(xù)收購Habana、Nervana、Movidius等AI芯片明星創(chuàng)企的英特爾,近期也傳出加速計算產(chǎn)品線被大幅削減的消息。
定制大算力AI芯片的“骨感”現(xiàn)實,一方面源于AI模型、算法、用例本身極為快速的迭代,使針對特定模型的硬件優(yōu)化往往面臨問世即過時的可能,通用芯片與軟件優(yōu)化的組合有其內(nèi)在合理性,并且谷歌及一眾初創(chuàng)企業(yè)實踐的ASIC路線依靠乘加器脈動陣列來訓(xùn)練神經(jīng)網(wǎng)絡(luò),往往面臨流水線頭尾開銷大,計算資源利用率不足的問題。
更重要的是,對需求端的AI開發(fā)者而言,英偉達不僅意味著一個加速卡硬件品牌,更是完整AI開發(fā)平臺的代名詞。從楊立昆、辛頓(Geoffrey Hinton)等人的開創(chuàng)性工作開始,英偉達CUDA并行計算框架,已經(jīng)成為事實上的AI學(xué)術(shù)界、工業(yè)界通用標準,在AI開發(fā)者社區(qū)形成了明顯的網(wǎng)絡(luò)效應(yīng),恰如英特爾在CPU領(lǐng)域的統(tǒng)治力來源于IBM PC機所培育的終端用戶生態(tài)。
當然,ASIC路線暴露出的不足,也刺激了進一步的技術(shù)、架構(gòu)探索,自FPGA起源的可重構(gòu)計算,近年來又向由數(shù)據(jù)流驅(qū)動的空間計算(Spatial computing)演進,涌現(xiàn)出Tenstorrent、特斯拉、Cerebras等新秀。
AIGC空前熱潮下,英偉達之外的新老玩家在大算力AI芯片領(lǐng)域技術(shù)與產(chǎn)品布局正在加速。
以全球三大云計算廠商為例,亞馬遜近期主動對外表態(tài),對AMD為數(shù)據(jù)中心AI負載開發(fā)的新一代MI300 APU表示了明確興趣;全球第二大廠微軟,也在近期被曝出代號Athena的自研AI芯片項目,據(jù)稱已有部分樣品供微軟和OpenAI員工試用,第三朵“大云”谷歌,剛剛公開了TPUv4號稱“登月工程”的Pods架構(gòu)設(shè)計。
定制大算力AI芯片,緣何“風(fēng)云再起”?
02 舊瓶新酒,定制AI芯片擁抱Chiplet
要理解供給端的技術(shù)與產(chǎn)品潮流變化,首先應(yīng)當在需求端尋找線索。
生成式人工智能的基本特征之一,無疑是對計算、存儲、IO帶寬能力堪稱永無止境的需求。
為了命中市場需求新的“甜蜜點”,各大廠商也展開了堪稱八仙過海的多元探索,而這樣的探索,顯然不會是上一輪AI芯片競爭的簡單重復(fù)。
在英偉達、谷歌等廠商致力于挖掘集群Pod\Rack層面系統(tǒng)工程潛力的同時,更多AI芯片開發(fā)者在性能“軍備競賽”中,將目光投向了Chiplet(芯粒)工程方法,將之作為構(gòu)建大規(guī)模、可擴展、高能效異構(gòu)算力集群的基石,為了滿足AI云端訓(xùn)練、推理任務(wù)對計算性能和內(nèi)存帶寬的需求,CPU/GPU/FPGA/ASIC通過Chiplet實現(xiàn)異構(gòu)集成的實踐已不斷涌現(xiàn)。
如老牌巨頭AMD推出的MI300系列APU,集成晶體管數(shù)量近1500億顆,通過三種Chiplet芯粒(Base layer、GPU GCDS、CPU CCDs)與不同規(guī)格HBM靈活搭配,可以形成豐富的產(chǎn)品組合,覆蓋客戶差異化需求,研發(fā)成本和量產(chǎn)成本都極具優(yōu)勢。
再如近期被諸多巨頭追捧的AI大芯片初創(chuàng)企業(yè)Tenstorrent,就明確以Chiplet作為產(chǎn)品迭代方向,并已經(jīng)與LG電子達成具體產(chǎn)品合作意向。
大體而言,業(yè)界當前對Chiplet的技術(shù)與商業(yè)價值已形成廣泛共識。
在計算性能上,芯粒的立體堆疊能夠突破光刻掩膜尺寸極限,大幅提高集成晶體管密度并降低數(shù)據(jù)傳輸資源開銷,不同體系結(jié)構(gòu)的計算核可靈活組合,形成高內(nèi)聚、低耦合、可配置、可伸縮的“超級芯片”,適應(yīng)各類AIGC算法優(yōu)化需求,實現(xiàn)從System on Chip到System of Chips的轉(zhuǎn)變,在算力集群的系統(tǒng)層面繼續(xù)推進摩爾定律。而在商業(yè)上,Chiplet更有望大幅減少開發(fā)量產(chǎn)成本及周期,進一步降低AI算力硬件開發(fā)、制造門檻。
此外,如果說海外用戶還可以坐觀各家差異化方案成敗,那么在中國這一全球最二大AI支出市場,大算力AI芯片“另辟蹊徑”,更可以說是“Must be”的緊迫要求。未來海外高端GPU/APU即便還可繼續(xù)“特供”,在互連帶寬等關(guān)鍵參數(shù)限制下,也將實質(zhì)性失去處理更大規(guī)模模型的能力。
從產(chǎn)業(yè)視角看,Die-to-Die(D2D)互連,則堪稱Chiplet走向商業(yè)應(yīng)用的最關(guān)鍵環(huán)節(jié),同樣已成為Chiplet產(chǎn)業(yè)鏈創(chuàng)新創(chuàng)業(yè)的熱點。
Tenstorrent公司CEO、芯片設(shè)計大師Jim Keller就曾談到,當前Chiplet加速成熟,一個重要因素就是封裝技術(shù)已能夠提供較為理想的D2D信號鏈路,滿足芯;ミB的帶寬、功耗需求。
在這一產(chǎn)業(yè)環(huán)節(jié),除了傳統(tǒng)互連IP供應(yīng)商延申拓展其布局,目前國內(nèi)外也已涌現(xiàn)出Blue Cheetah、奇異摩爾(Kiwimoore)、Eliyan等新銳廠商,并呈現(xiàn)出十分旺盛的創(chuàng)新活力。
國內(nèi)代表性廠商奇異摩爾成立于2021年初,是全球首批基于 Chiplet 架構(gòu),提供“通用互聯(lián)芯粒產(chǎn)品及系統(tǒng)級解決方案”的公司。核心產(chǎn)品涵蓋高速互聯(lián)IO Die、高性能互聯(lián)底座Base Die兩類芯粒,以及一系列 Die2Die IP 和 Chiplet 軟件設(shè)計平臺等全鏈路軟硬件產(chǎn)品。公司面向由 AIGC 驅(qū)動的數(shù)據(jù)中心、自動駕駛、個人計算平臺等高性能計算市場,通過提供以互聯(lián)芯粒為核心的 chiplet 系統(tǒng)級解決方案,助力客戶更快、更容易的做出復(fù)雜高算力芯片。
Blue Cheetah,則是海外目前風(fēng)頭最盛的D2D互連技術(shù)供應(yīng)商之一,在BOW和UCIe聯(lián)盟均十分活躍,其BlueLynx D2D互連IP已經(jīng)在多代工藝節(jié)點完成硅驗證,并已經(jīng)被DreamBig、Apex等企業(yè)應(yīng)用于其數(shù)據(jù)中心網(wǎng)絡(luò)芯片產(chǎn)品。
某種意義上看,這些企業(yè)在新賽道上的競爭,也將會決定其所在區(qū)域Chiplet產(chǎn)業(yè)生態(tài)的發(fā)展水平。
03 Chiplet,大規(guī)模異構(gòu)算力集群基石
新一代人工智能技術(shù)中,無論是NLP領(lǐng)域的大模型(LLM\DM),還是搜廣推領(lǐng)域興起的DLRM模型,各種更新?lián)Q代的AI工作負載已經(jīng)明顯超出單卡存、算極限,因此在單個芯片規(guī)格不斷進步的同時,也勢必需要由大量異構(gòu)計算核心組合成算力集群進行處理,以高效完成AI模型訓(xùn)練、推理、迭代等各類生產(chǎn)流程。
AIGC對硬件算力越來越高的要求,使用戶日益關(guān)注作為一個整體的計算集群能效、費效表現(xiàn),由大量異構(gòu)計算核心組成的算力集群,無疑已成為AIGC產(chǎn)業(yè)的重要競爭維度。
正如上文所述,AIGC模型參數(shù)、數(shù)據(jù)集的超大規(guī)模,使得批處理過程中數(shù)據(jù)吞吐量極高,為了提升訪存帶寬,片內(nèi)封裝HBM幾乎成為所有AI大算力芯片的必選項,而Tenstorrent等新銳企業(yè)的空間計算范式創(chuàng)新,同樣內(nèi)嵌著異構(gòu)眾核的先進封裝需求,正因如此,Chiplet已被廣泛視為構(gòu)建大規(guī)模、可擴展、高能效異構(gòu)算力集群的基石。
有鑒于此,集微網(wǎng)也聯(lián)系到奇異摩爾這一本土Chiplet產(chǎn)業(yè)代表廠商,邀請其分享了來自行業(yè)前沿的觀察。
奇異摩爾聯(lián)合創(chuàng)始人兼產(chǎn)品及解決方案副總裁?|表示,當前超大規(guī)模計算集群的發(fā)展有著三大驅(qū)動因素:
第一,從單芯片本身的維度來看,對其性能依然有非常高的要求,各家廠商無不在繼續(xù)致力于提升單片性能規(guī)格,不過傳統(tǒng)的SoC方式已經(jīng)逼近極限,怎樣做一顆更大的芯片就成為挑戰(zhàn);
第二,從AI角度著眼,不同類型的AI應(yīng)用其實對于算子/算力的要求千差萬別,既要兼顧在不同情況下的通用性,也要滿足適度的專用性,例如對于Transformer的優(yōu)化;
第三,數(shù)據(jù)驅(qū)動的生成式人工智能,在運用中涉及大量預(yù)處理/前處理工作,已不適合純用GPU處理,需要用到異構(gòu)計算架構(gòu)去處理。
算力集群的持續(xù)擴展和異構(gòu)集成,也帶來多重技術(shù)挑戰(zhàn),互連是其中尤為關(guān)鍵的瓶頸,在祝俊東看來,超大規(guī)模異構(gòu)如果在板卡級或者集群級實現(xiàn),互連帶寬勢必會成為瓶頸,尤其是東西向帶寬隨著節(jié)點規(guī)模擴大,在總帶寬難以提升的情況下,更成為瓶頸,這也是業(yè)界推崇在芯片級異構(gòu)Chiplet的原因所在,片內(nèi)異構(gòu)集成在帶寬、延時、功耗上能夠帶來更為優(yōu)越的表現(xiàn)。
算力投資熱潮下,Chiplet產(chǎn)業(yè)也已經(jīng)步入加速普及階段,根據(jù)研究機構(gòu)Yole預(yù)測,狹義口徑的Chiplet(2.5D/3D封裝芯片)產(chǎn)品,正在迎來出貨量與市場規(guī)模的躍遷,2023、2024、2024年產(chǎn)品產(chǎn)值預(yù)計將分別達到70億、480億、990億美元。
如此驚人的跳躍式增長,既受益于需求端AI/HPC大芯片等熱門應(yīng)用的“拉力”,也有供應(yīng)端先進制程技術(shù)演進帶來的“壓力”。
半導(dǎo)體行業(yè)權(quán)威性的IRDS 2022版光刻技術(shù)路線圖中就明確警告,如果高NA EUV在2025年成功實用化,將導(dǎo)致當前的EUV光刻機最大單次曝光面積進一步縮小一半,掩模尺寸必須更小,因此當高NA設(shè)備被引入時,monolithic芯片的“解耦”(disaggregation)幾乎不可避免,Chiplet勢必將從可選項向必選項轉(zhuǎn)變。
綜上所述,Chiplet在數(shù)據(jù)中心市場的加速滲透普及已經(jīng)是一個不可逆扭轉(zhuǎn)的趨勢,各個巨頭的中高端產(chǎn)品里已經(jīng)普遍使用Chiplet工程方法。
04 跨越鴻溝,Chiplet產(chǎn)業(yè)生態(tài)嬗變
如同二十年前的SoC技術(shù),“小荷才露尖尖角”的Chiplet,產(chǎn)業(yè)鏈仍然處于發(fā)育的早期階段,目前在高端處理器領(lǐng)域的代表性產(chǎn)品,依然多為芯片與系統(tǒng)大廠內(nèi)部自研。
對于當下想要試水Chiplet的其他芯片開發(fā)團隊,依然面臨著多方面的技術(shù)與商業(yè)挑戰(zhàn):
第一,在前端設(shè)計上原有SoC/ASIC方法學(xué)及EDA工具鏈面臨重構(gòu),以適應(yīng)基于D2D互連的Chiplet架構(gòu);
第二,Chiplet產(chǎn)品總體性能并不簡單等同于芯粒的堆疊規(guī)模,需要一套有效的D2D互聯(lián)架構(gòu)及算法以實現(xiàn)高帶寬、低延時、低功耗,解決物理分離LLC的NUMA(非統(tǒng)一內(nèi)存訪問),更進一步看,D2D互聯(lián)還需要形成行業(yè)標準,以實現(xiàn)不同廠商芯粒的互連互通;
第三,異構(gòu)乃至異質(zhì)芯粒封裝引入新的約束,后端設(shè)計面臨熱、力、電磁仿真及可測試性的全新挑戰(zhàn);
第四,目前能夠提供可靠良率的成熟Chiplet工藝方案依然有限,臺積電CoWoS/InFO近乎居于壟斷地位,其他擁有先進封裝工藝能力的廠商,往往在PDK工藝庫與EDA設(shè)計工具的結(jié)合上依然滯后,導(dǎo)致Chiplet芯片設(shè)計與制造能力無法有效對接。
對此,?|也向集微網(wǎng)感言,傳統(tǒng)芯片公司對于封裝環(huán)節(jié)工藝細節(jié)普遍缺乏掌握,封裝廠則需要客戶提供其對先進封裝工藝的需求,同樣不了解相關(guān)技術(shù)如何在產(chǎn)品中發(fā)揮作用,因此產(chǎn)業(yè)環(huán)節(jié)對接還有很大的鴻溝,確實是一個有待解決的挑戰(zhàn)。
基于上述原因,對國內(nèi)外大部分公司而言,想要盡早布局新興賽道,就必須借助于第三方廠商的服務(wù),而與SoC產(chǎn)業(yè)鏈上的IP/設(shè)計服務(wù)廠商相比,Chiplet服務(wù)商覆蓋的產(chǎn)業(yè)鏈條不但更長,其在整合產(chǎn)業(yè)生態(tài)上的作用也更為關(guān)鍵。
以在北美市場極為活躍的Palo Alto Electron為例,該公司可為客戶完成基板和系統(tǒng)設(shè)計、CHIPLET設(shè)計與驗證、原型和PDK開發(fā),結(jié)合生態(tài)合作伙伴的芯粒庫和代工服務(wù),形成了工程服務(wù)的“閉環(huán)”。
國內(nèi)企業(yè)中,奇異摩爾也是這一新興產(chǎn)業(yè)環(huán)節(jié)的代表,除了完善的芯粒庫,該公司還可提供軟件設(shè)計平臺,可快速完成Chiplet 系統(tǒng)設(shè)計、驗證、仿真等工作。
國內(nèi)Chiplet產(chǎn)業(yè)發(fā)展同樣堪稱有聲有色,在產(chǎn)品層面,華為公司早在2019年前后就已經(jīng)完成五大基礎(chǔ)Chiplet設(shè)計,包括CPU-Compute Die、AI-ComputeDie、Compute-lO Die、NIC-IO Die和Wireless-ACC Die,基礎(chǔ)Chiplet之間共享公共聯(lián)接,并遵循共同物理設(shè)計規(guī)則,可基于不同的Chiplet搭配組合出服務(wù)器CPU、AI加速期、Smart-NIC等多種數(shù)據(jù)中心大芯片產(chǎn)品,而在供應(yīng)鏈上,設(shè)計服務(wù)、代工制造環(huán)節(jié)本土企業(yè)也正在加速崛起,以奇異摩爾為例,該公司目前除了完善的芯粒庫、軟件設(shè)計平臺外,還與本土IC供應(yīng)鏈巨頭潤欣科技達成合作,可望進一步形成turnkey式的完整解決方案交付能力。
從英特爾、AMD到PAe、奇異摩爾,大小公司、新老勢力的活躍身影,共同勾勒出Chiplet當下在大算力AI芯片領(lǐng)域掀起的變革浪潮,令人猶如置身千禧年之初SoC大興的年代,對于半導(dǎo)體產(chǎn)業(yè)人而言,能夠在一場重大“范式轉(zhuǎn)移”的現(xiàn)場親眼見證,無疑是一種幸運。
正如SoC大潮成就了以高通為代表的眾多Fabless企業(yè),深刻改變了全球半導(dǎo)體產(chǎn)業(yè)生態(tài),Chiplet的興起,同樣已經(jīng)預(yù)示了大算力芯片市場的重大機遇。
憑借著毫不遜色于海外廠商的本土Chiplet產(chǎn)業(yè)生態(tài),在這一寶貴的機遇窗口,大算力AI芯片產(chǎn)業(yè)鏈的自主創(chuàng)新將會涌現(xiàn)更多、更大的突破,也必將更有力支撐我國生成式人工智能全產(chǎn)業(yè)鏈發(fā)展。有理由期待,即將開幕的世界人工智能大會,將為我們帶來一系列驚喜。
【來源:集微網(wǎng)】
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。
2024年的Adobe MAX 2024發(fā)布會上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標識解析專題論壇在沈陽成功舉辦。