GTC2024大會(huì)上,老黃祭出世界最強(qiáng)GPU——Blackwell B200,整整封裝了超2080億個(gè)晶體管。
比起上一代H100(800億),B200晶體管數(shù)是其2倍多,而且訓(xùn)AI性能直接飆升5倍,運(yùn)行速度提升30倍。
若是,將千億級(jí)別晶體管數(shù)擴(kuò)展到1萬(wàn)億,對(duì)AI界意味著什么?
今天,IEEE的頭版刊登了臺(tái)積電董事長(zhǎng)和首席科學(xué)家撰寫(xiě)的文章——「我們?nèi)绾螌?shí)現(xiàn)1萬(wàn)億個(gè)晶體管GPU」?
這篇千字長(zhǎng)文,主打就是為了讓AI界人們意識(shí)到,半導(dǎo)體技術(shù)的突破給AI技術(shù)帶來(lái)的貢獻(xiàn)。
從1997年戰(zhàn)勝國(guó)際象棋人類冠軍的「深藍(lán)」,到2023年爆火的ChatGPT,25年來(lái)AI已經(jīng)從實(shí)驗(yàn)室中的研究項(xiàng)目,被塞入每個(gè)人的手機(jī)。
這一切都要?dú)w功于,3個(gè)層面的重大突破:ML算法創(chuàng)新、海量數(shù)據(jù),以及半導(dǎo)體工藝的進(jìn)步。
臺(tái)積電預(yù)測(cè),在未來(lái)10年,GPU集成的晶體管數(shù)將達(dá)到1萬(wàn)億!
與此同時(shí),未來(lái)15年,每瓦GPU性能將提高1000倍。
半導(dǎo)體工藝不斷演變,才誕生了ChatGPT
從軟件和算法到架構(gòu)、電路設(shè)計(jì)乃至器件技術(shù),每一層系統(tǒng)都極大地提升了AI的性能。
但是基礎(chǔ)的晶體管器件技術(shù)的不斷提升,才讓這一切成為可能:
IBM訓(xùn)練「深藍(lán)」使用的芯片工藝是0.6微米和0.35微米。
Ilya團(tuán)隊(duì)訓(xùn)練贏得ImageNet大賽的深度神經(jīng)網(wǎng)絡(luò)采用的40納米工藝。
2016年,DeepMind訓(xùn)出的AlphaGo戰(zhàn)勝了李世石,使用了28納米工藝。
而訓(xùn)練ChatGPT的芯片基于的是5納米工藝,而最新版的ChatGPT推理服務(wù)器的芯片工藝已經(jīng)達(dá)到了4納米。
可以看出,從1997年到現(xiàn)在,半導(dǎo)體工藝節(jié)點(diǎn)取得的進(jìn)步,推動(dòng)了如今AI飛躍式的發(fā)展。
如果AI革命想要繼續(xù)保持當(dāng)前的發(fā)展速度,那么它更需要半導(dǎo)體行業(yè)的創(chuàng)新和支持。
如果仔細(xì)研究AI對(duì)于算力的要求會(huì)發(fā)現(xiàn),最近5年,AI訓(xùn)練所需的計(jì)算和內(nèi)存訪問(wèn)量增長(zhǎng)了好幾個(gè)數(shù)量級(jí)。
以GPT-3為例,它的訓(xùn)練需要的計(jì)算量相當(dāng)于每秒進(jìn)行超過(guò)5千萬(wàn)億億次的運(yùn)算,持續(xù)整整一天(相當(dāng)于5000千兆浮點(diǎn)運(yùn)算天數(shù)),同時(shí)需要3TB(3萬(wàn)億字節(jié))的內(nèi)存容量。
隨著新一代生成式AI應(yīng)用的出現(xiàn),對(duì)計(jì)算能力和內(nèi)存訪問(wèn)的需求仍在迅速增加。
這就帶來(lái)了一個(gè)迫在眉睫的問(wèn)題:半導(dǎo)體技術(shù)如何才能跟上這種發(fā)展的速度?
從集成芯片到集成芯片組
自從集成電路誕生以來(lái),半導(dǎo)體行業(yè)一直在想辦法把芯片造得更小,這樣才能在一個(gè)指甲蓋大小的芯片中集成更多的晶體管。
如今,晶體管的集成工藝和封裝的技術(shù)已經(jīng)邁向更高層次——行業(yè)已經(jīng)從2D空間的縮放,向3D系統(tǒng)集成邁進(jìn)。
芯片行業(yè)正在將多個(gè)芯片整合到一個(gè)集成度更高、高度互連的系統(tǒng)中,這標(biāo)志著半導(dǎo)體集成技術(shù)的巨大飛躍。
AI的時(shí)代,芯片制造的一個(gè)瓶頸在于,光刻芯片制造工具只能制造面積不超過(guò)大約800平方毫米的芯片,這就是所謂的光刻極限。
但現(xiàn)在,臺(tái)積電可以通過(guò)將多個(gè)芯片連接在一塊內(nèi)嵌互連線路的硅片上來(lái)突破這一極限,實(shí)現(xiàn)在單一芯片上無(wú)法達(dá)到的大規(guī)模集成。
舉個(gè)栗子,臺(tái)積電的CoWoS技術(shù)能夠?qū)⒍噙_(dá)6個(gè)光刻極限范圍內(nèi)的芯片,以及十二個(gè)高帶寬內(nèi)存(HBM)芯片封裝在一起。
高帶寬內(nèi)存(HBM)是AI領(lǐng)域越來(lái)越依賴的一項(xiàng)關(guān)鍵半導(dǎo)體技術(shù),它通過(guò)將芯片垂直堆疊的方式來(lái)集成系統(tǒng),這一技術(shù)在臺(tái)積電被稱為系統(tǒng)集成芯片(SoIC)。
HBM由多層DRAM芯片垂直堆疊而成,他們都位于一個(gè)控制邏輯IC之上。它利用硅穿孔(TSV)這種垂直連接方式讓信號(hào)穿過(guò)每層芯片,并通過(guò)焊球來(lái)連接各個(gè)內(nèi)存芯片。
目前,最先進(jìn)的GPU都非常依賴HBM技術(shù)。
未來(lái),3D SoIC技術(shù)將提供一種新的解決方案,與現(xiàn)有的HBM技術(shù)相比,它能在堆疊芯片之間實(shí)現(xiàn)更密集的垂直連接。
通過(guò)最新的混合鍵合技術(shù),可以將12層芯片堆疊起來(lái),從而開(kāi)發(fā)出全新的HBM結(jié)構(gòu),這種銅對(duì)銅(copper-to-copper)的連接方式比傳統(tǒng)的焊球連接更為緊密。
這種內(nèi)存系統(tǒng)在一個(gè)更大的基礎(chǔ)邏輯芯片上以低溫鍵合,整體厚度僅為600微米。
隨著由眾多芯片組成的高性能計(jì)算系統(tǒng)運(yùn)行大型AI模型,高速有線通信可能成為計(jì)算速度的下一個(gè)瓶頸。
目前,數(shù)據(jù)中心已經(jīng)開(kāi)始使用光互連技術(shù)連接服務(wù)器架。
不久的將來(lái),臺(tái)積電將需要基于硅光子技術(shù)的光接口,把GPU和CPU封裝到一起。
這樣才能實(shí)現(xiàn)GPU之間的光通信,提高帶寬的能源和面積效率,從而讓數(shù)百臺(tái)服務(wù)器能夠像一個(gè)擁有統(tǒng)一內(nèi)存的巨型GPU那樣的方式高效運(yùn)行。
所以,由于AI應(yīng)用的推動(dòng),硅光子技術(shù)將成為半導(dǎo)體行業(yè)中最為關(guān)鍵的技術(shù)之一。
邁向一萬(wàn)億晶體管GPU
當(dāng)前用于AI訓(xùn)練的GPU芯片,約有1000億的晶體管,已經(jīng)達(dá)到了光刻機(jī)處理的極限。
若想繼續(xù)增加晶體管數(shù)量,就需要采用多芯片,并通過(guò)2.5D、3D技術(shù)進(jìn)行集成,來(lái)完成計(jì)算任務(wù)。
目前,已有的CoWoS或SoIC等先進(jìn)封裝技術(shù),可以在GPU中集成更多晶體管。
臺(tái)積電預(yù)計(jì),在未來(lái)十年內(nèi),采用多芯片封裝技術(shù)的單個(gè)GPU,將擁有超1萬(wàn)億晶體管。
與此同時(shí),還需要將這些芯片通過(guò)3D堆疊技術(shù)連接起來(lái)。
但幸運(yùn)的是,半導(dǎo)體行業(yè)已經(jīng)能夠大幅度縮小垂直連接的間距,從而增加了連接密度。
而且,未來(lái)在提高連接密度方面還有巨大的潛力。臺(tái)積電認(rèn)為,連接密度增長(zhǎng)一個(gè)數(shù)量級(jí),甚至更多是完全有可能的。
3D芯片中的垂直連接密度的增長(zhǎng)速度與GPU中的晶體管數(shù)量大致相同
GPU的能效性能趨勢(shì)
那么,這些領(lǐng)先的硬件技術(shù),是如何提升系統(tǒng)整體性能的呢?
通過(guò)觀察服務(wù)器GPU的發(fā)展,可以明顯看到一個(gè)趨勢(shì):所謂的能效性能(EEP)——一個(gè)反映系統(tǒng)能效和運(yùn)行速度的綜合指標(biāo)——正穩(wěn)步提升。
過(guò)去15年中,半導(dǎo)體行業(yè)已經(jīng)實(shí)現(xiàn)了,每?jī)赡陮EP提高約3倍的壯舉。
而在臺(tái)積電看來(lái),這種增長(zhǎng)趨勢(shì)將會(huì)延續(xù),將會(huì)得益于眾多方面的創(chuàng)新,包括新型材料的應(yīng)用、設(shè)備與集成技術(shù)的進(jìn)步、EUV技術(shù)的突破、電路設(shè)計(jì)的優(yōu)化、系統(tǒng)架構(gòu)的革新,以及對(duì)所有這些技術(shù)要素進(jìn)行的綜合優(yōu)化等因素的共同推動(dòng)。
此外,系統(tǒng)技術(shù)協(xié)同優(yōu)化(STCO)這一概念將變得日益重要。
在STCO中,GPU內(nèi)不同的功能模塊將被分配到專屬的小芯片(chiplets)上,每個(gè)模塊都采用最適合其性能和成本效益的技術(shù)進(jìn)行打造。
這種針對(duì)每個(gè)部件的最優(yōu)化選擇,將對(duì)提高整體性能和降低成本發(fā)揮關(guān)鍵作用。
得益于半導(dǎo)體技術(shù)的進(jìn)步,EEP指標(biāo)有望每?jī)赡晏嵘?倍
3D集成電路的革命性時(shí)刻
1978年,加州理工學(xué)院的Carver Mead教授和Xerox PARC的Lynn Conway,共同開(kāi)發(fā)了一種革命性的計(jì)算機(jī)輔助設(shè)計(jì)方法。
他們制定了一系列設(shè)計(jì)規(guī)則,簡(jiǎn)化了芯片設(shè)計(jì)的過(guò)程,讓工程師即使不深諳過(guò)程技術(shù),也能輕松設(shè)計(jì)出復(fù)雜的大規(guī)模集成電路。
而在3D芯片設(shè)計(jì)領(lǐng)域,也面臨著類似的需求。
- 設(shè)計(jì)師不僅要精通芯片和系統(tǒng)架構(gòu)設(shè)計(jì),還需要掌握硬件與軟件優(yōu)化的知識(shí)。
- 而制造商則需要深入了解芯片技術(shù)、3D集成電路技術(shù)和先進(jìn)封裝技術(shù)。
就像1978年那樣,我們需要一種共通語(yǔ)言,讓電子設(shè)計(jì)工具能夠理解這些技術(shù)。
如今,一種全新的硬件描述語(yǔ)言——3Dblox,已經(jīng)得到了當(dāng)下多數(shù)技術(shù)和電子設(shè)計(jì)自動(dòng)化公司的支持。
它賦予了設(shè)計(jì)師自由設(shè)計(jì)3D集成電路系統(tǒng)的能力,且無(wú)需擔(dān)心底層技術(shù)的限制。
走出隧道,迎接未來(lái)
在人工智能的大潮中,半導(dǎo)體技術(shù)成為了推動(dòng)AI和應(yīng)用發(fā)展的關(guān)鍵力量。
新一代GPU已經(jīng)打破了傳統(tǒng)的尺寸和形狀限制。半導(dǎo)體技術(shù)的發(fā)展,也不再局限于僅在二維平面上縮小晶體管。
一個(gè)AI系統(tǒng)可以集成盡可能多的節(jié)能晶體管,擁有針對(duì)特定計(jì)算任務(wù)優(yōu)化的高效系統(tǒng)架構(gòu),以及軟硬件之間的優(yōu)化關(guān)系。
過(guò)去50年,半導(dǎo)體技術(shù)的進(jìn)步就像是在一條明確的隧道中前進(jìn),每個(gè)人都清楚下一步應(yīng)該怎么做:不斷縮小晶體管的尺寸。
現(xiàn)在,我們已經(jīng)走到了這條隧道的盡頭。
未來(lái)的半導(dǎo)體技術(shù)開(kāi)發(fā)將面臨更多挑戰(zhàn),但同時(shí),隧道外也有著更加廣闊的可能性。
而我們將不再被過(guò)去的限制所束縛。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
2024年的Adobe MAX 2024發(fā)布會(huì)上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開(kāi)“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來(lái)實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專題論壇在沈陽(yáng)成功舉辦。