高性能計(jì)算(High performance computing),是一種利用超級(jí)計(jì)算機(jī)或計(jì)算機(jī)集群的能力實(shí)現(xiàn)并行計(jì)算,以處理標(biāo)準(zhǔn)工作站無法完成的數(shù)據(jù)密集型計(jì)算任務(wù)的技術(shù),常見的應(yīng)用領(lǐng)域有仿真模擬、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等。
或許有人沒有聽過HPC,但是一定聽過超級(jí)計(jì)算機(jī),它就是HPC的主要實(shí)現(xiàn)方式之一。數(shù)據(jù)顯示,高性能計(jì)算系統(tǒng)的運(yùn)行速度比商用臺(tái)式機(jī)或服務(wù)器系統(tǒng)快一百萬倍以上。原因在于高性能計(jì)算能夠讓整個(gè)計(jì)算機(jī)集群為同一個(gè)任務(wù)工作,以更快的速度來解決一個(gè)復(fù)雜問題。
HPC提供了超高浮點(diǎn)計(jì)算能力解決方案,可用于解決計(jì)算密集型、海量數(shù)據(jù)處理等業(yè)務(wù)的計(jì)算需求,如科學(xué)研究、氣象預(yù)報(bào)、計(jì)算模擬、軍事研究、CAD/CAE、生物制藥、基因測(cè)序、圖像處理等,大量縮短計(jì)算時(shí)間,提高計(jì)算精度。
此前,HPC由于其專業(yè)度極高的特點(diǎn)被局限在科研實(shí)驗(yàn)室、大型企業(yè)和特定的學(xué)術(shù)組織研究中。不過隨著近兩年AI技術(shù)與IoT應(yīng)用之間的互相驅(qū)動(dòng),數(shù)據(jù)量和計(jì)算需求暴漲,5G將數(shù)據(jù)傳輸管道大大拓寬之后,同樣給了數(shù)據(jù)囤積量進(jìn)一步拓展的空間,HPC也逐漸變得日益重要。
目前,國產(chǎn)高性能計(jì)算機(jī)已經(jīng)取得了不錯(cuò)的成績。
01
中國高性能計(jì)算機(jī)成績斐然
2023 年 6 月,最新一期超級(jí)計(jì)算機(jī) TOP500 榜單公布,從TOP500 榜單中就可以讀出中國在*超級(jí)計(jì)算機(jī)研發(fā)上的努力已經(jīng)凸顯出來。
在61期全球超級(jí)計(jì)算機(jī) TOP500 榜單中*的是美國的Frontier、第二名為日本的Fugaku、 第三名芬蘭的LUMI、第四名意大利Leonardo、第五名美國Summit、第六名美國Sierra、第七名中國神威·太湖之光、第八名美國Perlmutter、第九名美國Selene、第十名TH—2 天河二號(hào)。
歷年來,中國高性能計(jì)算機(jī)屢屢登榜 TOP500。神威·太湖之光超級(jí)計(jì)算機(jī)甚至曾連續(xù)獲得top500四屆冠軍,該系統(tǒng)全部使用中國自主知識(shí)產(chǎn)權(quán)的處理器芯片。天河二號(hào)也曾6次蟬聯(lián)冠軍,天河二號(hào)采用麒麟操作系統(tǒng),目前使用英特爾處理器,將來計(jì)劃用國產(chǎn)處理器替換。
不只是排名*,在上榜數(shù)量上,中國的高性能計(jì)算機(jī)也有實(shí)力“扛大梁”。
根據(jù) 2023 年 6 月公布的最新 TOP500 榜單,美國為超級(jí)計(jì)算機(jī)上榜數(shù)量最多的國家,共上榜 150 套,占比 30%; 中國以 134 套上榜數(shù)量緊隨其后,占比 26.8%; 除中 美兩國之外,德國、日本、法國、英國、加拿大均有 10 套及以上進(jìn)入 TOP500 榜單的超級(jí)計(jì)算機(jī)系統(tǒng)。
中國初步形成的高性能計(jì)算產(chǎn)業(yè)鏈由上、中、下游構(gòu)成,以上所述企業(yè)均為中游企業(yè),他們的角色是負(fù)責(zé)對(duì)上游的資源進(jìn)行整合,提供強(qiáng)大的超算資源。
看到此處想必已有不少人開始疑惑,中國CPU的發(fā)展之路道阻且長,那么中國高性能計(jì)算機(jī)又是如何取得今日這番成績的呢?其上下游的發(fā)展現(xiàn)狀又如何了?
在這之前首先要了解的是,高性能計(jì)算機(jī)的發(fā)展歷程。
02
高性能計(jì)算機(jī)的發(fā)展歷程
1975年,中國開始研制*臺(tái)超級(jí)計(jì)算機(jī)。1983年,“銀河1號(hào)”面世,之后又研制出曙光系列超算。2009年,“天河1號(hào)”超算誕生,這是我國第1臺(tái)千萬億次級(jí)超算。2010年,經(jīng)過升級(jí)之后的“天河1號(hào)”位居全球計(jì)算機(jī)500強(qiáng)*位。2013年,“天河2號(hào)”再次名列超級(jí)計(jì)算機(jī)500強(qiáng)排行榜世界*,并蟬聯(lián)多年。
值得注意的是,當(dāng)時(shí)中國所有的超級(jí)計(jì)算機(jī)都采用了英特爾的芯片,中國多次在全球超級(jí)計(jì)算機(jī)TOP 500強(qiáng)榜單中奪冠的天河二號(hào)使用的就是英特爾的Xeon眾核處理器+Xeon Phi加速卡。
隨后2015年,美國政府禁止本國企業(yè)向中國出口與世界上最快的超級(jí)計(jì)算機(jī)相關(guān)的技術(shù),國家超級(jí)計(jì)算長沙中心、廣州中心、天津中心和國防科技大學(xué)四家國家超算中心被列入出口管制名單。
不過,管制并不能阻礙中國高性能計(jì)算機(jī)發(fā)展的步伐。2016年6月20日,在法蘭克福世界超算大會(huì)上,“神威·太湖之光”超級(jí)計(jì)算機(jī)系統(tǒng)震撼亮相,登頂榜單之首,不僅速度比第二名“天河二號(hào)”快出近兩倍,其效率也提高3倍。“神威·太湖之光”共有40960塊處理器,全都采用了中國自研架構(gòu)的“申威26010”眾核處理器。
并且除了“神威”系列,“天河”系列和“曙光”系列超級(jí)計(jì)算機(jī)也都自研了芯片,像“天河”系列超級(jí)計(jì)算機(jī)已經(jīng)全面掌握“五大”自主核心技術(shù),即具有自主知識(shí)產(chǎn)權(quán)的四大芯片和自主操作系統(tǒng)。
接下來再看,高性能計(jì)算機(jī)與CPU的“命數(shù)不同”。
03
高性能計(jì)算機(jī)與CPU“命數(shù)不同”
眾所周知,一臺(tái)普通電腦一般只有一顆 CPU(GPU 同理),每顆 CPU 內(nèi)一般只有2~8 個(gè)物理核心,而一般的超級(jí)計(jì)算機(jī)有成千上萬顆 CPU,每顆 CPU 內(nèi)一般有幾十個(gè)物理核心。
比如2010年,位居全球超級(jí)計(jì)算機(jī)500強(qiáng)排行榜榜首的“天河一號(hào)”,其思路采用“CPU+GPU”的設(shè)計(jì)思路,結(jié)合了大約7000個(gè)英偉達(dá)GPU和14000個(gè)英特爾CPU,將GPU用于超級(jí)計(jì)算機(jī),起到了“CPU加速器”的作用。盡管“天河”的主要部件仍來自英特爾與英偉達(dá)兩個(gè)美國制造商,但互聯(lián)芯片則完全是中國自主研發(fā),“天河”安裝有由中國自主研發(fā)的“飛騰1000”芯片,部分取代了進(jìn)口芯片。
“天河2號(hào)”有16000個(gè)計(jì)算節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)由2片英特爾的E5 2692和3片Xeon PHI組成,共使用了32000片英特爾的E5 2692和48000片Xeon PHI,屬于CPU+眾核芯片。正在升級(jí)的“天河2號(hào)”則將美國的Xeon PHI換成了自主研發(fā)的矩陣2000,屬于CPU+DSP。
神威·太湖之光超級(jí)計(jì)算機(jī)安裝了40960個(gè)中國自主研發(fā)的申威26010 眾核處理器,該眾核處理器采用64位自主神威指令系統(tǒng),峰值性能為12.5億億次每秒,持續(xù)性能為9.3億億次每秒,核心工作頻率1.5GHz。
對(duì)于普通家用的電腦來說或許需要一個(gè)性能更高的CPU來為整機(jī)提供更好的調(diào)度能力,然而對(duì)于超級(jí)計(jì)算機(jī)來說并非如此。超級(jí)計(jì)算機(jī)的算力大小并不依賴狹義上的CPU,超級(jí)計(jì)算機(jī)需要的是浮點(diǎn)算力,此外超級(jí)計(jì)算機(jī)還要看能耗,所以靠堆砌堆上去的單核心性能,對(duì)于超算系統(tǒng)未必合算。另外還有散熱問題、單核心的能耗比也是需要考量的因素。也就是說,超級(jí)計(jì)算機(jī)比拼的是超算架構(gòu)、調(diào)度算法、并行度等等。
所以單個(gè)CPU綜合算力并不是決定性因素,高性能計(jì)算機(jī)也并非簡(jiǎn)單的堆料。CPU要完成單核性能的沖刺需要面臨底層指令集以及生態(tài)等因素的束縛,而對(duì)于高性能計(jì)算機(jī)來說,更強(qiáng)的芯片協(xié)同工作能力或能帶來不菲的效果,這也正是中國的強(qiáng)項(xiàng)。
04
CPU+GPU國產(chǎn)勢(shì)力大增
多年來,Intel、AMD兩大巨頭領(lǐng)跑通用CPU(桌面與服務(wù)器CPU)市場(chǎng);不過隨著國家的大力支持引導(dǎo),國產(chǎn)CPU也開始奮力追趕,并且有所成績。
國產(chǎn)CPU的優(yōu)秀企業(yè)有走X86技術(shù)授權(quán)路線的海光和兆芯,ARM指令集授權(quán)路線的華為鯤鵬和飛騰,以及自研指令集路線的龍芯和申威。
目前,龍芯中科是目前中國CPU企業(yè)中自主程度最高的企業(yè)之一,近日龍芯發(fā)布的基于龍架構(gòu)的新一代4核心8線程處理器龍芯3A6000流片成功,龍芯稱綜合相關(guān)測(cè)試結(jié)果,龍芯3A6000處理器總體性能與Intel公司2020年上市的第10代酷睿四核處理器相當(dāng)。3A6000流片成功也代表了中國自主桌面CPU設(shè)計(jì)領(lǐng)域的最新里程碑成果。
申威主要面向軍用等對(duì)安全性要求極高的特種領(lǐng)域,為其提供CPU處理器及其相關(guān)解決方案。在神威、太湖之光中使用的SW26010芯片,在服務(wù)器領(lǐng)域,浮點(diǎn)運(yùn)算算力相比于同期國外處理器毫不遜色。
海光也是CPU市場(chǎng)的優(yōu)秀標(biāo)的,其CPU主要面向數(shù)據(jù)中心的服務(wù)器,產(chǎn)品兼容x86 指令集以及國際上主流操作系統(tǒng)和應(yīng)用軟件,軟硬件生態(tài)豐富,性能優(yōu)異,安全可靠。
此外,鯤鵬、飛騰和兆芯都是國產(chǎn)CPU的佼佼者。
鯤鵬 920已實(shí)現(xiàn)通用計(jì)算最強(qiáng)算力,性能優(yōu)于其他廠商的同類型芯片。有測(cè)試結(jié)果顯示,48核心的鯤鵬 920可以與Intel至強(qiáng)8180媲美,64核心的鯤鵬920甚至超過Intel至強(qiáng)8180。兆芯掌握自主通用處理器及其系統(tǒng)平臺(tái)芯片研發(fā)設(shè)計(jì)的核心技術(shù),全面覆蓋其微架構(gòu)等關(guān)鍵領(lǐng)域,構(gòu)建了較為完整的知識(shí)產(chǎn)權(quán)體系。飛騰面向各類應(yīng)用場(chǎng)景,已構(gòu)建了1000多個(gè)從端到云自主可信的行業(yè)聯(lián)合解決方案,芯片交付累計(jì)超過600萬片,在國產(chǎn)CPU市場(chǎng)上占據(jù)了半壁江山。
再看GPU。國內(nèi)優(yōu)秀的GPU芯片公司有寒武紀(jì)、華為昇騰、沐曦科技、海光信息、壁仞科技、阿里平頭哥、燧原科技、天數(shù)智芯、景嘉微等。據(jù)悉,思元即將推出的590整體算力綜合性能大約是A100的70%。華為昇騰910算力強(qiáng)悍,在實(shí)際應(yīng)用過程中,昇騰910的處理速度比業(yè)界同類產(chǎn)品快80%以上。
沐曦科技即將推出的MXC500是對(duì)標(biāo)A100/A800的算力芯片,F(xiàn)P32浮點(diǎn)性能可達(dá)15TFlops,作為對(duì)比的是A100顯卡FP32 性能19.5 TFLOPS。
壁仞科技的BR100 發(fā)布時(shí),憑借其超高的參數(shù)與性能引起了強(qiáng)烈的轟動(dòng)。BR100系列基于7nm制程工藝打造,擁有770億個(gè)晶體管。由壁仞科技自主原創(chuàng)的芯片架構(gòu)開發(fā),采用Chiplet(芯粒)、2.5D CoWoS等先進(jìn)的設(shè)計(jì)、制造與封裝技術(shù),可搭配64GB HBM 2E顯存,超300MB片上緩存,支持PCIe 5.0、CXL互聯(lián)協(xié)議等。
阿里在2019年就推出了“含光800”,阿里曾表示,“含光800”是當(dāng)時(shí)全球最強(qiáng)的AI芯片,性能和能效比均為*,1顆“含光800”的算力相當(dāng)于10顆GPU。此外,燧原科技、天數(shù)智芯、景嘉微也都推出了各家優(yōu)秀的GPU產(chǎn)品。
05
HPC成國際芯片龍頭爭(zhēng)奪要地
HPC 誕生于內(nèi)部數(shù)據(jù)中心,擁有高速處理數(shù)據(jù)和執(zhí)行復(fù)雜計(jì)算。為了做 HPC 領(lǐng)域的*,英偉達(dá)、AMD、英特爾在 HPC 應(yīng)用領(lǐng)域也是進(jìn)展不斷。
英偉達(dá):全面擁抱HPC
迄今為止,英偉達(dá)已推出了面向 HPC 和 AI 訓(xùn)練的 Volta、Ampere、Hopper 等架構(gòu),并以此為基礎(chǔ)推出了 V100、A100、H100 等高端 GPU。其中 Hopper H100 采用臺(tái)積電 4 nm 工藝,具有 800 億個(gè)晶體管,在性能、效率上遠(yuǎn)超 Ampere A100,是英偉達(dá)專為超級(jí)計(jì)算機(jī)設(shè)計(jì)的產(chǎn)品。
近日英偉達(dá)還發(fā)布新一代GH200 Grace Hopper 超級(jí)芯片平臺(tái),是一款為大規(guī)模AI和高性能計(jì)算(HPC)應(yīng)用量身打造的加速芯片。這款超級(jí)芯片在處理海量數(shù)據(jù)時(shí),性能可提升高達(dá)10倍。由 72 核的 Grace CPU 和 GH100 Hopper 計(jì)算 GPU 組成?梢钥吹,英偉達(dá)已經(jīng)做了充足的準(zhǔn)備,全面迎接加速計(jì)算和生成式 AI 時(shí)代的到來 。
AMD:到 2025 年,AMD EPYC、AMD Instinct 能源效率提高 30 倍
AMD已經(jīng)在高性能計(jì)算領(lǐng)域推出一系列性能*的產(chǎn)品,涵蓋了服務(wù)器CPU、加速器,桌面CPU、移動(dòng)CPU等眾多領(lǐng)域,全方位覆蓋數(shù)字經(jīng)濟(jì)的高算力需求。此外,充分利用小芯片(Chiplet)技術(shù),用先進(jìn)的2.5D和3D封裝技術(shù),使AMD能夠靈活的進(jìn)行異構(gòu)計(jì)算解決方案系統(tǒng)級(jí)優(yōu)化。
目前 AMD EPYC 在 x86 服務(wù)器 CPU 市場(chǎng)的份額已超過 25%;其去年發(fā)布的 Instinct 生態(tài)系統(tǒng)以及此前的 ROCm 生態(tài)系統(tǒng)正在為擁有廣泛基礎(chǔ)的 HPC 和 AI 客戶提供 Exascale 級(jí)(百億億次級(jí))技術(shù),滿足計(jì)算加速的數(shù)據(jù)中心工作負(fù)載日益增長的需求。此外 AMD 預(yù)計(jì)在 2023 年至 2024 年推出 3nm Zen 5 架構(gòu)處理器。
此外,AMD 還宣布了一項(xiàng)雄心勃勃的計(jì)劃,目標(biāo)是到 2025 年,在加速計(jì)算節(jié)點(diǎn)上運(yùn)行的人工智能訓(xùn)練和高性能計(jì)算應(yīng)用中,AMD EPYC 系列處理器和 AMD Instinct 計(jì)算卡的能源效率將提高 30 倍。
AMD最新發(fā)布的Instinct MI200 系列加速器的*性能也可助力高性能計(jì)算和人工智能訓(xùn)練。
英特爾:HPC潛力股
作為高性能計(jì)算領(lǐng)域的創(chuàng)新引領(lǐng)者和推動(dòng)者,英特爾近年來推出了英特爾至強(qiáng)處理器,英特爾至強(qiáng)融核處理器(Xeon Phi)、3D XPoint全新非易失性存儲(chǔ)技術(shù)、英特爾可擴(kuò)展系統(tǒng)框架(英特爾SSF)以及英特爾Omni-Path架構(gòu) (Intel OPA)等眾多創(chuàng)新產(chǎn)品和技術(shù)。
英特爾基于Xe HPC微架構(gòu)的數(shù)據(jù)中心GPU Ponte Vecchio是迄今最復(fù)雜的SoC,包含1000億個(gè)晶體管,提供*的浮點(diǎn)運(yùn)算和計(jì)算密度,以加速AI、HPC和高級(jí)分析工作負(fù)載。而英特爾推出的Ponte Vecchio是為Aurora超級(jí)計(jì)算機(jī)提供動(dòng)力的處理器,Aurora超級(jí)計(jì)算機(jī)將會(huì)成為美國首批突破exaflop障礙的高性能計(jì)算機(jī)之一。
今年3月,英特爾官方發(fā)文表示,它們更新了高性能計(jì)算(High Performance Computing,簡(jiǎn)稱 HPC)的路線圖,并且宣布取消 Rialto Bridge 和 Lancaster Sound 的開發(fā)。英特爾表示 HPC Max 系列的重心將轉(zhuǎn)移到 Falcon Shores XPU,該 XPU 原定于 2024 年推出,不過英特爾宣布推遲到 2025 年上線。
未來計(jì)算架構(gòu)的發(fā)展趨勢(shì)是CPU和GPU融合集成,從而形成互聯(lián)、互補(bǔ)、互通的融合模式,以縮小計(jì)算和存儲(chǔ)單元的通信成本。作為在CPU領(lǐng)域引領(lǐng)多年的英特爾,在這一趨勢(shì)中也有著得天獨(dú)厚的優(yōu)勢(shì)。英特爾GPU的愿景也逐漸清晰:在計(jì)算多元化、算力需求爆發(fā)式增長的大趨勢(shì)下,英特爾GPU將成為驅(qū)動(dòng)新興行業(yè)發(fā)展的算力基石,同時(shí)也將成為英特爾自身業(yè)務(wù)增長的突破點(diǎn)。
06
未來,HPC與AI將加速融合
如今,以ChatGPT為代表的生成式AI風(fēng)頭正熱,ChatGPT的上線或可被視作一次新產(chǎn)業(yè)革命的引爆點(diǎn)。而這個(gè)引爆點(diǎn)之所以能出現(xiàn),離不開背后的HPC(高性能計(jì)算)與大數(shù)據(jù)基礎(chǔ)設(shè)施。當(dāng)下HPC與AI 正在加速融合之中。
HPC不同于AI。HPC的運(yùn)算精度是雙精度浮點(diǎn)運(yùn)算,64位甚至128位的,所以加減乘除做得很快,它的應(yīng)用領(lǐng)域主要有科學(xué)和工程計(jì)算、天氣預(yù)報(bào)、核聚變模擬、飛行器設(shè)計(jì)。而AI計(jì)算機(jī)是半精度的,甚至是定點(diǎn)的,8位的、16位的、32位的。AI更適合進(jìn)行分類、自然語言處理等工作,多應(yīng)用在安防、互聯(lián)網(wǎng)搜索推薦、智能制造等領(lǐng)域。
因此,HPC與AI融合,也就意味著二者的研究模式相結(jié)合,這樣AI也可以通過HPC方法去做驗(yàn)證,在保證速度的同時(shí),提升精確度。借助HPC基礎(chǔ)設(shè)施,可見未來AI能得到更好的發(fā)揮,兩者融合將是未來幾年的主流趨勢(shì)。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
2024年的Adobe MAX 2024發(fā)布會(huì)上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專題論壇在沈陽成功舉辦。