首頁 > 數(shù)據(jù)存儲(chǔ)頻道 > 數(shù)據(jù).存儲(chǔ)頻道 > 半導(dǎo)體

中國HPC，潛力無限

2023年08月29日 09:36:11 豐寧來源：微信公眾號(hào)：半導(dǎo)體產(chǎn)業(yè)縱橫

　　高性能計(jì)算(High performance computing)，是一種利用超級(jí)計(jì)算機(jī)或計(jì)算機(jī)集群的能力實(shí)現(xiàn)并行計(jì)算，以處理標(biāo)準(zhǔn)工作站無法完成的數(shù)據(jù)密集型計(jì)算任務(wù)的技術(shù)，常見的應(yīng)用領(lǐng)域有仿真模擬、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等。

　　或許有人沒有聽過HPC，但是一定聽過超級(jí)計(jì)算機(jī)，它就是HPC的主要實(shí)現(xiàn)方式之一。數(shù)據(jù)顯示，高性能計(jì)算系統(tǒng)的運(yùn)行速度比商用臺(tái)式機(jī)或服務(wù)器系統(tǒng)快一百萬倍以上。原因在于高性能計(jì)算能夠讓整個(gè)計(jì)算機(jī)集群為同一個(gè)任務(wù)工作，以更快的速度來解決一個(gè)復(fù)雜問題。

　　HPC提供了超高浮點(diǎn)計(jì)算能力解決方案，可用于解決計(jì)算密集型、海量數(shù)據(jù)處理等業(yè)務(wù)的計(jì)算需求，如科學(xué)研究、氣象預(yù)報(bào)、計(jì)算模擬、軍事研究、CAD/CAE、生物制藥、基因測(cè)序、圖像處理等，大量縮短計(jì)算時(shí)間，提高計(jì)算精度。

　　此前，HPC由于其專業(yè)度極高的特點(diǎn)被局限在科研實(shí)驗(yàn)室、大型企業(yè)和特定的學(xué)術(shù)組織研究中。不過隨著近兩年AI技術(shù)與IoT應(yīng)用之間的互相驅(qū)動(dòng)，數(shù)據(jù)量和計(jì)算需求暴漲，5G將數(shù)據(jù)傳輸管道大大拓寬之后，同樣給了數(shù)據(jù)囤積量進(jìn)一步拓展的空間，HPC也逐漸變得日益重要。

　　目前，國產(chǎn)高性能計(jì)算機(jī)已經(jīng)取得了不錯(cuò)的成績。

　　中國高性能計(jì)算機(jī)成績斐然

　　2023 年 6 月，最新一期超級(jí)計(jì)算機(jī) TOP500 榜單公布，從TOP500 榜單中就可以讀出中國在*超級(jí)計(jì)算機(jī)研發(fā)上的努力已經(jīng)凸顯出來。

　　在61期全球超級(jí)計(jì)算機(jī) TOP500 榜單中*的是美國的Frontier、第二名為日本的Fugaku、第三名芬蘭的LUMI、第四名意大利Leonardo、第五名美國Summit、第六名美國Sierra、第七名中國神威·太湖之光、第八名美國Perlmutter、第九名美國Selene、第十名TH—2 天河二號(hào)。

　　歷年來，中國高性能計(jì)算機(jī)屢屢登榜 TOP500。神威·太湖之光超級(jí)計(jì)算機(jī)甚至曾連續(xù)獲得top500四屆冠軍，該系統(tǒng)全部使用中國自主知識(shí)產(chǎn)權(quán)的處理器芯片。天河二號(hào)也曾6次蟬聯(lián)冠軍，天河二號(hào)采用麒麟操作系統(tǒng)，目前使用英特爾處理器，將來計(jì)劃用國產(chǎn)處理器替換。

　　不只是排名*，在上榜數(shù)量上，中國的高性能計(jì)算機(jī)也有實(shí)力“扛大梁”。

　　根據(jù) 2023 年 6 月公布的最新 TOP500 榜單，美國為超級(jí)計(jì)算機(jī)上榜數(shù)量最多的國家，共上榜 150 套，占比 30%; 中國以 134 套上榜數(shù)量緊隨其后，占比 26.8%; 除中美兩國之外，德國、日本、法國、英國、加拿大均有 10 套及以上進(jìn)入 TOP500 榜單的超級(jí)計(jì)算機(jī)系統(tǒng)。

　　中國初步形成的高性能計(jì)算產(chǎn)業(yè)鏈由上、中、下游構(gòu)成，以上所述企業(yè)均為中游企業(yè)，他們的角色是負(fù)責(zé)對(duì)上游的資源進(jìn)行整合，提供強(qiáng)大的超算資源。

　　看到此處想必已有不少人開始疑惑，中國CPU的發(fā)展之路道阻且長，那么中國高性能計(jì)算機(jī)又是如何取得今日這番成績的呢?其上下游的發(fā)展現(xiàn)狀又如何了?

　　在這之前首先要了解的是，高性能計(jì)算機(jī)的發(fā)展歷程。

　　高性能計(jì)算機(jī)的發(fā)展歷程

　　1975年，中國開始研制*臺(tái)超級(jí)計(jì)算機(jī)。1983年，“銀河1號(hào)”面世，之后又研制出曙光系列超算。2009年，“天河1號(hào)”超算誕生，這是我國第1臺(tái)千萬億次級(jí)超算。2010年，經(jīng)過升級(jí)之后的“天河1號(hào)”位居全球計(jì)算機(jī)500強(qiáng)*位。2013年，“天河2號(hào)”再次名列超級(jí)計(jì)算機(jī)500強(qiáng)排行榜世界*，并蟬聯(lián)多年。

　　值得注意的是，當(dāng)時(shí)中國所有的超級(jí)計(jì)算機(jī)都采用了英特爾的芯片，中國多次在全球超級(jí)計(jì)算機(jī)TOP 500強(qiáng)榜單中奪冠的天河二號(hào)使用的就是英特爾的Xeon眾核處理器+Xeon Phi加速卡。

　　隨后2015年，美國政府禁止本國企業(yè)向中國出口與世界上最快的超級(jí)計(jì)算機(jī)相關(guān)的技術(shù)，國家超級(jí)計(jì)算長沙中心、廣州中心、天津中心和國防科技大學(xué)四家國家超算中心被列入出口管制名單。

　　不過，管制并不能阻礙中國高性能計(jì)算機(jī)發(fā)展的步伐。2016年6月20日，在法蘭克福世界超算大會(huì)上，“神威·太湖之光”超級(jí)計(jì)算機(jī)系統(tǒng)震撼亮相，登頂榜單之首，不僅速度比第二名“天河二號(hào)”快出近兩倍，其效率也提高3倍。“神威·太湖之光”共有40960塊處理器，全都采用了中國自研架構(gòu)的“申威26010”眾核處理器。

　　并且除了“神威”系列，“天河”系列和“曙光”系列超級(jí)計(jì)算機(jī)也都自研了芯片，像“天河”系列超級(jí)計(jì)算機(jī)已經(jīng)全面掌握“五大”自主核心技術(shù)，即具有自主知識(shí)產(chǎn)權(quán)的四大芯片和自主操作系統(tǒng)。

　　接下來再看，高性能計(jì)算機(jī)與CPU的“命數(shù)不同”。

　　高性能計(jì)算機(jī)與CPU“命數(shù)不同”

　　眾所周知，一臺(tái)普通電腦一般只有一顆 CPU(GPU 同理)，每顆 CPU 內(nèi)一般只有2~8 個(gè)物理核心，而一般的超級(jí)計(jì)算機(jī)有成千上萬顆 CPU，每顆 CPU 內(nèi)一般有幾十個(gè)物理核心。

　　比如2010年，位居全球超級(jí)計(jì)算機(jī)500強(qiáng)排行榜榜首的“天河一號(hào)”，其思路采用“CPU+GPU”的設(shè)計(jì)思路，結(jié)合了大約7000個(gè)英偉達(dá)GPU和14000個(gè)英特爾CPU，將GPU用于超級(jí)計(jì)算機(jī)，起到了“CPU加速器”的作用。盡管“天河”的主要部件仍來自英特爾與英偉達(dá)兩個(gè)美國制造商，但互聯(lián)芯片則完全是中國自主研發(fā)，“天河”安裝有由中國自主研發(fā)的“飛騰1000”芯片，部分取代了進(jìn)口芯片。

　　“天河2號(hào)”有16000個(gè)計(jì)算節(jié)點(diǎn)，每個(gè)節(jié)點(diǎn)由2片英特爾的E5 2692和3片Xeon PHI組成，共使用了32000片英特爾的E5 2692和48000片Xeon PHI，屬于CPU+眾核芯片。正在升級(jí)的“天河2號(hào)”則將美國的Xeon PHI換成了自主研發(fā)的矩陣2000，屬于CPU+DSP。

　　神威·太湖之光超級(jí)計(jì)算機(jī)安裝了40960個(gè)中國自主研發(fā)的申威26010 眾核處理器，該眾核處理器采用64位自主神威指令系統(tǒng)，峰值性能為12.5億億次每秒，持續(xù)性能為9.3億億次每秒，核心工作頻率1.5GHz。

　　對(duì)于普通家用的電腦來說或許需要一個(gè)性能更高的CPU來為整機(jī)提供更好的調(diào)度能力，然而對(duì)于超級(jí)計(jì)算機(jī)來說并非如此。超級(jí)計(jì)算機(jī)的算力大小并不依賴狹義上的CPU，超級(jí)計(jì)算機(jī)需要的是浮點(diǎn)算力，此外超級(jí)計(jì)算機(jī)還要看能耗，所以靠堆砌堆上去的單核心性能，對(duì)于超算系統(tǒng)未必合算。另外還有散熱問題、單核心的能耗比也是需要考量的因素。也就是說，超級(jí)計(jì)算機(jī)比拼的是超算架構(gòu)、調(diào)度算法、并行度等等。

　　所以單個(gè)CPU綜合算力并不是決定性因素，高性能計(jì)算機(jī)也并非簡(jiǎn)單的堆料。CPU要完成單核性能的沖刺需要面臨底層指令集以及生態(tài)等因素的束縛，而對(duì)于高性能計(jì)算機(jī)來說，更強(qiáng)的芯片協(xié)同工作能力或能帶來不菲的效果，這也正是中國的強(qiáng)項(xiàng)。

　　CPU+GPU國產(chǎn)勢(shì)力大增

　　多年來，Intel、AMD兩大巨頭領(lǐng)跑通用CPU(桌面與服務(wù)器CPU)市場(chǎng);不過隨著國家的大力支持引導(dǎo)，國產(chǎn)CPU也開始奮力追趕，并且有所成績。

　　國產(chǎn)CPU的優(yōu)秀企業(yè)有走X86技術(shù)授權(quán)路線的海光和兆芯，ARM指令集授權(quán)路線的華為鯤鵬和飛騰，以及自研指令集路線的龍芯和申威。

　　目前，龍芯中科是目前中國CPU企業(yè)中自主程度最高的企業(yè)之一，近日龍芯發(fā)布的基于龍架構(gòu)的新一代4核心8線程處理器龍芯3A6000流片成功，龍芯稱綜合相關(guān)測(cè)試結(jié)果，龍芯3A6000處理器總體性能與Intel公司2020年上市的第10代酷睿四核處理器相當(dāng)。3A6000流片成功也代表了中國自主桌面CPU設(shè)計(jì)領(lǐng)域的最新里程碑成果。

　　申威主要面向軍用等對(duì)安全性要求極高的特種領(lǐng)域，為其提供CPU處理器及其相關(guān)解決方案。在神威、太湖之光中使用的SW26010芯片，在服務(wù)器領(lǐng)域，浮點(diǎn)運(yùn)算算力相比于同期國外處理器毫不遜色。

　　海光也是CPU市場(chǎng)的優(yōu)秀標(biāo)的，其CPU主要面向數(shù)據(jù)中心的服務(wù)器，產(chǎn)品兼容x86 指令集以及國際上主流操作系統(tǒng)和應(yīng)用軟件，軟硬件生態(tài)豐富，性能優(yōu)異，安全可靠。

　　此外，鯤鵬、飛騰和兆芯都是國產(chǎn)CPU的佼佼者。

　　鯤鵬 920已實(shí)現(xiàn)通用計(jì)算最強(qiáng)算力，性能優(yōu)于其他廠商的同類型芯片。有測(cè)試結(jié)果顯示，48核心的鯤鵬 920可以與Intel至強(qiáng)8180媲美，64核心的鯤鵬920甚至超過Intel至強(qiáng)8180。兆芯掌握自主通用處理器及其系統(tǒng)平臺(tái)芯片研發(fā)設(shè)計(jì)的核心技術(shù)，全面覆蓋其微架構(gòu)等關(guān)鍵領(lǐng)域，構(gòu)建了較為完整的知識(shí)產(chǎn)權(quán)體系。飛騰面向各類應(yīng)用場(chǎng)景，已構(gòu)建了1000多個(gè)從端到云自主可信的行業(yè)聯(lián)合解決方案，芯片交付累計(jì)超過600萬片，在國產(chǎn)CPU市場(chǎng)上占據(jù)了半壁江山。

　　再看GPU。國內(nèi)優(yōu)秀的GPU芯片公司有寒武紀(jì)、華為昇騰、沐曦科技、海光信息、壁仞科技、阿里平頭哥、燧原科技、天數(shù)智芯、景嘉微等。據(jù)悉，思元即將推出的590整體算力綜合性能大約是A100的70%。華為昇騰910算力強(qiáng)悍，在實(shí)際應(yīng)用過程中，昇騰910的處理速度比業(yè)界同類產(chǎn)品快80%以上。

　　沐曦科技即將推出的MXC500是對(duì)標(biāo)A100/A800的算力芯片，F(xiàn)P32浮點(diǎn)性能可達(dá)15TFlops，作為對(duì)比的是A100顯卡FP32 性能19.5 TFLOPS。

　　壁仞科技的BR100 發(fā)布時(shí)，憑借其超高的參數(shù)與性能引起了強(qiáng)烈的轟動(dòng)。BR100系列基于7nm制程工藝打造，擁有770億個(gè)晶體管。由壁仞科技自主原創(chuàng)的芯片架構(gòu)開發(fā)，采用Chiplet(芯粒)、2.5D CoWoS等先進(jìn)的設(shè)計(jì)、制造與封裝技術(shù)，可搭配64GB HBM 2E顯存，超300MB片上緩存，支持PCIe 5.0、CXL互聯(lián)協(xié)議等。

　　阿里在2019年就推出了“含光800”，阿里曾表示，“含光800”是當(dāng)時(shí)全球最強(qiáng)的AI芯片，性能和能效比均為*，1顆“含光800”的算力相當(dāng)于10顆GPU。此外，燧原科技、天數(shù)智芯、景嘉微也都推出了各家優(yōu)秀的GPU產(chǎn)品。

　　HPC成國際芯片龍頭爭(zhēng)奪要地

　　HPC 誕生于內(nèi)部數(shù)據(jù)中心，擁有高速處理數(shù)據(jù)和執(zhí)行復(fù)雜計(jì)算。為了做 HPC 領(lǐng)域的*，英偉達(dá)、AMD、英特爾在 HPC 應(yīng)用領(lǐng)域也是進(jìn)展不斷。

　　英偉達(dá)：全面擁抱HPC

　　迄今為止，英偉達(dá)已推出了面向 HPC 和 AI 訓(xùn)練的 Volta、Ampere、Hopper 等架構(gòu)，并以此為基礎(chǔ)推出了 V100、A100、H100 等高端 GPU。其中 Hopper H100 采用臺(tái)積電 4 nm 工藝，具有 800 億個(gè)晶體管，在性能、效率上遠(yuǎn)超 Ampere A100，是英偉達(dá)專為超級(jí)計(jì)算機(jī)設(shè)計(jì)的產(chǎn)品。

　　近日英偉達(dá)還發(fā)布新一代GH200 Grace Hopper 超級(jí)芯片平臺(tái)，是一款為大規(guī)模AI和高性能計(jì)算(HPC)應(yīng)用量身打造的加速芯片。這款超級(jí)芯片在處理海量數(shù)據(jù)時(shí)，性能可提升高達(dá)10倍。由 72 核的 Grace CPU 和 GH100 Hopper 計(jì)算 GPU 組成�？梢钥吹�，英偉達(dá)已經(jīng)做了充足的準(zhǔn)備，全面迎接加速計(jì)算和生成式 AI 時(shí)代的到來。

　　AMD:到 2025 年，AMD EPYC、AMD Instinct 能源效率提高 30 倍

　　AMD已經(jīng)在高性能計(jì)算領(lǐng)域推出一系列性能*的產(chǎn)品，涵蓋了服務(wù)器CPU、加速器，桌面CPU、移動(dòng)CPU等眾多領(lǐng)域，全方位覆蓋數(shù)字經(jīng)濟(jì)的高算力需求。此外，充分利用小芯片(Chiplet)技術(shù)，用先進(jìn)的2.5D和3D封裝技術(shù)，使AMD能夠靈活的進(jìn)行異構(gòu)計(jì)算解決方案系統(tǒng)級(jí)優(yōu)化。

　　目前 AMD EPYC 在 x86 服務(wù)器 CPU 市場(chǎng)的份額已超過 25%;其去年發(fā)布的 Instinct 生態(tài)系統(tǒng)以及此前的 ROCm 生態(tài)系統(tǒng)正在為擁有廣泛基礎(chǔ)的 HPC 和 AI 客戶提供 Exascale 級(jí)(百億億次級(jí))技術(shù)，滿足計(jì)算加速的數(shù)據(jù)中心工作負(fù)載日益增長的需求。此外 AMD 預(yù)計(jì)在 2023 年至 2024 年推出 3nm Zen 5 架構(gòu)處理器。

　　此外，AMD 還宣布了一項(xiàng)雄心勃勃的計(jì)劃，目標(biāo)是到 2025 年，在加速計(jì)算節(jié)點(diǎn)上運(yùn)行的人工智能訓(xùn)練和高性能計(jì)算應(yīng)用中，AMD EPYC 系列處理器和 AMD Instinct 計(jì)算卡的能源效率將提高 30 倍。

　　AMD最新發(fā)布的Instinct MI200 系列加速器的*性能也可助力高性能計(jì)算和人工智能訓(xùn)練。

　　英特爾：HPC潛力股

　　作為高性能計(jì)算領(lǐng)域的創(chuàng)新引領(lǐng)者和推動(dòng)者，英特爾近年來推出了英特爾至強(qiáng)處理器，英特爾至強(qiáng)融核處理器(Xeon Phi)、3D XPoint全新非易失性存儲(chǔ)技術(shù)、英特爾可擴(kuò)展系統(tǒng)框架(英特爾SSF)以及英特爾Omni-Path架構(gòu) (Intel OPA)等眾多創(chuàng)新產(chǎn)品和技術(shù)。

　　英特爾基于Xe HPC微架構(gòu)的數(shù)據(jù)中心GPU Ponte Vecchio是迄今最復(fù)雜的SoC，包含1000億個(gè)晶體管，提供*的浮點(diǎn)運(yùn)算和計(jì)算密度，以加速AI、HPC和高級(jí)分析工作負(fù)載。而英特爾推出的Ponte Vecchio是為Aurora超級(jí)計(jì)算機(jī)提供動(dòng)力的處理器，Aurora超級(jí)計(jì)算機(jī)將會(huì)成為美國首批突破exaflop障礙的高性能計(jì)算機(jī)之一。

　　今年3月，英特爾官方發(fā)文表示，它們更新了高性能計(jì)算(High Performance Computing，簡(jiǎn)稱 HPC)的路線圖，并且宣布取消 Rialto Bridge 和 Lancaster Sound 的開發(fā)。英特爾表示 HPC Max 系列的重心將轉(zhuǎn)移到 Falcon Shores XPU，該 XPU 原定于 2024 年推出，不過英特爾宣布推遲到 2025 年上線。

　　未來計(jì)算架構(gòu)的發(fā)展趨勢(shì)是CPU和GPU融合集成，從而形成互聯(lián)、互補(bǔ)、互通的融合模式，以縮小計(jì)算和存儲(chǔ)單元的通信成本。作為在CPU領(lǐng)域引領(lǐng)多年的英特爾，在這一趨勢(shì)中也有著得天獨(dú)厚的優(yōu)勢(shì)。英特爾GPU的愿景也逐漸清晰：在計(jì)算多元化、算力需求爆發(fā)式增長的大趨勢(shì)下，英特爾GPU將成為驅(qū)動(dòng)新興行業(yè)發(fā)展的算力基石，同時(shí)也將成為英特爾自身業(yè)務(wù)增長的突破點(diǎn)。

　　未來，HPC與AI將加速融合

　　如今，以ChatGPT為代表的生成式AI風(fēng)頭正熱，ChatGPT的上線或可被視作一次新產(chǎn)業(yè)革命的引爆點(diǎn)。而這個(gè)引爆點(diǎn)之所以能出現(xiàn)，離不開背后的HPC(高性能計(jì)算)與大數(shù)據(jù)基礎(chǔ)設(shè)施。當(dāng)下HPC與AI 正在加速融合之中。

　　HPC不同于AI。HPC的運(yùn)算精度是雙精度浮點(diǎn)運(yùn)算，64位甚至128位的，所以加減乘除做得很快，它的應(yīng)用領(lǐng)域主要有科學(xué)和工程計(jì)算、天氣預(yù)報(bào)、核聚變模擬、飛行器設(shè)計(jì)。而AI計(jì)算機(jī)是半精度的，甚至是定點(diǎn)的，8位的、16位的、32位的。AI更適合進(jìn)行分類、自然語言處理等工作，多應(yīng)用在安防、互聯(lián)網(wǎng)搜索推薦、智能制造等領(lǐng)域。

　　因此，HPC與AI融合，也就意味著二者的研究模式相結(jié)合，這樣AI也可以通過HPC方法去做驗(yàn)證，在保證速度的同時(shí)，提升精確度。借助HPC基礎(chǔ)設(shè)施，可見未來AI能得到更好的發(fā)揮，兩者融合將是未來幾年的主流趨勢(shì)。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信