CCCF 精選 | 大模型算力及超算云服務(wù)淺析

2023年12月12日 15:18:20 陳健趙鴻冰 來(lái)源：中國(guó)計(jì)算機(jī)學(xué)會(huì)

　　本文通過(guò)對(duì)大模型訓(xùn)練的應(yīng)用運(yùn)行特征分析，得出大模型訓(xùn)練是典型的超算應(yīng)用，且大模型訓(xùn)練需要三高，即高質(zhì)量、高性能和高性價(jià)比;將超算市場(chǎng)分為尖端超算、通用超算、智能超算和業(yè)務(wù)超算四類，分析了四類市場(chǎng)的特點(diǎn)以及對(duì)應(yīng)的供給產(chǎn)品平臺(tái)，介紹了并行科技對(duì)應(yīng)四類市場(chǎng)的產(chǎn)品矩陣;給出了近五年全球高性能計(jì)算市場(chǎng)和中國(guó)高性能計(jì)算市場(chǎng)的發(fā)展趨勢(shì)。

　　大模型訓(xùn)練算力特點(diǎn)

　　隨著ChatGPT的爆火，一時(shí)間百模興起，涌現(xiàn)出百度的文心、阿里的通義、騰訊的混元、字節(jié)的云雀、華為的盤古、智譜的清言等大模型，大廠和初創(chuàng)公司都參與到這場(chǎng)角逐中。大模型算力成為這場(chǎng)競(jìng)爭(zhēng)的焦點(diǎn)。

　　大模型訓(xùn)練是典型的超算應(yīng)用

　　大模型訓(xùn)練的計(jì)算主要有以下幾個(gè)特點(diǎn)。

　　1.數(shù)據(jù)規(guī)模龐大：大模型訓(xùn)練需要大量的數(shù)據(jù)進(jìn)行學(xué)習(xí)和優(yōu)化，以確保模型具有廣泛的知識(shí)和較強(qiáng)的泛化能力。這些數(shù)據(jù)通常來(lái)源于網(wǎng)絡(luò)、數(shù)據(jù)庫(kù)、科學(xué)研究等領(lǐng)域，其規(guī)模可達(dá)數(shù)億甚至數(shù)十億個(gè)樣本。

　　2.計(jì)算資源需求高：大模型訓(xùn)練對(duì)計(jì)算資源的需求非常高，通常需要高性能的計(jì)算機(jī)、顯卡集群或超級(jí)計(jì)算機(jī)。此外，隨著模型規(guī)模的擴(kuò)大，訓(xùn)練時(shí)間也會(huì)顯著增加，這對(duì)計(jì)算資源的利用率提出了更高的要求。

　　3.并行計(jì)算：為了提高訓(xùn)練速度，大模型訓(xùn)練通常采用并行計(jì)算技術(shù)，如數(shù)據(jù)并行和模型并行。通過(guò)將計(jì)算任務(wù)分配給多個(gè)計(jì)算節(jié)點(diǎn)或設(shè)備，可以大幅提高訓(xùn)練效率。

　　4.分布式計(jì)算：大模型訓(xùn)練還采用分布式計(jì)算技術(shù)，將訓(xùn)練任務(wù)分布到多個(gè)計(jì)算節(jié)點(diǎn)上進(jìn)行協(xié)同處理。這可以充分利用網(wǎng)絡(luò)中各個(gè)節(jié)點(diǎn)的計(jì)算能力，提高整體訓(xùn)練性能。

　　5.異構(gòu)計(jì)算：大模型訓(xùn)練中常常涉及異構(gòu)計(jì)算，即利用不同類型的計(jì)算資源(如高性能協(xié)處理器、GPU、TPU等)協(xié)同處理計(jì)算任務(wù)。這使得訓(xùn)練系統(tǒng)能夠針對(duì)不同計(jì)算任務(wù)優(yōu)化資源分配，提高整體訓(xùn)練性能。

　　6.優(yōu)化算法：為了提高模型的訓(xùn)練效果，大模型訓(xùn)練中通常采用各種優(yōu)化算法，這些算法可以加速模型訓(xùn)練過(guò)程，提高模型收斂速度和性能。

　　超級(jí)計(jì)算(supercomputing)是高性能計(jì)算領(lǐng)域的頂尖形態(tài)，具備以下特點(diǎn)。

　　1.并行計(jì)算：超算應(yīng)用采用并行計(jì)算技術(shù)，將大規(guī)模的計(jì)算任務(wù)分解成多個(gè)小任務(wù)，在多個(gè)處理器或多個(gè)計(jì)算機(jī)上進(jìn)行計(jì)算。這大大提高了計(jì)算效率，使得原本需要長(zhǎng)時(shí)間完成的任務(wù)可以在較短的時(shí)間內(nèi)完成。

　　2.分布式計(jì)算：超算應(yīng)用通過(guò)分布式計(jì)算技術(shù)，將計(jì)算任務(wù)分配給眾多計(jì)算機(jī)節(jié)點(diǎn)進(jìn)行協(xié)同處理。這種計(jì)算方式充分利用了網(wǎng)絡(luò)中各個(gè)節(jié)點(diǎn)的計(jì)算能力，提高了整體計(jì)算性能。

　　3.高度集成：超算應(yīng)用通過(guò)集成數(shù)千甚至數(shù)萬(wàn)臺(tái)計(jì)算機(jī)、存儲(chǔ)設(shè)備和網(wǎng)絡(luò)設(shè)備，形成一個(gè)高度集成的計(jì)算系統(tǒng)。這種系統(tǒng)具有強(qiáng)大的計(jì)算能力和極高的資源利用率，可以滿足不同領(lǐng)域和應(yīng)用場(chǎng)景的計(jì)算需求。

　　4.彈性擴(kuò)展：超算應(yīng)用具備彈性擴(kuò)展能力，可以根據(jù)計(jì)算任務(wù)的需求和資源狀況動(dòng)態(tài)調(diào)整計(jì)算節(jié)點(diǎn)數(shù)量。這使超算系統(tǒng)能夠在不同場(chǎng)景下保持較高的資源利用率和計(jì)算性能。

　　5.異構(gòu)計(jì)算：超算應(yīng)用采用異構(gòu)計(jì)算技術(shù)，利用高性能處理器、GPU、現(xiàn)場(chǎng)可編程門陣列(FPGA)等不同類型的計(jì)算資源進(jìn)行協(xié)同處理。這使超算系統(tǒng)能夠針對(duì)不同計(jì)算任務(wù)優(yōu)化資源分配，提高整體計(jì)算性能。

　　6.負(fù)載均衡：超算應(yīng)用通過(guò)負(fù)載均衡技術(shù)，確保為各個(gè)計(jì)算節(jié)點(diǎn)合理分配計(jì)算任務(wù)。這有助于維持系統(tǒng)穩(wěn)定，提高計(jì)算任務(wù)的完成速度和準(zhǔn)確性。

　　并行科技依據(jù)應(yīng)用運(yùn)行特征方法論，自主研發(fā)了應(yīng)用運(yùn)行特征采集與分析軟件。該軟件可以采集分析應(yīng)用在運(yùn)行過(guò)程中的CPU利用率、CPU微架構(gòu)數(shù)據(jù)、GPU利用率、GPU微架構(gòu)數(shù)據(jù)、顯存利用率、內(nèi)存利用率、磁盤讀寫速率、網(wǎng)絡(luò)收發(fā)速率等數(shù)據(jù)，相當(dāng)于為應(yīng)用在運(yùn)行過(guò)程中做“CT”檢查。圖1展示了通過(guò)應(yīng)用運(yùn)行特征采集與分析軟件采集的1300億參數(shù)大模型訓(xùn)練的應(yīng)用運(yùn)行特征。圖的上半部分是大模型運(yùn)行的量化數(shù)據(jù)特征，下半部分是大模型運(yùn)行的時(shí)序圖。圖2是1300億參數(shù)大模型訓(xùn)練的應(yīng)用運(yùn)行特征單節(jié)點(diǎn)放大圖。從圖1和圖2可以看出，該大模型訓(xùn)練的特征是多節(jié)點(diǎn)并行協(xié)同工作，節(jié)點(diǎn)計(jì)算資源利用率高，節(jié)點(diǎn)間通信頻繁密集。通過(guò)以上分析，可以得出大模型訓(xùn)練屬于典型的超算架構(gòu)應(yīng)用。大模型訓(xùn)練，算力需要達(dá)到“三高”，即高質(zhì)量、高性能、高性價(jià)比。

　　圖1 1300億大模型訓(xùn)練應(yīng)用運(yùn)行特征圖

　　圖2 1300億大模型訓(xùn)練應(yīng)用運(yùn)行特征單節(jié)點(diǎn)放大圖

　　大模型需要高質(zhì)量

　　高質(zhì)量即保障大模型訓(xùn)練能正確、穩(wěn)定、不中斷地得到結(jié)果。圖3展示了智譜華章訓(xùn)練GLM-1300億參數(shù)大模型的工程過(guò)程。該模型歷時(shí)8個(gè)月完成訓(xùn)練，平臺(tái)的調(diào)試適配用了近6個(gè)月，正式訓(xùn)練開始后仍面臨平臺(tái)硬件故障帶來(lái)的穩(wěn)定性問(wèn)題，即便設(shè)置檢測(cè)點(diǎn)(checkpoint)，每次故障仍會(huì)造成一定的時(shí)間和經(jīng)濟(jì)損失。高質(zhì)量訓(xùn)練平臺(tái)對(duì)高效完成大模型訓(xùn)練至關(guān)重要。

　　圖3 GLM-1300億大模型訓(xùn)練過(guò)程

　　大模型需要高性能

　　高性能是指更快地完成大模型訓(xùn)練計(jì)算，既能抓住發(fā)展的時(shí)間窗口，又能節(jié)省大筆訓(xùn)練成本。要實(shí)現(xiàn)高性能，需要在不同階段通過(guò)多種手段提升性能，如在硬件選型階段選擇最適合大模型訓(xùn)練的硬件架構(gòu)平臺(tái)，在訓(xùn)練階段選擇合適的算子庫(kù)和并行方法等。

　　大模型訓(xùn)練需要高性價(jià)比

　　大模型訓(xùn)練“燒錢”是公認(rèn)的，無(wú)論是初創(chuàng)公司還是傳統(tǒng)大廠，高昂的投入都會(huì)帶來(lái)巨大的壓力。圖4展示了OpenAI的GPT-3、DeepMind的Gopher、微軟的MT-NLG、谷歌的PaLM的訓(xùn)練數(shù)據(jù)，參數(shù)量從1750億到5400億不等，訓(xùn)練費(fèi)用少則百萬(wàn)美元，多則千萬(wàn)美元。國(guó)內(nèi)的玩家未公開相關(guān)數(shù)據(jù)，費(fèi)用估計(jì)也在數(shù)千萬(wàn)元到數(shù)億元人民幣。降低大模型訓(xùn)練的費(fèi)用成為AIGC企業(yè)的重要關(guān)注點(diǎn)，甚至是初創(chuàng)企業(yè)能否存續(xù)的關(guān)鍵。

　　圖4 大模型訓(xùn)練費(fèi)用支出

　　高質(zhì)量、高性能、高性價(jià)比的超算架構(gòu)GPU算力集群成為大模型競(jìng)爭(zhēng)的剛需。

　　算力供給現(xiàn)狀

　　超算的市場(chǎng)可以分為四類：尖端超算、通用超算、智能超算和業(yè)務(wù)超算。

　　尖端超算

　　尖端超算面向萬(wàn)核以上的應(yīng)用，追求極大規(guī)模、極致性能，主要用戶為高端超算的從業(yè)人員，包括攻堅(jiān)型科研單位、國(guó)家級(jí)用戶和各行業(yè)頂級(jí)研究機(jī)構(gòu)，對(duì)超算硬件系統(tǒng)要求非常高。這類產(chǎn)品可謂國(guó)之重器，要求計(jì)算、訪存、通信、I/O都非常出眾，性能設(shè)計(jì)高度平衡的高端超級(jí)計(jì)算機(jī)，需要國(guó)家集中力量投入，不要求高性價(jià)比，一般由國(guó)家超級(jí)計(jì)算中心實(shí)現(xiàn)并滿足此類需求。

　　通用超算

　　通用超算面向萬(wàn)核以下的應(yīng)用，絕大多數(shù)是千核以下的應(yīng)用，需要優(yōu)質(zhì)服務(wù)，關(guān)注性價(jià)比，用于滿足海量無(wú)超算資源用戶的日常需求，當(dāng)前以自主建設(shè)的中小微超算系統(tǒng)為主。

　　此類需求是海量用戶需求聚類，需要基于應(yīng)用運(yùn)行特征分析，針對(duì)不同類型應(yīng)用，采取動(dòng)態(tài)隨需增長(zhǎng)方式建設(shè)最高性價(jià)比超算服務(wù)計(jì)算資源，通過(guò)租用超算服務(wù)方式，幫助用戶從自建中解脫出來(lái)，目前以超級(jí)云計(jì)算中心模式滿足此類市場(chǎng)需求。

　　智能超算

　　智能超算以GPU算力為主，應(yīng)用規(guī)模從單卡到萬(wàn)卡，計(jì)算量極度密集，算力投資大，自建較少，主要是租用智算算力資源，需要優(yōu)質(zhì)服務(wù)，關(guān)注性價(jià)比。大模型算力需求是此類典型代表。

　　此類需求的產(chǎn)品形態(tài)有兩種模式：解決大模型訓(xùn)練需求的超算中心模式和解決推理等需求的云計(jì)算模式。需要基于應(yīng)用運(yùn)行特征分析，采用動(dòng)態(tài)隨需增長(zhǎng)方式建設(shè)性價(jià)比最高的智算算力資源，幫助用戶從自建中解脫出來(lái)，租用超算服務(wù)。目前主要由智算中心滿足此類需求供給。

　　圖5展示了對(duì)AI訓(xùn)練量增長(zhǎng)趨勢(shì)和未來(lái)市場(chǎng)的預(yù)估，從圖中左側(cè)數(shù)據(jù)可以看出，隨著BERT、GPT-2、GPT-3、PaLM等大模型的爆發(fā)，訓(xùn)練計(jì)算量呈指數(shù)增長(zhǎng)，在2015~2020年，訓(xùn)練計(jì)算量增長(zhǎng)了6個(gè)數(shù)量級(jí)。圖5右側(cè)是國(guó)際數(shù)據(jù)公司IDC給出的預(yù)測(cè)，2026年智算的算力規(guī)模將達(dá)1271百億億次(EFLOPS)，預(yù)計(jì)未來(lái)5年中國(guó)智能算力規(guī)模的年復(fù)合增長(zhǎng)率將達(dá)52.3%。

　　圖5 AI訓(xùn)練量的增長(zhǎng)趨勢(shì)和未來(lái)市場(chǎng)預(yù)估

　　業(yè)務(wù)超算

　　業(yè)務(wù)超算的應(yīng)用規(guī)模通常為單核到幾千核，和業(yè)務(wù)直接關(guān)聯(lián)，關(guān)注服務(wù)質(zhì)量、性能和性價(jià)比。對(duì)業(yè)務(wù)超算來(lái)說(shuō)，超算只是業(yè)務(wù)中的一個(gè)環(huán)節(jié)，需要實(shí)現(xiàn)完整業(yè)務(wù)上云，保證業(yè)務(wù)運(yùn)行的穩(wěn)定性和可靠性。

　　業(yè)務(wù)超算面向行業(yè)，按照行業(yè)業(yè)務(wù)需求設(shè)計(jì)完整的云上業(yè)務(wù)流程，保證用戶業(yè)務(wù)各環(huán)節(jié)都能實(shí)現(xiàn)高質(zhì)量、高性能、高性價(jià)比。通常由公有云/超算云或?qū)I(yè)超算服務(wù)商滿足此類需求。

　　按客戶需求設(shè)計(jì)、供給產(chǎn)品

　　實(shí)際上，用戶不關(guān)心產(chǎn)品的某個(gè)具體功能，而關(guān)注最終的收益。用戶關(guān)注點(diǎn)可總結(jié)為三個(gè)方面：第一，產(chǎn)品要有高質(zhì)量，可滿足計(jì)算任務(wù)需求，順利完成計(jì)算;第二，產(chǎn)品要有高性能，能更高效地完成計(jì)算任務(wù);第三，產(chǎn)品要有高性價(jià)比，能在高效完成計(jì)算任務(wù)的同時(shí)，消耗更低的成本。總之，要有針對(duì)性地提供不同的產(chǎn)品形態(tài)以更好地滿足用戶需求。

　　并行產(chǎn)品矩陣

　　為滿足不同領(lǐng)域的細(xì)分需求，并行科技設(shè)計(jì)了不同的產(chǎn)品矩陣，包括并行超算云、并行智算云、并行行業(yè)云等。

　　并行超算云是面向通用超算市場(chǎng)開發(fā)的產(chǎn)品平臺(tái)，集成了多種數(shù)據(jù)管理工具、登錄交互工具、可視化工具以及軟件即服務(wù)(SaaS)集成等，滿足大、中、小用戶的碎片化需求。

　　并行智算云是面向智能超算市場(chǎng)開發(fā)的產(chǎn)品平臺(tái)，提供超算集群和云主機(jī)兩種形態(tài)，分別滿足大模型大規(guī)模訓(xùn)練和中小規(guī)模訓(xùn)練及推理場(chǎng)景需求，在平臺(tái)即服務(wù)(PaaS)層提供PyTorch和TensorFlow等常用框架，以及常用的多領(lǐng)域開源數(shù)據(jù)集。并行智算云架構(gòu)如圖6所示。

　　圖6 并行智算云架構(gòu)

　　并行行業(yè)云基于超算云基礎(chǔ)設(shè)施，提供企業(yè)級(jí)“專有云”“混合云”等多產(chǎn)品服務(wù)形態(tài)的定制化云服務(wù)平臺(tái)。行業(yè)云不僅可保障用戶業(yè)務(wù)流程快速、高效、動(dòng)態(tài)實(shí)現(xiàn)，還可滿足超算業(yè)務(wù)系統(tǒng)及SaaS化的私有部署、自主可控、安全穩(wěn)定的個(gè)性化需求。

　　借助海量算力資源池和技術(shù)運(yùn)營(yíng)服務(wù)優(yōu)勢(shì)，超算行業(yè)云可為汽車制造、氣象海洋、基因測(cè)序、新藥研發(fā)、芯片制造、石油勘探等行業(yè)提供彈性靈活、快捷高效、安全可靠的高性能計(jì)算業(yè)務(wù)支持。

　　算力網(wǎng)絡(luò)服務(wù)模式

　　并行科技基于算力網(wǎng)絡(luò)服務(wù)模式向廣大的計(jì)算用戶輸出算力資源。圖7為并行超算云業(yè)務(wù)架構(gòu)圖，該架構(gòu)分為三層：底層是資源層，涵蓋國(guó)家各大超算中心，各地方政府建設(shè)的超算、智算中心，各大公有云廠商等;中間層是由產(chǎn)品工程(Product Engineering，PE)、系統(tǒng)工程(System Engineering，SE)、站點(diǎn)可靠性工程(Site Reliability Engineering，SRE)、數(shù)據(jù)工程(Data Engineering，DE)等團(tuán)隊(duì)構(gòu)建的全天候在線超算云服務(wù)平臺(tái)，提供數(shù)據(jù)處理、前處理、仿真模擬、數(shù)值求解、后處理等用戶全業(yè)務(wù)流能力;上層為物理、化學(xué)、航天、力學(xué)、工業(yè)制造、氣象海洋、生命科學(xué)、人工智能等各領(lǐng)域的海量計(jì)算需求。基于超算云的業(yè)務(wù)架構(gòu)衍生出四大業(yè)務(wù)類型：第一類面向各行業(yè)的海量計(jì)算需求，提供算力輸出服務(wù);第二類是面向用戶的業(yè)務(wù)上云場(chǎng)景，超算云提供上云PaaS平臺(tái)，為業(yè)務(wù)提供算力調(diào)度API和服務(wù)保障等;第三類面向國(guó)產(chǎn)應(yīng)用軟件開發(fā)商提供PaaS平臺(tái)，共同打造SaaS化模式，助力國(guó)產(chǎn)應(yīng)用軟件快速發(fā)展，解決“卡脖子”問(wèn)題;第四類聯(lián)合各大超算建設(shè)方，建立算力運(yùn)營(yíng)合作。

　　圖7 超算云業(yè)務(wù)架構(gòu)

　　算力接入標(biāo)準(zhǔn)

　　目前，算力資源百花齊放，但質(zhì)量參差不齊，算力接入標(biāo)準(zhǔn)成為保證資源高質(zhì)量接入和有效輸出的關(guān)鍵要素。并行科技制定了5個(gè)級(jí)別的接入標(biāo)準(zhǔn)，分別對(duì)應(yīng)高質(zhì)量1級(jí)、2級(jí)和3級(jí)，高性能4級(jí)和5級(jí)。比如，集群形態(tài)智算5級(jí)接入標(biāo)準(zhǔn)要求接入的GPU資源為某一高端型號(hào)(或以上)并達(dá)到1000張規(guī)模以上，支持定制化數(shù)據(jù)安全方案，支持專線能力，支持標(biāo)準(zhǔn)的作業(yè)調(diào)度，支持智能化運(yùn)維和應(yīng)用程序編程接口(API)等。

　　基于應(yīng)用運(yùn)行特征的精確選型

　　并行超算云平臺(tái)上運(yùn)行的應(yīng)用有千余種，接入資源的類型有百余種。某種應(yīng)用資源的類型有百余種。某種應(yīng)用運(yùn)行在何種平臺(tái)性能最優(yōu)、性價(jià)比最高?如何實(shí)現(xiàn)應(yīng)用與平臺(tái)的快速高效匹配?針對(duì)這些問(wèn)題，并行科技推出基于應(yīng)用運(yùn)行特征的精準(zhǔn)選型ParaSelect服務(wù)。用戶將典型應(yīng)用和典型的工作負(fù)載(workload)提交至并行科技的標(biāo)準(zhǔn)測(cè)試平臺(tái)，基于測(cè)試數(shù)據(jù)和并行應(yīng)用運(yùn)行特征庫(kù)，該平臺(tái)可快速給出性能測(cè)試報(bào)告，告知用戶適合該應(yīng)用運(yùn)行的硬件平臺(tái)以及最具性價(jià)比的平臺(tái)。

　　圖8為L(zhǎng)lama2-7B模型在A100 40GB PCIe平臺(tái)不同卡數(shù)規(guī)模上的預(yù)測(cè)與實(shí)測(cè)值，從圖中可以看出預(yù)測(cè)與實(shí)測(cè)曲線擬合較為接近，可以得出Llama2-7B在A100 40GB PCIe平臺(tái)有較好的運(yùn)行效率。

　　圖8 基于應(yīng)用運(yùn)行特征的精準(zhǔn)選型ParaSelect案例

　　優(yōu)化服務(wù)

　　在并行超算云平臺(tái)運(yùn)行的多數(shù)用量大的超算應(yīng)用均得到大幅優(yōu)化。圖9展示的是某1300億參數(shù)的預(yù)訓(xùn)練應(yīng)用運(yùn)行特征，從圖中可以看出，衡量計(jì)算效率的最主要部件GPU的利用率在75%左右震蕩，在計(jì)算方面存在優(yōu)化空間，通過(guò)代碼分析，優(yōu)化應(yīng)用程序負(fù)載設(shè)計(jì)，將GPU利用率提升至95%左右(見(jiàn)圖10)，計(jì)算性能得到大幅提升。

　　圖9 1300億預(yù)訓(xùn)練應(yīng)用運(yùn)行特征(優(yōu)化前)

　　圖10 1300億預(yù)訓(xùn)練應(yīng)用運(yùn)行特征(優(yōu)化后)

　　全球高性能計(jì)算市場(chǎng)呈現(xiàn)出蓬勃發(fā)展的態(tài)勢(shì)，圖11是IDC等機(jī)構(gòu)給出的全球高性能計(jì)算市場(chǎng)以及中國(guó)高性能計(jì)算市場(chǎng)的發(fā)展趨勢(shì)，學(xué)術(shù)教育、科研機(jī)構(gòu)、國(guó)防、金融和制造是高性能市場(chǎng)的消費(fèi)主力，占據(jù)半壁江山，超算云服務(wù)滲透率不斷提升，中國(guó)在企業(yè)和高校等高性能計(jì)算市場(chǎng)近五年的復(fù)合增長(zhǎng)率將超過(guò)50%，中國(guó)高性能計(jì)算市場(chǎng)將繼續(xù)蓬勃發(fā)展。