By Brian
2023年是AI人工智能技術(shù)全面崛起的一年,以ChatGPT、GPT-4、Ernie Bot等大型AIGC模型為代表,它們集文字寫作、代碼開發(fā)、詩歌創(chuàng)作等多種功能于一體,展示了優(yōu)秀的內(nèi)容生產(chǎn)能力,給人以深刻的震撼。作為一名IT專業(yè)人士,AIGC大模型背后的通信技術(shù)也應(yīng)該引起深思。沒有好的網(wǎng)絡(luò),就無從談及大模型的訓(xùn)練。構(gòu)建大規(guī)模訓(xùn)練模型集群,不僅需要GPU服務(wù)器、網(wǎng)卡等基礎(chǔ)組件,而且網(wǎng)絡(luò)建設(shè)問題也亟待解決。什么樣的強(qiáng)大網(wǎng)絡(luò)在支撐AIGC的運(yùn)行?AI浪潮的全面到來,將給傳統(tǒng)網(wǎng)絡(luò)帶來怎樣的革命性變化?
前面提到的AIGC大模型之所以如此強(qiáng)大,不僅是因?yàn)槠浔澈笥写罅康臄?shù)據(jù)支撐,還因?yàn)樗惴ㄔ诓粩噙M(jìn)化和升級(jí)。更重要的是,人類計(jì)算能力的規(guī)模已經(jīng)發(fā)展到一定程度。強(qiáng)大的算力基礎(chǔ)設(shè)施可以充分支撐AIGC的計(jì)算需求。在訓(xùn)練大型模型時(shí),由于模型的大小通常會(huì)超過單個(gè)GPU的內(nèi)存和計(jì)算能力,因此需要多個(gè)GPU來分擔(dān)負(fù)載。在大模型訓(xùn)練過程中,GPU負(fù)載分擔(dān)有三種方式,即張量并行、管道并行、數(shù)據(jù)并行。
數(shù)據(jù)并行性:
數(shù)據(jù)并行是一種簡(jiǎn)單且直接的并行化技術(shù),其中在多個(gè)處理器(如GPU)上復(fù)制模型的完整副本。每個(gè)處理器或GPU都會(huì)獲得整個(gè)模型的副本,并獨(dú)立地對(duì)不同的數(shù)據(jù)子集執(zhí)行前向和后向傳播。在每個(gè)訓(xùn)練步驟之后,來自所有處理器的模型權(quán)重更新需要合并或同步,這通常通過某種形式的集體通信操作來完成,例如all-reduce。數(shù)據(jù)并行性允許模型在更大的數(shù)據(jù)集上進(jìn)行訓(xùn)練,因?yàn)閿?shù)據(jù)被分成多個(gè)小批次,每個(gè)批次在不同的處理器上處理。
想象一個(gè)大型圖書館,需要對(duì)其中的所有書籍進(jìn)行分類。數(shù)據(jù)并行就像雇用多個(gè)圖書管理員,每個(gè)圖書管理員負(fù)責(zé)對(duì)一部分圖書進(jìn)行分類。在模型訓(xùn)練的情況下,每個(gè)GPU都會(huì)獲得整個(gè)模型的副本,但只處理整個(gè)數(shù)據(jù)集的一部分。當(dāng)所有GPU完成各自的任務(wù)后,它們交換信息以同步更新模型權(quán)重。
張量并行性:
當(dāng)模型太大而無法容納單個(gè)處理器的內(nèi)存時(shí),通常使用張量并行性。在這種并行化策略中,模型的不同部分,例如神經(jīng)網(wǎng)絡(luò)層中的不同張量或參數(shù)組,被分配給不同的處理器。這意味著每個(gè)處理器只負(fù)責(zé)計(jì)算模型的一部分。為了完成整個(gè)模型的前向和后向傳播,處理器必須頻繁地交換中間結(jié)果,這可能會(huì)導(dǎo)致較高的通信開銷。張量并行性需要處理器之間的高速連接,以最大限度地減少這些交換的延遲。
假設(shè)數(shù)據(jù)并行是多個(gè)圖書館員,每個(gè)圖書館員處理一部分書籍。在這種情況下,張量并行就像每個(gè)圖書館員負(fù)責(zé)分類工作的一部分步驟。在模型訓(xùn)練中,每個(gè)GPU負(fù)責(zé)模型中的一部分計(jì)算,例如一個(gè)GPU負(fù)責(zé)模型前半層的計(jì)算,另一個(gè)GPU負(fù)責(zé)模型后半層的計(jì)算。這樣,模型的每一層都可以跨多個(gè)GPU進(jìn)行計(jì)算。
管道并行性:
管道并行是一種并行化策略,其將模型的不同層或部分分配給不同的處理器,并以管道方式執(zhí)行計(jì)算。在管道并行中,輸入數(shù)據(jù)被分成多個(gè)微批次,每個(gè)微批次依次通過模型的每一層。當(dāng)一個(gè)微批次完成第一層的計(jì)算后,其立即傳遞到下一層,同時(shí)第一層開始處理下一個(gè)微批次。這種方式可以減少處理器的空閑時(shí)間,但需要仔細(xì)管理管道,以避免產(chǎn)生太大的停頓,其中某些處理器可能會(huì)因?yàn)榈却嚓P(guān)計(jì)算結(jié)果而暫停其工作。
管道并行就像工廠裝配線上的工人,每個(gè)工人執(zhí)行特定的任務(wù),然后將半成品傳遞給下一個(gè)工人。在模型訓(xùn)練中,模型被分成幾個(gè)部分,每個(gè)部分在不同的GPU上順序執(zhí)行。當(dāng)一個(gè)GPU完成其部分計(jì)算時(shí),其將中間結(jié)果傳遞給下一個(gè)GPU以繼續(xù)計(jì)算。
在實(shí)際部署中,網(wǎng)絡(luò)的設(shè)計(jì)必須考慮這些并行策略的帶寬和延遲要求,以保證模型訓(xùn)練的效率和效果。有時(shí),這三種并行策略結(jié)合起來可以進(jìn)一步優(yōu)化訓(xùn)練過程。例如,大型模型可以使用多個(gè)GPU上的數(shù)據(jù)并行性來處理不同的數(shù)據(jù)子集,同時(shí)使用每個(gè)GPU內(nèi)的張量并行性來處理模型的不同部分。
我們?cè)賮砜纯创竽P陀?xùn)練對(duì)AI算力的需求。隨著大模型的不斷升級(jí),模型訓(xùn)練的算力需求也隨之增加,每三個(gè)月翻一番。GPT-3模型(1750億參數(shù),45TB訓(xùn)練語料,消耗3640PFlops/s-Days算力)ChatGPT3,使用128臺(tái)A100服務(wù)器,總共1024張A100卡進(jìn)行訓(xùn)練,因此單個(gè)服務(wù)器節(jié)點(diǎn)需要4個(gè)100G網(wǎng)絡(luò)渠道;而ChatGPT4、ChatGPT5等大型模型,對(duì)網(wǎng)絡(luò)的要求會(huì)更高。
AIGC發(fā)展到現(xiàn)在,訓(xùn)練的模型參數(shù)從1000億飆升到10萬億。要完成如此大規(guī)模的訓(xùn)練,底層支撐的GPU數(shù)量也達(dá)到了萬卡的規(guī)模。
那么問題來了,影響GPU利用率最大的因素是什么?
答案是網(wǎng)絡(luò)。
作為擁有數(shù)萬個(gè)GPU的計(jì)算集群,與存儲(chǔ)集群的數(shù)據(jù)交互需要巨大的帶寬。此外,GPU在執(zhí)行訓(xùn)練計(jì)算時(shí)并不是獨(dú)立的,而是使用混合并行。GPU之間有大量的數(shù)據(jù)交換,這也需要巨大的帶寬。
如果網(wǎng)絡(luò)不強(qiáng)大,數(shù)據(jù)傳輸速度慢,GPU需要等待數(shù)據(jù),利用率降低。利用率的下降會(huì)增加訓(xùn)練時(shí)間、成本,用戶體驗(yàn)也會(huì)變差。
業(yè)界做了一個(gè)模型來計(jì)算網(wǎng)絡(luò)帶寬吞吐量、通信延遲和GPU利用率之間的關(guān)系,如下圖所示:
帶寬吞吐量和GPU利用率/動(dòng)態(tài)延遲和GPU利用率
從這可以看到,網(wǎng)絡(luò)吞吐量越強(qiáng),GPU利用率越高;通信動(dòng)態(tài)延遲越大,GPU利用率越低。
什么樣的網(wǎng)絡(luò)可以支持AIGC的運(yùn)行?
為了應(yīng)對(duì)AI集群計(jì)算對(duì)網(wǎng)絡(luò)的高要求,業(yè)界提出了多種解決方案。在傳統(tǒng)策略中,常見有三種技術(shù):Infiniband、RDMA和幀交換機(jī)。
Infiniband網(wǎng)絡(luò)
對(duì)于熟悉數(shù)據(jù)通信的專業(yè)人士來說,Infiniband網(wǎng)絡(luò)并不陌生。它被譽(yù)為構(gòu)建高性能網(wǎng)絡(luò)的最佳方式,確保極高的帶寬、無擁塞、低延遲。ChatGPT和GPT-4使用的網(wǎng)絡(luò)是Infiniband網(wǎng)絡(luò)。但該技術(shù)的缺點(diǎn)是價(jià)格昂貴,成本是傳統(tǒng)以太網(wǎng)組網(wǎng)的數(shù)倍。另外,該技術(shù)相對(duì)封閉,行業(yè)內(nèi)只有一家成熟的供應(yīng)商,限制了用戶的選擇。
RDMA網(wǎng)絡(luò)
RDMA,即遠(yuǎn)程直接內(nèi)存訪問,是一種新型的通信機(jī)制。在RDMA方案中,數(shù)據(jù)可以直接與網(wǎng)卡通信,繞過CPU和復(fù)雜的操作系統(tǒng),不僅大大提高了吞吐量,而且保證了更低的延遲。
此前,RDMA主要承載在InfiniBand網(wǎng)絡(luò)上,F(xiàn)在,已逐步移植到以太網(wǎng)上。目前主流的組網(wǎng)方案是基于RoCE v2協(xié)議構(gòu)建支持RDMA的網(wǎng)絡(luò)。然而,該方案中的PFC和ECN技術(shù)雖然是為了避免鏈路擁塞而產(chǎn)生的,但在頻繁觸發(fā)時(shí)可能會(huì)導(dǎo)致發(fā)送方暫;蜃兟瑥亩绊懲ㄐ艓。
幀交換機(jī)
一些互聯(lián)網(wǎng)企業(yè)曾希望使用幀交換機(jī)來滿足高性能網(wǎng)絡(luò)的需求。但該方案存在可擴(kuò)展性不足、設(shè)備功耗高、故障域大等挑戰(zhàn),僅適合小規(guī)模AI計(jì)算集群部署。
新一代AIGC網(wǎng)絡(luò):DDC技術(shù)
鑒于傳統(tǒng)方案的種種局限性,一種新的解決方案——DDC(分布式機(jī)箱)應(yīng)運(yùn)而生。DDC“拆解”了傳統(tǒng)幀交換機(jī),增強(qiáng)其可擴(kuò)展性,并根據(jù)AI集群規(guī)模靈活設(shè)計(jì)網(wǎng)絡(luò)規(guī)模。通過這種創(chuàng)新方式,DDC克服了傳統(tǒng)方案的局限性,為AI計(jì)算提供了更加高效、靈活的網(wǎng)絡(luò)架構(gòu)。
從規(guī)模和帶寬吞吐量來看,DDC完全滿足大規(guī)模AI模型訓(xùn)練的網(wǎng)絡(luò)需求。然而網(wǎng)絡(luò)運(yùn)行不僅僅是這兩方面,還需要在時(shí)延、負(fù)載均衡、管理效率等方面進(jìn)行優(yōu)化。為此,DDC采取以下技術(shù)策略:
VOQ+基于Cell的轉(zhuǎn)發(fā)機(jī)制,有效對(duì)抗丟包
當(dāng)網(wǎng)絡(luò)遇到突發(fā)流量時(shí),可能會(huì)導(dǎo)致接收方處理緩慢,導(dǎo)致?lián)砣G包。DDC采用的VOQ+Cell-based轉(zhuǎn)發(fā)機(jī)制可以很好地解決這個(gè)問題。具體流程如下:
發(fā)送方收到數(shù)據(jù)包后,首先將數(shù)據(jù)包分類并存儲(chǔ)到VOQ中。在發(fā)送數(shù)據(jù)包之前,NCP首先會(huì)發(fā)送Credit消息來確認(rèn)接收方是否有足夠的緩沖區(qū)空間。只有當(dāng)接收方確認(rèn)自己有處理能力時(shí),數(shù)據(jù)包才會(huì)被切片成Cell并動(dòng)態(tài)負(fù)載均衡到Fabric節(jié)點(diǎn)。如果接收方暫時(shí)無法處理,數(shù)據(jù)包會(huì)暫時(shí)存儲(chǔ)在發(fā)送方的VOQ中,不會(huì)直接轉(zhuǎn)發(fā)。這種機(jī)制充分利用了緩存,可以大大減少甚至避免丟包,從而提高整體通信穩(wěn)定性,減少延遲,提高帶寬利用率和業(yè)務(wù)吞吐效率。
PFC單跳部署,徹底避免死鎖
PFC技術(shù)用于RDMA無損網(wǎng)絡(luò)中的流量控制,可以為以太網(wǎng)鏈路創(chuàng)建多個(gè)虛擬通道,并為每個(gè)通道設(shè)置優(yōu)先級(jí)。然而,PFC也存在死鎖問題。
在DDC網(wǎng)絡(luò)中,由于所有NCP和NCF被視為整體設(shè)備,因此不存在多級(jí)切換,從而完全避免了PFC的死鎖問題。
PFC工作機(jī)制示意圖
40*200G
分布式操作系統(tǒng),增強(qiáng)可靠性
在DDC架構(gòu)中,管理功能由NCC集中控制,但這可能會(huì)帶來單點(diǎn)故障的風(fēng)險(xiǎn)。為了避免這個(gè)問題,DDC采用分布式操作系統(tǒng),允許每個(gè)NCP和NCF獨(dú)立管理,并具有獨(dú)立的控制平面和管理平面。這不僅大大提高了系統(tǒng)的可靠性,而且更易于部署。
總結(jié)
DDC通過其獨(dú)特的技術(shù)策略,滿足了大規(guī)模AI模型訓(xùn)練的網(wǎng)絡(luò)需求,同時(shí)也在諸多細(xì)節(jié)上進(jìn)行了優(yōu)化,保證了網(wǎng)絡(luò)在各種復(fù)雜條件下都能穩(wěn)定高效地運(yùn)行。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
近日,德國柏林國際電子消費(fèi)品展覽會(huì)(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計(jì)及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)成功斬獲兩項(xiàng)“IFA全球產(chǎn)品設(shè)計(jì)創(chuàng)新大獎(jiǎng)”金獎(jiǎng),有力證明了其在全球市場(chǎng)的強(qiáng)大影響力。
近日,中國家電及消費(fèi)電子博覽會(huì)(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項(xiàng)AWE 2024艾普蘭大獎(jiǎng)。
“以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
由世界人工智能大會(huì)組委會(huì)、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會(huì)共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會(huì)聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開放原子開源基金會(huì)主辦的“2024全球開發(fā)者先鋒大會(huì)”,將于2024年3月23日至24日舉辦。