By Brian
2023年是AI人工智能技術(shù)全面崛起的一年,以ChatGPT、GPT-4、Ernie Bot等大型AIGC模型為代表,它們集文字寫作、代碼開發(fā)、詩歌創(chuàng)作等多種功能于一體,展示了優(yōu)秀的內(nèi)容生產(chǎn)能力,給人以深刻的震撼。作為一名IT專業(yè)人士,AIGC大模型背后的通信技術(shù)也應該引起深思。沒有好的網(wǎng)絡,就無從談及大模型的訓練。構(gòu)建大規(guī)模訓練模型集群,不僅需要GPU服務器、網(wǎng)卡等基礎(chǔ)組件,而且網(wǎng)絡建設(shè)問題也亟待解決。什么樣的強大網(wǎng)絡在支撐AIGC的運行?AI浪潮的全面到來,將給傳統(tǒng)網(wǎng)絡帶來怎樣的革命性變化?
前面提到的AIGC大模型之所以如此強大,不僅是因為其背后有大量的數(shù)據(jù)支撐,還因為算法在不斷進化和升級。更重要的是,人類計算能力的規(guī)模已經(jīng)發(fā)展到一定程度。強大的算力基礎(chǔ)設(shè)施可以充分支撐AIGC的計算需求。在訓練大型模型時,由于模型的大小通常會超過單個GPU的內(nèi)存和計算能力,因此需要多個GPU來分擔負載。在大模型訓練過程中,GPU負載分擔有三種方式,即張量并行、管道并行、數(shù)據(jù)并行。
數(shù)據(jù)并行性:
數(shù)據(jù)并行是一種簡單且直接的并行化技術(shù),其中在多個處理器(如GPU)上復制模型的完整副本。每個處理器或GPU都會獲得整個模型的副本,并獨立地對不同的數(shù)據(jù)子集執(zhí)行前向和后向傳播。在每個訓練步驟之后,來自所有處理器的模型權(quán)重更新需要合并或同步,這通常通過某種形式的集體通信操作來完成,例如all-reduce。數(shù)據(jù)并行性允許模型在更大的數(shù)據(jù)集上進行訓練,因為數(shù)據(jù)被分成多個小批次,每個批次在不同的處理器上處理。
想象一個大型圖書館,需要對其中的所有書籍進行分類。數(shù)據(jù)并行就像雇用多個圖書管理員,每個圖書管理員負責對一部分圖書進行分類。在模型訓練的情況下,每個GPU都會獲得整個模型的副本,但只處理整個數(shù)據(jù)集的一部分。當所有GPU完成各自的任務后,它們交換信息以同步更新模型權(quán)重。
張量并行性:
當模型太大而無法容納單個處理器的內(nèi)存時,通常使用張量并行性。在這種并行化策略中,模型的不同部分,例如神經(jīng)網(wǎng)絡層中的不同張量或參數(shù)組,被分配給不同的處理器。這意味著每個處理器只負責計算模型的一部分。為了完成整個模型的前向和后向傳播,處理器必須頻繁地交換中間結(jié)果,這可能會導致較高的通信開銷。張量并行性需要處理器之間的高速連接,以最大限度地減少這些交換的延遲。
假設(shè)數(shù)據(jù)并行是多個圖書館員,每個圖書館員處理一部分書籍。在這種情況下,張量并行就像每個圖書館員負責分類工作的一部分步驟。在模型訓練中,每個GPU負責模型中的一部分計算,例如一個GPU負責模型前半層的計算,另一個GPU負責模型后半層的計算。這樣,模型的每一層都可以跨多個GPU進行計算。
管道并行性:
管道并行是一種并行化策略,其將模型的不同層或部分分配給不同的處理器,并以管道方式執(zhí)行計算。在管道并行中,輸入數(shù)據(jù)被分成多個微批次,每個微批次依次通過模型的每一層。當一個微批次完成第一層的計算后,其立即傳遞到下一層,同時第一層開始處理下一個微批次。這種方式可以減少處理器的空閑時間,但需要仔細管理管道,以避免產(chǎn)生太大的停頓,其中某些處理器可能會因為等待相關(guān)計算結(jié)果而暫停其工作。
管道并行就像工廠裝配線上的工人,每個工人執(zhí)行特定的任務,然后將半成品傳遞給下一個工人。在模型訓練中,模型被分成幾個部分,每個部分在不同的GPU上順序執(zhí)行。當一個GPU完成其部分計算時,其將中間結(jié)果傳遞給下一個GPU以繼續(xù)計算。
在實際部署中,網(wǎng)絡的設(shè)計必須考慮這些并行策略的帶寬和延遲要求,以保證模型訓練的效率和效果。有時,這三種并行策略結(jié)合起來可以進一步優(yōu)化訓練過程。例如,大型模型可以使用多個GPU上的數(shù)據(jù)并行性來處理不同的數(shù)據(jù)子集,同時使用每個GPU內(nèi)的張量并行性來處理模型的不同部分。
我們再來看看大模型訓練對AI算力的需求。隨著大模型的不斷升級,模型訓練的算力需求也隨之增加,每三個月翻一番。GPT-3模型(1750億參數(shù),45TB訓練語料,消耗3640PFlops/s-Days算力)ChatGPT3,使用128臺A100服務器,總共1024張A100卡進行訓練,因此單個服務器節(jié)點需要4個100G網(wǎng)絡渠道;而ChatGPT4、ChatGPT5等大型模型,對網(wǎng)絡的要求會更高。
AIGC發(fā)展到現(xiàn)在,訓練的模型參數(shù)從1000億飆升到10萬億。要完成如此大規(guī)模的訓練,底層支撐的GPU數(shù)量也達到了萬卡的規(guī)模。
那么問題來了,影響GPU利用率最大的因素是什么?
答案是網(wǎng)絡。
作為擁有數(shù)萬個GPU的計算集群,與存儲集群的數(shù)據(jù)交互需要巨大的帶寬。此外,GPU在執(zhí)行訓練計算時并不是獨立的,而是使用混合并行。GPU之間有大量的數(shù)據(jù)交換,這也需要巨大的帶寬。
如果網(wǎng)絡不強大,數(shù)據(jù)傳輸速度慢,GPU需要等待數(shù)據(jù),利用率降低。利用率的下降會增加訓練時間、成本,用戶體驗也會變差。
業(yè)界做了一個模型來計算網(wǎng)絡帶寬吞吐量、通信延遲和GPU利用率之間的關(guān)系,如下圖所示:
帶寬吞吐量和GPU利用率/動態(tài)延遲和GPU利用率
從這可以看到,網(wǎng)絡吞吐量越強,GPU利用率越高;通信動態(tài)延遲越大,GPU利用率越低。
什么樣的網(wǎng)絡可以支持AIGC的運行?
為了應對AI集群計算對網(wǎng)絡的高要求,業(yè)界提出了多種解決方案。在傳統(tǒng)策略中,常見有三種技術(shù):Infiniband、RDMA和幀交換機。
Infiniband網(wǎng)絡
對于熟悉數(shù)據(jù)通信的專業(yè)人士來說,Infiniband網(wǎng)絡并不陌生。它被譽為構(gòu)建高性能網(wǎng)絡的最佳方式,確保極高的帶寬、無擁塞、低延遲。ChatGPT和GPT-4使用的網(wǎng)絡是Infiniband網(wǎng)絡。但該技術(shù)的缺點是價格昂貴,成本是傳統(tǒng)以太網(wǎng)組網(wǎng)的數(shù)倍。另外,該技術(shù)相對封閉,行業(yè)內(nèi)只有一家成熟的供應商,限制了用戶的選擇。
RDMA網(wǎng)絡
RDMA,即遠程直接內(nèi)存訪問,是一種新型的通信機制。在RDMA方案中,數(shù)據(jù)可以直接與網(wǎng)卡通信,繞過CPU和復雜的操作系統(tǒng),不僅大大提高了吞吐量,而且保證了更低的延遲。
此前,RDMA主要承載在InfiniBand網(wǎng)絡上,F(xiàn)在,已逐步移植到以太網(wǎng)上。目前主流的組網(wǎng)方案是基于RoCE v2協(xié)議構(gòu)建支持RDMA的網(wǎng)絡。然而,該方案中的PFC和ECN技術(shù)雖然是為了避免鏈路擁塞而產(chǎn)生的,但在頻繁觸發(fā)時可能會導致發(fā)送方暫停或變慢,從而影響通信帶寬。
幀交換機
一些互聯(lián)網(wǎng)企業(yè)曾希望使用幀交換機來滿足高性能網(wǎng)絡的需求。但該方案存在可擴展性不足、設(shè)備功耗高、故障域大等挑戰(zhàn),僅適合小規(guī)模AI計算集群部署。
新一代AIGC網(wǎng)絡:DDC技術(shù)
鑒于傳統(tǒng)方案的種種局限性,一種新的解決方案——DDC(分布式機箱)應運而生。DDC“拆解”了傳統(tǒng)幀交換機,增強其可擴展性,并根據(jù)AI集群規(guī)模靈活設(shè)計網(wǎng)絡規(guī)模。通過這種創(chuàng)新方式,DDC克服了傳統(tǒng)方案的局限性,為AI計算提供了更加高效、靈活的網(wǎng)絡架構(gòu)。
從規(guī)模和帶寬吞吐量來看,DDC完全滿足大規(guī)模AI模型訓練的網(wǎng)絡需求。然而網(wǎng)絡運行不僅僅是這兩方面,還需要在時延、負載均衡、管理效率等方面進行優(yōu)化。為此,DDC采取以下技術(shù)策略:
VOQ+基于Cell的轉(zhuǎn)發(fā)機制,有效對抗丟包
當網(wǎng)絡遇到突發(fā)流量時,可能會導致接收方處理緩慢,導致?lián)砣、丟包。DDC采用的VOQ+Cell-based轉(zhuǎn)發(fā)機制可以很好地解決這個問題。具體流程如下:
發(fā)送方收到數(shù)據(jù)包后,首先將數(shù)據(jù)包分類并存儲到VOQ中。在發(fā)送數(shù)據(jù)包之前,NCP首先會發(fā)送Credit消息來確認接收方是否有足夠的緩沖區(qū)空間。只有當接收方確認自己有處理能力時,數(shù)據(jù)包才會被切片成Cell并動態(tài)負載均衡到Fabric節(jié)點。如果接收方暫時無法處理,數(shù)據(jù)包會暫時存儲在發(fā)送方的VOQ中,不會直接轉(zhuǎn)發(fā)。這種機制充分利用了緩存,可以大大減少甚至避免丟包,從而提高整體通信穩(wěn)定性,減少延遲,提高帶寬利用率和業(yè)務吞吐效率。
PFC單跳部署,徹底避免死鎖
PFC技術(shù)用于RDMA無損網(wǎng)絡中的流量控制,可以為以太網(wǎng)鏈路創(chuàng)建多個虛擬通道,并為每個通道設(shè)置優(yōu)先級。然而,PFC也存在死鎖問題。
在DDC網(wǎng)絡中,由于所有NCP和NCF被視為整體設(shè)備,因此不存在多級切換,從而完全避免了PFC的死鎖問題。
PFC工作機制示意圖
40*200G
分布式操作系統(tǒng),增強可靠性
在DDC架構(gòu)中,管理功能由NCC集中控制,但這可能會帶來單點故障的風險。為了避免這個問題,DDC采用分布式操作系統(tǒng),允許每個NCP和NCF獨立管理,并具有獨立的控制平面和管理平面。這不僅大大提高了系統(tǒng)的可靠性,而且更易于部署。
總結(jié)
DDC通過其獨特的技術(shù)策略,滿足了大規(guī)模AI模型訓練的網(wǎng)絡需求,同時也在諸多細節(jié)上進行了優(yōu)化,保證了網(wǎng)絡在各種復雜條件下都能穩(wěn)定高效地運行。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。
2024年的Adobe MAX 2024發(fā)布會上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標識解析專題論壇在沈陽成功舉辦。