AIGC新一代網(wǎng)絡解決方案：組網(wǎng)DDC技術(shù)

2023年12月20日 18:09:33 來源：fiber mall

　　By Brian

　　2023年是AI人工智能技術(shù)全面崛起的一年，以ChatGPT、GPT-4、Ernie Bot等大型AIGC模型為代表，它們集文字寫作、代碼開發(fā)、詩歌創(chuàng)作等多種功能于一體，展示了優(yōu)秀的內(nèi)容生產(chǎn)能力，給人以深刻的震撼。作為一名IT專業(yè)人士，AIGC大模型背后的通信技術(shù)也應該引起深思。沒有好的網(wǎng)絡，就無從談及大模型的訓練。構(gòu)建大規(guī)模訓練模型集群，不僅需要GPU服務器、網(wǎng)卡等基礎(chǔ)組件，而且網(wǎng)絡建設(shè)問題也亟待解決。什么樣的強大網(wǎng)絡在支撐AIGC的運行?AI浪潮的全面到來，將給傳統(tǒng)網(wǎng)絡帶來怎樣的革命性變化?

　　前面提到的AIGC大模型之所以如此強大，不僅是因為其背后有大量的數(shù)據(jù)支撐，還因為算法在不斷進化和升級。更重要的是，人類計算能力的規(guī)模已經(jīng)發(fā)展到一定程度。強大的算力基礎(chǔ)設(shè)施可以充分支撐AIGC的計算需求。在訓練大型模型時，由于模型的大小通常會超過單個GPU的內(nèi)存和計算能力，因此需要多個GPU來分擔負載。在大模型訓練過程中，GPU負載分擔有三種方式，即張量并行、管道并行、數(shù)據(jù)并行。

　　數(shù)據(jù)并行性：

　　數(shù)據(jù)并行是一種簡單且直接的并行化技術(shù)，其中在多個處理器(如GPU)上復制模型的完整副本。每個處理器或GPU都會獲得整個模型的副本，并獨立地對不同的數(shù)據(jù)子集執(zhí)行前向和后向傳播。在每個訓練步驟之后，來自所有處理器的模型權(quán)重更新需要合并或同步，這通常通過某種形式的集體通信操作來完成，例如all-reduce。數(shù)據(jù)并行性允許模型在更大的數(shù)據(jù)集上進行訓練，因為數(shù)據(jù)被分成多個小批次，每個批次在不同的處理器上處理。

　　想象一個大型圖書館，需要對其中的所有書籍進行分類。數(shù)據(jù)并行就像雇用多個圖書管理員，每個圖書管理員負責對一部分圖書進行分類。在模型訓練的情況下，每個GPU都會獲得整個模型的副本，但只處理整個數(shù)據(jù)集的一部分。當所有GPU完成各自的任務后，它們交換信息以同步更新模型權(quán)重。

　　張量并行性：

　　當模型太大而無法容納單個處理器的內(nèi)存時，通常使用張量并行性。在這種并行化策略中，模型的不同部分，例如神經(jīng)網(wǎng)絡層中的不同張量或參數(shù)組，被分配給不同的處理器。這意味著每個處理器只負責計算模型的一部分。為了完成整個模型的前向和后向傳播，處理器必須頻繁地交換中間結(jié)果，這可能會導致較高的通信開銷。張量并行性需要處理器之間的高速連接，以最大限度地減少這些交換的延遲。

　　假設(shè)數(shù)據(jù)并行是多個圖書館員，每個圖書館員處理一部分書籍。在這種情況下，張量并行就像每個圖書館員負責分類工作的一部分步驟。在模型訓練中，每個GPU負責模型中的一部分計算，例如一個GPU負責模型前半層的計算，另一個GPU負責模型后半層的計算。這樣，模型的每一層都可以跨多個GPU進行計算。

　　管道并行性：

　　管道并行是一種并行化策略，其將模型的不同層或部分分配給不同的處理器，并以管道方式執(zhí)行計算。在管道并行中，輸入數(shù)據(jù)被分成多個微批次，每個微批次依次通過模型的每一層。當一個微批次完成第一層的計算后，其立即傳遞到下一層，同時第一層開始處理下一個微批次。這種方式可以減少處理器的空閑時間，但需要仔細管理管道，以避免產(chǎn)生太大的停頓，其中某些處理器可能會因為等待相關(guān)計算結(jié)果而暫停其工作。

　　管道并行就像工廠裝配線上的工人，每個工人執(zhí)行特定的任務，然后將半成品傳遞給下一個工人。在模型訓練中，模型被分成幾個部分，每個部分在不同的GPU上順序執(zhí)行。當一個GPU完成其部分計算時，其將中間結(jié)果傳遞給下一個GPU以繼續(xù)計算。

　　在實際部署中，網(wǎng)絡的設(shè)計必須考慮這些并行策略的帶寬和延遲要求，以保證模型訓練的效率和效果。有時，這三種并行策略結(jié)合起來可以進一步優(yōu)化訓練過程。例如，大型模型可以使用多個GPU上的數(shù)據(jù)并行性來處理不同的數(shù)據(jù)子集，同時使用每個GPU內(nèi)的張量并行性來處理模型的不同部分。

　　我們再來看看大模型訓練對AI算力的需求。隨著大模型的不斷升級，模型訓練的算力需求也隨之增加，每三個月翻一番。GPT-3模型(1750億參數(shù)，45TB訓練語料，消耗3640PFlops/s-Days算力)ChatGPT3，使用128臺A100服務器，總共1024張A100卡進行訓練，因此單個服務器節(jié)點需要4個100G網(wǎng)絡渠道;而ChatGPT4、ChatGPT5等大型模型，對網(wǎng)絡的要求會更高。

　　AIGC發(fā)展到現(xiàn)在，訓練的模型參數(shù)從1000億飆升到10萬億。要完成如此大規(guī)模的訓練，底層支撐的GPU數(shù)量也達到了萬卡的規(guī)模。

　　那么問題來了，影響GPU利用率最大的因素是什么?

　　答案是網(wǎng)絡。

　　作為擁有數(shù)萬個GPU的計算集群，與存儲集群的數(shù)據(jù)交互需要巨大的帶寬。此外，GPU在執(zhí)行訓練計算時并不是獨立的，而是使用混合并行。GPU之間有大量的數(shù)據(jù)交換，這也需要巨大的帶寬。

　　如果網(wǎng)絡不強大，數(shù)據(jù)傳輸速度慢，GPU需要等待數(shù)據(jù)，利用率降低。利用率的下降會增加訓練時間、成本，用戶體驗也會變差。

　　業(yè)界做了一個模型來計算網(wǎng)絡帶寬吞吐量、通信延遲和GPU利用率之間的關(guān)系，如下圖所示：

AIGC新一代網(wǎng)絡解決方案：組網(wǎng)DDC技術(shù)

　　帶寬吞吐量和GPU利用率/動態(tài)延遲和GPU利用率

　　從這可以看到，網(wǎng)絡吞吐量越強，GPU利用率越高;通信動態(tài)延遲越大，GPU利用率越低。

　　什么樣的網(wǎng)絡可以支持AIGC的運行?

　　為了應對AI集群計算對網(wǎng)絡的高要求，業(yè)界提出了多種解決方案。在傳統(tǒng)策略中，常見有三種技術(shù)：Infiniband、RDMA和幀交換機。

　　Infiniband網(wǎng)絡

　　對于熟悉數(shù)據(jù)通信的專業(yè)人士來說，Infiniband網(wǎng)絡并不陌生。它被譽為構(gòu)建高性能網(wǎng)絡的最佳方式，確保極高的帶寬、無擁塞、低延遲。ChatGPT和GPT-4使用的網(wǎng)絡是Infiniband網(wǎng)絡。但該技術(shù)的缺點是價格昂貴，成本是傳統(tǒng)以太網(wǎng)組網(wǎng)的數(shù)倍。另外，該技術(shù)相對封閉，行業(yè)內(nèi)只有一家成熟的供應商，限制了用戶的選擇。

AIGC新一代網(wǎng)絡解決方案：組網(wǎng)DDC技術(shù)

　　RDMA網(wǎng)絡

　　RDMA，即遠程直接內(nèi)存訪問，是一種新型的通信機制。在RDMA方案中，數(shù)據(jù)可以直接與網(wǎng)卡通信，繞過CPU和復雜的操作系統(tǒng)，不僅大大提高了吞吐量，而且保證了更低的延遲。

　　此前，RDMA主要承載在InfiniBand網(wǎng)絡上�，F(xiàn)在，已逐步移植到以太網(wǎng)上。目前主流的組網(wǎng)方案是基于RoCE v2協(xié)議構(gòu)建支持RDMA的網(wǎng)絡。然而，該方案中的PFC和ECN技術(shù)雖然是為了避免鏈路擁塞而產(chǎn)生的，但在頻繁觸發(fā)時可能會導致發(fā)送方暫停或變慢，從而影響通信帶寬。

AIGC新一代網(wǎng)絡解決方案：組網(wǎng)DDC技術(shù)

　　幀交換機

　　一些互聯(lián)網(wǎng)企業(yè)曾希望使用幀交換機來滿足高性能網(wǎng)絡的需求。但該方案存在可擴展性不足、設(shè)備功耗高、故障域大等挑戰(zhàn)，僅適合小規(guī)模AI計算集群部署。

　　新一代AIGC網(wǎng)絡：DDC技術(shù)

　　鑒于傳統(tǒng)方案的種種局限性，一種新的解決方案——DDC(分布式機箱)應運而生。DDC“拆解”了傳統(tǒng)幀交換機，增強其可擴展性，并根據(jù)AI集群規(guī)模靈活設(shè)計網(wǎng)絡規(guī)模。通過這種創(chuàng)新方式，DDC克服了傳統(tǒng)方案的局限性，為AI計算提供了更加高效、靈活的網(wǎng)絡架構(gòu)。

　　從規(guī)模和帶寬吞吐量來看，DDC完全滿足大規(guī)模AI模型訓練的網(wǎng)絡需求。然而網(wǎng)絡運行不僅僅是這兩方面，還需要在時延、負載均衡、管理效率等方面進行優(yōu)化。為此，DDC采取以下技術(shù)策略：

　　VOQ+基于Cell的轉(zhuǎn)發(fā)機制，有效對抗丟包

　　當網(wǎng)絡遇到突發(fā)流量時，可能會導致接收方處理緩慢，導致?lián)砣�、丟包。DDC采用的VOQ+Cell-based轉(zhuǎn)發(fā)機制可以很好地解決這個問題。具體流程如下：

　　發(fā)送方收到數(shù)據(jù)包后，首先將數(shù)據(jù)包分類并存儲到VOQ中。在發(fā)送數(shù)據(jù)包之前，NCP首先會發(fā)送Credit消息來確認接收方是否有足夠的緩沖區(qū)空間。只有當接收方確認自己有處理能力時，數(shù)據(jù)包才會被切片成Cell并動態(tài)負載均衡到Fabric節(jié)點。如果接收方暫時無法處理，數(shù)據(jù)包會暫時存儲在發(fā)送方的VOQ中，不會直接轉(zhuǎn)發(fā)。這種機制充分利用了緩存，可以大大減少甚至避免丟包，從而提高整體通信穩(wěn)定性，減少延遲，提高帶寬利用率和業(yè)務吞吐效率。

AIGC新一代網(wǎng)絡解決方案：組網(wǎng)DDC技術(shù)