正在逐步覆蓋!騰訊提醒勿為實(shí)況圖重裝微信:以免丟失微信聊天記錄iPhone16多款機(jī)型破發(fā):最高比官網(wǎng)便宜600元劉積仁不愛“湊熱鬧”,但東軟集團(tuán)喜歡“追風(fēng)口”快手電商新增近800個(gè)“0元開店”類目,推出多項(xiàng)新商入駐權(quán)益年內(nèi)狂攬五項(xiàng)第一,“字節(jié)系大模型”何以后發(fā)先至?科技云報(bào)到:有韌性才能更“任性”,云韌性構(gòu)筑業(yè)務(wù)最后一道防線阿里云盤出“BUG”客服回應(yīng):已修復(fù)圍剿BBA,比亞迪和騰勢(shì)也準(zhǔn)備出一份力阿里云服務(wù)器操作系統(tǒng)Alibaba Cloud Linux全新升級(jí),核心場(chǎng)景性能提升超20%屏幕面板 10 月出貨,蘋果 M4 MacBook Air 被曝 2025Q1 發(fā)布蘋果史上最大:iPhone 16系列電池容量公布后移動(dòng)互聯(lián)網(wǎng)時(shí)代,移動(dòng)App兼容測(cè)試持續(xù)占據(jù)核心地位歐盟警告蘋果:六個(gè)月內(nèi)開放iPhone系統(tǒng) 否則重罰湖北省電子信息產(chǎn)業(yè)前8月實(shí)現(xiàn)營收5970億元,同比增長(zhǎng)13.53%傳三星計(jì)劃2025年推出卷軸屏手機(jī)蘋果新專利探索折疊iPhone未來,任意表面實(shí)現(xiàn)觸敏控制蘋果iPhone16/Pro系列手機(jī)今日首銷,5999~9999元起各方媒體的聚焦關(guān)注,中南高科實(shí)力呈現(xiàn)高科“新質(zhì)”表現(xiàn)力拼多多解開了新疆的“包郵絕緣體”封印宏景智駕完成數(shù)億元C輪融資
  • 首頁 > 企業(yè)IT頻道 > 解決方案

    AIGC新一代網(wǎng)絡(luò)解決方案:組網(wǎng)DDC技術(shù)

    2023年12月20日 18:09:33   來源:fiber mall

      By Brian

      2023年是AI人工智能技術(shù)全面崛起的一年,以ChatGPT、GPT-4、Ernie Bot等大型AIGC模型為代表,它們集文字寫作、代碼開發(fā)、詩歌創(chuàng)作等多種功能于一體,展示了優(yōu)秀的內(nèi)容生產(chǎn)能力,給人以深刻的震撼。作為一名IT專業(yè)人士,AIGC大模型背后的通信技術(shù)也應(yīng)該引起深思。沒有好的網(wǎng)絡(luò),就無從談及大模型的訓(xùn)練。構(gòu)建大規(guī)模訓(xùn)練模型集群,不僅需要GPU服務(wù)器、網(wǎng)卡等基礎(chǔ)組件,而且網(wǎng)絡(luò)建設(shè)問題也亟待解決。什么樣的強(qiáng)大網(wǎng)絡(luò)在支撐AIGC的運(yùn)行?AI浪潮的全面到來,將給傳統(tǒng)網(wǎng)絡(luò)帶來怎樣的革命性變化?

      前面提到的AIGC大模型之所以如此強(qiáng)大,不僅是因?yàn)槠浔澈笥写罅康臄?shù)據(jù)支撐,還因?yàn)樗惴ㄔ诓粩噙M(jìn)化和升級(jí)。更重要的是,人類計(jì)算能力的規(guī)模已經(jīng)發(fā)展到一定程度。強(qiáng)大的算力基礎(chǔ)設(shè)施可以充分支撐AIGC的計(jì)算需求。在訓(xùn)練大型模型時(shí),由于模型的大小通常會(huì)超過單個(gè)GPU的內(nèi)存和計(jì)算能力,因此需要多個(gè)GPU來分擔(dān)負(fù)載。在大模型訓(xùn)練過程中,GPU負(fù)載分擔(dān)有三種方式,即張量并行、管道并行、數(shù)據(jù)并行。

      數(shù)據(jù)并行性:

      數(shù)據(jù)并行是一種簡(jiǎn)單且直接的并行化技術(shù),其中在多個(gè)處理器(如GPU)上復(fù)制模型的完整副本。每個(gè)處理器或GPU都會(huì)獲得整個(gè)模型的副本,并獨(dú)立地對(duì)不同的數(shù)據(jù)子集執(zhí)行前向和后向傳播。在每個(gè)訓(xùn)練步驟之后,來自所有處理器的模型權(quán)重更新需要合并或同步,這通常通過某種形式的集體通信操作來完成,例如all-reduce。數(shù)據(jù)并行性允許模型在更大的數(shù)據(jù)集上進(jìn)行訓(xùn)練,因?yàn)閿?shù)據(jù)被分成多個(gè)小批次,每個(gè)批次在不同的處理器上處理。

      想象一個(gè)大型圖書館,需要對(duì)其中的所有書籍進(jìn)行分類。數(shù)據(jù)并行就像雇用多個(gè)圖書管理員,每個(gè)圖書管理員負(fù)責(zé)對(duì)一部分圖書進(jìn)行分類。在模型訓(xùn)練的情況下,每個(gè)GPU都會(huì)獲得整個(gè)模型的副本,但只處理整個(gè)數(shù)據(jù)集的一部分。當(dāng)所有GPU完成各自的任務(wù)后,它們交換信息以同步更新模型權(quán)重。

      張量并行性:

      當(dāng)模型太大而無法容納單個(gè)處理器的內(nèi)存時(shí),通常使用張量并行性。在這種并行化策略中,模型的不同部分,例如神經(jīng)網(wǎng)絡(luò)層中的不同張量或參數(shù)組,被分配給不同的處理器。這意味著每個(gè)處理器只負(fù)責(zé)計(jì)算模型的一部分。為了完成整個(gè)模型的前向和后向傳播,處理器必須頻繁地交換中間結(jié)果,這可能會(huì)導(dǎo)致較高的通信開銷。張量并行性需要處理器之間的高速連接,以最大限度地減少這些交換的延遲。

      假設(shè)數(shù)據(jù)并行是多個(gè)圖書館員,每個(gè)圖書館員處理一部分書籍。在這種情況下,張量并行就像每個(gè)圖書館員負(fù)責(zé)分類工作的一部分步驟。在模型訓(xùn)練中,每個(gè)GPU負(fù)責(zé)模型中的一部分計(jì)算,例如一個(gè)GPU負(fù)責(zé)模型前半層的計(jì)算,另一個(gè)GPU負(fù)責(zé)模型后半層的計(jì)算。這樣,模型的每一層都可以跨多個(gè)GPU進(jìn)行計(jì)算。

      管道并行性:

      管道并行是一種并行化策略,其將模型的不同層或部分分配給不同的處理器,并以管道方式執(zhí)行計(jì)算。在管道并行中,輸入數(shù)據(jù)被分成多個(gè)微批次,每個(gè)微批次依次通過模型的每一層。當(dāng)一個(gè)微批次完成第一層的計(jì)算后,其立即傳遞到下一層,同時(shí)第一層開始處理下一個(gè)微批次。這種方式可以減少處理器的空閑時(shí)間,但需要仔細(xì)管理管道,以避免產(chǎn)生太大的停頓,其中某些處理器可能會(huì)因?yàn)榈却嚓P(guān)計(jì)算結(jié)果而暫停其工作。

      管道并行就像工廠裝配線上的工人,每個(gè)工人執(zhí)行特定的任務(wù),然后將半成品傳遞給下一個(gè)工人。在模型訓(xùn)練中,模型被分成幾個(gè)部分,每個(gè)部分在不同的GPU上順序執(zhí)行。當(dāng)一個(gè)GPU完成其部分計(jì)算時(shí),其將中間結(jié)果傳遞給下一個(gè)GPU以繼續(xù)計(jì)算。

      在實(shí)際部署中,網(wǎng)絡(luò)的設(shè)計(jì)必須考慮這些并行策略的帶寬和延遲要求,以保證模型訓(xùn)練的效率和效果。有時(shí),這三種并行策略結(jié)合起來可以進(jìn)一步優(yōu)化訓(xùn)練過程。例如,大型模型可以使用多個(gè)GPU上的數(shù)據(jù)并行性來處理不同的數(shù)據(jù)子集,同時(shí)使用每個(gè)GPU內(nèi)的張量并行性來處理模型的不同部分。

      我們?cè)賮砜纯创竽P陀?xùn)練對(duì)AI算力的需求。隨著大模型的不斷升級(jí),模型訓(xùn)練的算力需求也隨之增加,每三個(gè)月翻一番。GPT-3模型(1750億參數(shù),45TB訓(xùn)練語料,消耗3640PFlops/s-Days算力)ChatGPT3,使用128臺(tái)A100服務(wù)器,總共1024張A100卡進(jìn)行訓(xùn)練,因此單個(gè)服務(wù)器節(jié)點(diǎn)需要4個(gè)100G網(wǎng)絡(luò)渠道;而ChatGPT4、ChatGPT5等大型模型,對(duì)網(wǎng)絡(luò)的要求會(huì)更高。

      AIGC發(fā)展到現(xiàn)在,訓(xùn)練的模型參數(shù)從1000億飆升到10萬億。要完成如此大規(guī)模的訓(xùn)練,底層支撐的GPU數(shù)量也達(dá)到了萬卡的規(guī)模。

      那么問題來了,影響GPU利用率最大的因素是什么?

      答案是網(wǎng)絡(luò)。

      作為擁有數(shù)萬個(gè)GPU的計(jì)算集群,與存儲(chǔ)集群的數(shù)據(jù)交互需要巨大的帶寬。此外,GPU在執(zhí)行訓(xùn)練計(jì)算時(shí)并不是獨(dú)立的,而是使用混合并行。GPU之間有大量的數(shù)據(jù)交換,這也需要巨大的帶寬。

      如果網(wǎng)絡(luò)不強(qiáng)大,數(shù)據(jù)傳輸速度慢,GPU需要等待數(shù)據(jù),利用率降低。利用率的下降會(huì)增加訓(xùn)練時(shí)間、成本,用戶體驗(yàn)也會(huì)變差。

      業(yè)界做了一個(gè)模型來計(jì)算網(wǎng)絡(luò)帶寬吞吐量、通信延遲和GPU利用率之間的關(guān)系,如下圖所示:

    AIGC新一代網(wǎng)絡(luò)解決方案:組網(wǎng)DDC技術(shù)

      帶寬吞吐量和GPU利用率/動(dòng)態(tài)延遲和GPU利用率

      從這可以看到,網(wǎng)絡(luò)吞吐量越強(qiáng),GPU利用率越高;通信動(dòng)態(tài)延遲越大,GPU利用率越低。

      什么樣的網(wǎng)絡(luò)可以支持AIGC的運(yùn)行?

      為了應(yīng)對(duì)AI集群計(jì)算對(duì)網(wǎng)絡(luò)的高要求,業(yè)界提出了多種解決方案。在傳統(tǒng)策略中,常見有三種技術(shù):Infiniband、RDMA和幀交換機(jī)。

      Infiniband網(wǎng)絡(luò)

      對(duì)于熟悉數(shù)據(jù)通信的專業(yè)人士來說,Infiniband網(wǎng)絡(luò)并不陌生。它被譽(yù)為構(gòu)建高性能網(wǎng)絡(luò)的最佳方式,確保極高的帶寬、無擁塞、低延遲。ChatGPT和GPT-4使用的網(wǎng)絡(luò)是Infiniband網(wǎng)絡(luò)。但該技術(shù)的缺點(diǎn)是價(jià)格昂貴,成本是傳統(tǒng)以太網(wǎng)組網(wǎng)的數(shù)倍。另外,該技術(shù)相對(duì)封閉,行業(yè)內(nèi)只有一家成熟的供應(yīng)商,限制了用戶的選擇。

    AIGC新一代網(wǎng)絡(luò)解決方案:組網(wǎng)DDC技術(shù)

      RDMA網(wǎng)絡(luò)

      RDMA,即遠(yuǎn)程直接內(nèi)存訪問,是一種新型的通信機(jī)制。在RDMA方案中,數(shù)據(jù)可以直接與網(wǎng)卡通信,繞過CPU和復(fù)雜的操作系統(tǒng),不僅大大提高了吞吐量,而且保證了更低的延遲。

      此前,RDMA主要承載在InfiniBand網(wǎng)絡(luò)上,F(xiàn)在,已逐步移植到以太網(wǎng)上。目前主流的組網(wǎng)方案是基于RoCE v2協(xié)議構(gòu)建支持RDMA的網(wǎng)絡(luò)。然而,該方案中的PFC和ECN技術(shù)雖然是為了避免鏈路擁塞而產(chǎn)生的,但在頻繁觸發(fā)時(shí)可能會(huì)導(dǎo)致發(fā)送方暫;蜃兟瑥亩绊懲ㄐ艓。

    AIGC新一代網(wǎng)絡(luò)解決方案:組網(wǎng)DDC技術(shù)

      幀交換機(jī)

      一些互聯(lián)網(wǎng)企業(yè)曾希望使用幀交換機(jī)來滿足高性能網(wǎng)絡(luò)的需求。但該方案存在可擴(kuò)展性不足、設(shè)備功耗高、故障域大等挑戰(zhàn),僅適合小規(guī)模AI計(jì)算集群部署。

      新一代AIGC網(wǎng)絡(luò):DDC技術(shù)

      鑒于傳統(tǒng)方案的種種局限性,一種新的解決方案——DDC(分布式機(jī)箱)應(yīng)運(yùn)而生。DDC“拆解”了傳統(tǒng)幀交換機(jī),增強(qiáng)其可擴(kuò)展性,并根據(jù)AI集群規(guī)模靈活設(shè)計(jì)網(wǎng)絡(luò)規(guī)模。通過這種創(chuàng)新方式,DDC克服了傳統(tǒng)方案的局限性,為AI計(jì)算提供了更加高效、靈活的網(wǎng)絡(luò)架構(gòu)。

      從規(guī)模和帶寬吞吐量來看,DDC完全滿足大規(guī)模AI模型訓(xùn)練的網(wǎng)絡(luò)需求。然而網(wǎng)絡(luò)運(yùn)行不僅僅是這兩方面,還需要在時(shí)延、負(fù)載均衡、管理效率等方面進(jìn)行優(yōu)化。為此,DDC采取以下技術(shù)策略:

      VOQ+基于Cell的轉(zhuǎn)發(fā)機(jī)制,有效對(duì)抗丟包

      當(dāng)網(wǎng)絡(luò)遇到突發(fā)流量時(shí),可能會(huì)導(dǎo)致接收方處理緩慢,導(dǎo)致?lián)砣G包。DDC采用的VOQ+Cell-based轉(zhuǎn)發(fā)機(jī)制可以很好地解決這個(gè)問題。具體流程如下:

      發(fā)送方收到數(shù)據(jù)包后,首先將數(shù)據(jù)包分類并存儲(chǔ)到VOQ中。在發(fā)送數(shù)據(jù)包之前,NCP首先會(huì)發(fā)送Credit消息來確認(rèn)接收方是否有足夠的緩沖區(qū)空間。只有當(dāng)接收方確認(rèn)自己有處理能力時(shí),數(shù)據(jù)包才會(huì)被切片成Cell并動(dòng)態(tài)負(fù)載均衡到Fabric節(jié)點(diǎn)。如果接收方暫時(shí)無法處理,數(shù)據(jù)包會(huì)暫時(shí)存儲(chǔ)在發(fā)送方的VOQ中,不會(huì)直接轉(zhuǎn)發(fā)。這種機(jī)制充分利用了緩存,可以大大減少甚至避免丟包,從而提高整體通信穩(wěn)定性,減少延遲,提高帶寬利用率和業(yè)務(wù)吞吐效率。

    AIGC新一代網(wǎng)絡(luò)解決方案:組網(wǎng)DDC技術(shù)

      PFC單跳部署,徹底避免死鎖

      PFC技術(shù)用于RDMA無損網(wǎng)絡(luò)中的流量控制,可以為以太網(wǎng)鏈路創(chuàng)建多個(gè)虛擬通道,并為每個(gè)通道設(shè)置優(yōu)先級(jí)。然而,PFC也存在死鎖問題。

      在DDC網(wǎng)絡(luò)中,由于所有NCP和NCF被視為整體設(shè)備,因此不存在多級(jí)切換,從而完全避免了PFC的死鎖問題。

    AIGC新一代網(wǎng)絡(luò)解決方案:組網(wǎng)DDC技術(shù)

      PFC工作機(jī)制示意圖

    AIGC新一代網(wǎng)絡(luò)解決方案:組網(wǎng)DDC技術(shù)

      40*200G

      分布式操作系統(tǒng),增強(qiáng)可靠性

      在DDC架構(gòu)中,管理功能由NCC集中控制,但這可能會(huì)帶來單點(diǎn)故障的風(fēng)險(xiǎn)。為了避免這個(gè)問題,DDC采用分布式操作系統(tǒng),允許每個(gè)NCP和NCF獨(dú)立管理,并具有獨(dú)立的控制平面和管理平面。這不僅大大提高了系統(tǒng)的可靠性,而且更易于部署。

      總結(jié)

      DDC通過其獨(dú)特的技術(shù)策略,滿足了大規(guī)模AI模型訓(xùn)練的網(wǎng)絡(luò)需求,同時(shí)也在諸多細(xì)節(jié)上進(jìn)行了優(yōu)化,保證了網(wǎng)絡(luò)在各種復(fù)雜條件下都能穩(wěn)定高效地運(yùn)行。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    TCL實(shí)業(yè)榮獲IFA2024多項(xiàng)大獎(jiǎng),展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費(fèi)品展覽會(huì)(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計(jì)及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)成功斬獲兩項(xiàng)“IFA全球產(chǎn)品設(shè)計(jì)創(chuàng)新大獎(jiǎng)”金獎(jiǎng),有力證明了其在全球市場(chǎng)的強(qiáng)大影響力。

    新聞

    敢闖技術(shù)無人區(qū) TCL實(shí)業(yè)斬獲多項(xiàng)AWE 2024艾普蘭獎(jiǎng)

    近日,中國家電及消費(fèi)電子博覽會(huì)(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項(xiàng)AWE 2024艾普蘭大獎(jiǎng)。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    研究

    2024全球開發(fā)者先鋒大會(huì)即將開幕

    由世界人工智能大會(huì)組委會(huì)、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會(huì)共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會(huì)聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開放原子開源基金會(huì)主辦的“2024全球開發(fā)者先鋒大會(huì)”,將于2024年3月23日至24日舉辦。