騰訊云織了張AI大模型的“網(wǎng)”

2023年06月28日 10:42:57 來源：光子星球

　　眼下AIGC激蕩著各個(gè)行業(yè)，隨著產(chǎn)品落地、應(yīng)用增加，如何提升算力成為了整個(gè)行業(yè)的迫切需求，不過算力的提升并非只靠購買大量的GPU就能實(shí)現(xiàn)，網(wǎng)絡(luò)基礎(chǔ)設(shè)施起著至關(guān)重要的作用。

　　由于GPU集群之間的數(shù)據(jù)交換與通信都要依靠網(wǎng)絡(luò)承接，如果網(wǎng)絡(luò)帶寬不夠大、延時(shí)長(zhǎng)，不僅會(huì)讓算力邊際遞減，而且還增加了大模型訓(xùn)練的時(shí)間成本。因此大帶寬、高利用率并且信息無損的高性能網(wǎng)絡(luò)對(duì)于當(dāng)下算力的提升尤為重要。

　　日前，騰訊云在北京舉辦了一場(chǎng)面向AI大模型的高性能網(wǎng)絡(luò)溝通會(huì)，向外界首次完整披露了其自研的星脈高性能網(wǎng)絡(luò)。

　　騰訊云副總裁王亞晨提到，星脈網(wǎng)絡(luò)為大模型而生，提供大帶寬、高利用率、零丟包率的高性能網(wǎng)絡(luò)服務(wù)，從而突破算力瓶頸。騰訊數(shù)據(jù)中心網(wǎng)絡(luò)總監(jiān)李翔在介紹星脈的演進(jìn)過程時(shí)，用了一個(gè)通俗的比喻：如今業(yè)務(wù)和客戶對(duì)我們算力網(wǎng)絡(luò)有了更高要求，過去前兩個(gè)階段我們是“村村通”，解決大規(guī)模部署和廣覆蓋的問題，到了第三個(gè)階段的星脈網(wǎng)絡(luò)，我們要做的是全自動(dòng)化、無擁塞的高速公路。

　　溝通會(huì)上，騰訊云展示了在交換機(jī)、通信協(xié)議、通信庫以及運(yùn)營系統(tǒng)等軟硬件方面的升級(jí)，推出了自研的大模型專屬高性能網(wǎng)絡(luò)“星脈”。

　　在硬件方面，在硬件方面，星脈網(wǎng)絡(luò)自研白盒交換機(jī)，這是一種軟硬件解耦的開放網(wǎng)絡(luò)設(shè)備，采用四層解耦體系，包括接入、轉(zhuǎn)發(fā)、路由、管控系統(tǒng)。在自研設(shè)備的基礎(chǔ)之上，騰訊云還構(gòu)建了自研網(wǎng)絡(luò)操作系統(tǒng)，包括網(wǎng)絡(luò)OS與網(wǎng)管平臺(tái)，構(gòu)建了互聯(lián)底座，實(shí)現(xiàn)自動(dòng)化部署和配置。

　　在軟件方面，騰訊云自研的TiTa網(wǎng)絡(luò)協(xié)議，能夠?qū)崟r(shí)監(jiān)測(cè)并調(diào)整網(wǎng)絡(luò)擁塞，TiTa網(wǎng)絡(luò)協(xié)議能夠提升40%的帶寬負(fù)載，還能提供低延時(shí)無損網(wǎng)絡(luò)，實(shí)現(xiàn)高負(fù)載下的0丟包，使集群通信效率達(dá)90%以上。

　　此外，騰訊云還為星脈網(wǎng)絡(luò)設(shè)計(jì)了高性能集合通信庫TCCL，為星脈網(wǎng)絡(luò)提供定制化的高性能節(jié)點(diǎn)間數(shù)據(jù)通信解決方案。結(jié)合動(dòng)態(tài)調(diào)度機(jī)制合理分配通信通道，可以避免因網(wǎng)絡(luò)問題導(dǎo)致的訓(xùn)練中斷等問題，讓通信時(shí)延降低40%。

　　騰訊云方面稱，星脈網(wǎng)絡(luò)集成了騰訊自研技術(shù)積累，以極致高性能實(shí)現(xiàn)了AI大模型通信性能的10倍提升，GPU利用率40%提升，通信時(shí)延降低40%，支持10萬級(jí) GPU 集群組網(wǎng)�；谌匝芯W(wǎng)絡(luò)硬件平臺(tái)網(wǎng)絡(luò)建設(shè)成本降低30%，模型訓(xùn)練成本節(jié)省30%~60%。

　　王亞晨與李翔在會(huì)上回應(yīng)了諸多外界關(guān)注的問題。

　　提問：騰訊高性能網(wǎng)絡(luò)的主要優(yōu)勢(shì)在哪里?技術(shù)關(guān)鍵點(diǎn)集中在哪些地方?

　　王亞晨：騰訊在以太網(wǎng)上的優(yōu)化從去年年初就開始了。從國內(nèi)來看，我們是以太網(wǎng)里針對(duì)GPU優(yōu)化比較有優(yōu)勢(shì)的，為什么我們會(huì)和其他廠商做那么多全調(diào)度以太網(wǎng)的合作?因?yàn)槲覀冏隽撕芏鄡?yōu)化，尤其是在協(xié)議自研這塊。

　　另一個(gè)優(yōu)勢(shì)在于我們的架構(gòu)。我們是把存儲(chǔ)跟計(jì)算做了分離，保證兩邊的性能更優(yōu)。

　　無論是1.6T還是3.2T的GPU，我們可能用了8張GPU，一個(gè)CPU，加上8張網(wǎng)卡，但騰訊做了一些優(yōu)化，8個(gè)網(wǎng)卡，一個(gè)網(wǎng)卡兩個(gè)端口。好處是一旦有一個(gè)端口故障，另一個(gè)端口能夠快速切上來，流量之間不受任何影響，也涉及到和交換機(jī)、和軟件的配合，這種技術(shù)是我們的特色。

　　提問：做大模型對(duì)網(wǎng)絡(luò)技術(shù)的核心要求，解決零丟包、低延時(shí)最大的技術(shù)困難是哪些呢?

　　王亞晨：當(dāng)時(shí)我們遇到的最大困難是“擁塞控制”。去年年中，騰訊已經(jīng)建了2K-4K的GPU集群用于模型訓(xùn)練，那時(shí)候我們用一級(jí)，最多兩級(jí)交換機(jī)就OK了。

　　但大模型出來后，GPU規(guī)模建設(shè)需求已經(jīng)是萬卡規(guī)模，這時(shí)候整個(gè)交換機(jī)組網(wǎng)規(guī)模必須要到三級(jí)了，因?yàn)槲覀兘粨Q的芯片容量是主流的25.6T，128個(gè)網(wǎng)口，它決定了組網(wǎng)的規(guī)模兩級(jí)最優(yōu)是4K，這決定了我們要做更大規(guī)模時(shí)交換機(jī)一定要做三級(jí)，便會(huì)遇到擁塞控制的問題，到今年年底擴(kuò)容到51.2T時(shí)會(huì)好一點(diǎn)。

　　雖然之前裝了TiTa已經(jīng)一定程度上解決了擁塞。但到三級(jí)之后，因?yàn)閾砣豢煽�，之前的機(jī)制不完全能達(dá)到很好的效果，所以我們得做新的擁塞控制機(jī)制，這也是現(xiàn)在業(yè)界講到的主動(dòng)擁塞控制。

　　在GPU發(fā)包時(shí)要先了解網(wǎng)絡(luò)的狀況，有點(diǎn)類似于我出門前，先看看是否擁堵，如果擁堵，系統(tǒng)主動(dòng)告訴我先不做。以前以太網(wǎng)都是被動(dòng)擁塞控制，擁塞了才調(diào)度，但主動(dòng)擁塞控制機(jī)制一定要在網(wǎng)卡發(fā)包時(shí)和交換機(jī)配合。

　　為什么現(xiàn)在我們要自研新的算力網(wǎng)卡，其實(shí)它解決的是在多級(jí)組網(wǎng)情況下更好的擁塞控制，這是當(dāng)時(shí)我們面臨的挑戰(zhàn)，也和我們現(xiàn)在的一些能力相關(guān)。

　　另一個(gè)是帶寬利用率的提升�，F(xiàn)在我們做到95%左右的帶寬利用率，實(shí)際上到新的3.2T服務(wù)器接入與三級(jí)架構(gòu)時(shí)，我們發(fā)現(xiàn)這個(gè)帶寬利用率會(huì)遇到巨大挑戰(zhàn)。帶寬利用率要消除網(wǎng)絡(luò)不均勻的問題，之前我們用哈希(Hash)的方式。

　　現(xiàn)在以太網(wǎng)是基于流調(diào)度，流有長(zhǎng)有短，類似于路上跑的車有的大馬力有的小馬力，即使哈希到不同路徑，你卻不知道每個(gè)流的長(zhǎng)短是什么樣，很難完全消除不均勻。

　　怎么做?現(xiàn)在以太網(wǎng)里有幾個(gè)做法，一個(gè)是定長(zhǎng)包，網(wǎng)卡側(cè)發(fā)包時(shí)是定長(zhǎng)的包，等于你看到的車都是標(biāo)準(zhǔn)化大小，這時(shí)候我再去哈希到不同路徑，一定是相對(duì)均勻。這就是為什么我們要把端側(cè)發(fā)包時(shí)變成定長(zhǎng)的包，交換機(jī)要支持定長(zhǎng)包的處理，同時(shí)定長(zhǎng)包很容易出現(xiàn)亂序的問題，所以我們還要和端側(cè)配合，保證不同的包雖然都是定長(zhǎng)的，傳過來可能有快有慢，還要把亂序的問題解決，這也要靠端側(cè)解決。

　　總而言之，擁塞控制與帶寬利用率是我們當(dāng)下遇到最大的兩個(gè)挑戰(zhàn)。

　　提問：在網(wǎng)絡(luò)管理和硬件設(shè)計(jì)上，我們傾向于采用集中式還是分布式?

　　李翔：分布和集中都是設(shè)計(jì)網(wǎng)絡(luò)的工具手段，我們會(huì)根據(jù)的場(chǎng)景需求來選擇。在網(wǎng)絡(luò)技術(shù)上，集中和分布一直是亙古不變的議題，網(wǎng)絡(luò)中SDN2008年提出來到現(xiàn)在二十年了，集中后，下面被管理的網(wǎng)源會(huì)比較簡(jiǎn)單。集中管理、集中部署，下面的網(wǎng)元會(huì)非常簡(jiǎn)單，成本比較低。但現(xiàn)在分布式是現(xiàn)在網(wǎng)絡(luò)比較認(rèn)可的生態(tài)形式，分布式管理能夠復(fù)用我們之前的運(yùn)營積累，確保運(yùn)營質(zhì)量。

　　王亞晨：滿足可擴(kuò)展性和運(yùn)營安全性，這也是很關(guān)鍵的考量。騰訊基礎(chǔ)設(shè)施最主要的生命線是網(wǎng)絡(luò)質(zhì)量，大系統(tǒng)肯定有大系統(tǒng)的好處，性能肯定更高，一旦出現(xiàn)故障，我們的分布式化可以減小故障率，這是最大的好處。我們把路由器拆成很多小的路由模塊，可以跑到容器里，讓我們整個(gè)網(wǎng)絡(luò)更可靠。

　　類似于最早的網(wǎng)絡(luò)都是集中化的大盒子設(shè)備，無論是交換機(jī)、路由器還是運(yùn)營商的基站、核心網(wǎng)，都是集中化的。但云廠商不一樣，我們基本是全自研，都是一套自研系統(tǒng)，自主控制，不用引入太多異廠家的交互性。所以一定要在自研情況下做分布式更好，如果不是自研能力，靠各種廠家做分布式，本質(zhì)上來講一個(gè)廠家自己分布沒問題，一旦引入另一個(gè)廠家混合搞，可能就復(fù)雜很多了。

　　提問：之前說到白盒交換機(jī)的問題，可以多介紹一下嗎?

　　李翔：首先我們?yōu)槭裁匆霭缀?剛才提到，交換機(jī)從最早的幾臺(tái)一直到現(xiàn)在幾十萬臺(tái)在網(wǎng)，每年可能有幾萬臺(tái)的采購量。面對(duì)大量級(jí)的需求，我們遇到了一些比較現(xiàn)實(shí)的問題。廠商會(huì)賣給你非常完善的解決方案，有幾千個(gè)共同特性，所以迭代周期很慢。

　　我們從兩個(gè)維度考慮問題，第一個(gè)維度從質(zhì)量考慮，我們希望對(duì)軟件做減法。比如90%我是不是可以裁掉，自己用非常少的人維護(hù)起來，可以快迭代、快修復(fù)，從實(shí)際部署來說軟件自主研發(fā)之后，顯著提升了質(zhì)量。

　　第二就是在硬件角度，我們是“海底撈”模式，商業(yè)交換機(jī)賣的是滿漢全席，是粵菜，但比較貴，我們只需要一款交換機(jī)，做減法。我們直接跟上游芯片商合作可以更快享受技術(shù)能力，過程更加透明，供應(yīng)商利潤也比較合理。

　　所以我們做白盒有兩個(gè)維度，第一個(gè)維度在軟件上，更多是質(zhì)量和迭代效率的考慮，硬件上是從成本上考慮，能夠把它變得更加透明化。

　　提問：如果將來你們接入其它模型，很多用戶在上面訓(xùn)練，網(wǎng)絡(luò)安全可能就比以前更重要了，以前只有你們自己在用，這方面不知道你們有什么設(shè)計(jì)或者已經(jīng)做的事情?

　　李翔：數(shù)據(jù)安全的問題在公有云時(shí)代是特別重要的。騰訊有七大安全實(shí)驗(yàn)室，都是做網(wǎng)絡(luò)安全，我們整個(gè)技術(shù)網(wǎng)絡(luò)有非常完善的虛擬化技術(shù)，還有做租戶隔離、存儲(chǔ)隔離，這些都是比較扎實(shí)的技術(shù)底座，同時(shí)內(nèi)部還會(huì)有各種各樣高級(jí)別的科學(xué)家?guī)ьI(lǐng)團(tuán)隊(duì)做各種模擬攻擊，保證不會(huì)被攻破。安全問題一直是云客戶最重要的事情。

　　回到GPU，一方面我們復(fù)用了它的能力，比如存儲(chǔ)，直接復(fù)用云大盤的能力，對(duì)于基座的物理服務(wù)器可能更復(fù)雜，因?yàn)樗容^追求性能，云上做隔離。但是容器、虛擬化對(duì)GPU服務(wù)器有嚴(yán)格的性能要求，需要一個(gè)物理機(jī)，這時(shí)候我們就只能把隔離監(jiān)控全部放到網(wǎng)絡(luò)上做。

　　王亞晨：星脈除了支持騰訊自己的大模型以外，在騰訊云上也支持很多其它客戶的模型做訓(xùn)練，有些客戶對(duì)于性能覺得虛機(jī)也OK，我們就以大盤的能力來保證整個(gè)網(wǎng)絡(luò)的安全。另外剛才說的信息安全，防攻擊那些，都是騰訊云上面比較完善的體系。

　　提問：針對(duì)騰訊之外的廠商，我們主要提供技術(shù)支持，還是也提供大模型相關(guān)的解決方案?

　　王亞晨：我們整個(gè)技術(shù)底座除了騰訊自身以外也在支持騰訊云的算力集群，在騰訊云上也可以給客戶售賣，今天沒有專門講這個(gè)解決方案。我們除了提供GPU的IaaS服務(wù)以外也會(huì)配合上面的訓(xùn)練框架、加速框架這些PaaS的可選服務(wù)，根據(jù)團(tuán)隊(duì)訓(xùn)練的模型和你的需求定制選購�；旧弦恍┐蟮墓具€是選擇以IaaS服務(wù)為主，這也是騰訊云以標(biāo)準(zhǔn)產(chǎn)品給到客戶。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信