家庭能源智聯(lián)自由 海辰儲(chǔ)能發(fā)布首套免安裝家庭微網(wǎng)系統(tǒng)HeroESOpenAI發(fā)布o(jì)3:AI 推理能力的重大突破,得分高達(dá)87.5%亞馬遜云科技推出Amazon Q Developer新功能小象超市,摸著美團(tuán)外賣出海E Ink元太科技連三年入選道瓊可持續(xù)雙指數(shù)撬動(dòng)6000億GTV后,抖音計(jì)劃偷襲美團(tuán)大本營AGI Open Network(AON):賦能每個(gè)人創(chuàng)建、部署和貨幣化AI Agent貸款利率史上最低了嗎?東融教你看懂歷年啥水平“客服來電”有詐?抖音客服上線“驗(yàn)證助手”助用戶識(shí)別詐騙OpenAI新模型GPT-5研發(fā)未達(dá)預(yù)期:成本高昂 效果不佳曝天馬打入果鏈:為蘋果HomePod供應(yīng)LCD屏 每塊屏僅10美元曝OPPO或首發(fā)新款天璣次旗艦芯片 兩大子品牌Q2發(fā)力諾基亞攜手阿聯(lián)酋運(yùn)營商e&,展示全球首個(gè)固網(wǎng)游戲端到端網(wǎng)絡(luò)切片方案零下25℃制熱26℃!海爾水暖通黑科技亮相冰雪大世界三星沒放棄曲面屏開發(fā)!最新專利曝光暗示有望回歸三大運(yùn)營商11月成績(jī)單:用戶數(shù)據(jù)增幅放緩打造下一個(gè)英偉達(dá),孫正義的2026芯片計(jì)劃曝光瞭望2025全球6G技術(shù)發(fā)展趨勢(shì)AI時(shí)代云安全新范式,暢捷通智能守護(hù)小微企業(yè)安全上云百川智能發(fā)布全鏈路領(lǐng)域增強(qiáng)金融大模型 Baichuan4-Finance
  • 首頁 > 云計(jì)算頻道 > 云計(jì)算

    騰訊云織了張AI大模型的“網(wǎng)”

    2023年06月28日 10:42:57   來源:光子星球

      眼下AIGC激蕩著各個(gè)行業(yè),隨著產(chǎn)品落地、應(yīng)用增加,如何提升算力成為了整個(gè)行業(yè)的迫切需求,不過算力的提升并非只靠購買大量的GPU就能實(shí)現(xiàn),網(wǎng)絡(luò)基礎(chǔ)設(shè)施起著至關(guān)重要的作用。

      由于GPU集群之間的數(shù)據(jù)交換與通信都要依靠網(wǎng)絡(luò)承接,如果網(wǎng)絡(luò)帶寬不夠大、延時(shí)長(zhǎng),不僅會(huì)讓算力邊際遞減,而且還增加了大模型訓(xùn)練的時(shí)間成本。因此大帶寬、高利用率并且信息無損的高性能網(wǎng)絡(luò)對(duì)于當(dāng)下算力的提升尤為重要。

      日前,騰訊云在北京舉辦了一場(chǎng)面向AI大模型的高性能網(wǎng)絡(luò)溝通會(huì),向外界首次完整披露了其自研的星脈高性能網(wǎng)絡(luò)。

      騰訊云副總裁王亞晨提到,星脈網(wǎng)絡(luò)為大模型而生,提供大帶寬、高利用率、零丟包率的高性能網(wǎng)絡(luò)服務(wù),從而突破算力瓶頸。騰訊數(shù)據(jù)中心網(wǎng)絡(luò)總監(jiān)李翔在介紹星脈的演進(jìn)過程時(shí),用了一個(gè)通俗的比喻:如今業(yè)務(wù)和客戶對(duì)我們算力網(wǎng)絡(luò)有了更高要求,過去前兩個(gè)階段我們是“村村通”,解決大規(guī)模部署和廣覆蓋的問題,到了第三個(gè)階段的星脈網(wǎng)絡(luò),我們要做的是全自動(dòng)化、無擁塞的高速公路。

      溝通會(huì)上,騰訊云展示了在交換機(jī)、通信協(xié)議、通信庫以及運(yùn)營系統(tǒng)等軟硬件方面的升級(jí),推出了自研的大模型專屬高性能網(wǎng)絡(luò)“星脈”。

      在硬件方面,在硬件方面,星脈網(wǎng)絡(luò)自研白盒交換機(jī),這是一種軟硬件解耦的開放網(wǎng)絡(luò)設(shè)備,采用四層解耦體系,包括接入、轉(zhuǎn)發(fā)、路由、管控系統(tǒng)。在自研設(shè)備的基礎(chǔ)之上,騰訊云還構(gòu)建了自研網(wǎng)絡(luò)操作系統(tǒng),包括網(wǎng)絡(luò)OS與網(wǎng)管平臺(tái),構(gòu)建了互聯(lián)底座,實(shí)現(xiàn)自動(dòng)化部署和配置。

      在軟件方面,騰訊云自研的TiTa網(wǎng)絡(luò)協(xié)議,能夠?qū)崟r(shí)監(jiān)測(cè)并調(diào)整網(wǎng)絡(luò)擁塞,TiTa網(wǎng)絡(luò)協(xié)議能夠提升40%的帶寬負(fù)載,還能提供低延時(shí)無損網(wǎng)絡(luò),實(shí)現(xiàn)高負(fù)載下的0丟包,使集群通信效率達(dá)90%以上。

      此外,騰訊云還為星脈網(wǎng)絡(luò)設(shè)計(jì)了高性能集合通信庫TCCL,為星脈網(wǎng)絡(luò)提供定制化的高性能節(jié)點(diǎn)間數(shù)據(jù)通信解決方案。結(jié)合動(dòng)態(tài)調(diào)度機(jī)制合理分配通信通道,可以避免因網(wǎng)絡(luò)問題導(dǎo)致的訓(xùn)練中斷等問題,讓通信時(shí)延降低40%。

      騰訊云方面稱,星脈網(wǎng)絡(luò)集成了騰訊自研技術(shù)積累,以極致高性能實(shí)現(xiàn)了AI大模型通信性能的10倍提升,GPU利用率40%提升,通信時(shí)延降低40%,支持10萬級(jí) GPU 集群組網(wǎng);谌匝芯W(wǎng)絡(luò)硬件平臺(tái)網(wǎng)絡(luò)建設(shè)成本降低30%,模型訓(xùn)練成本節(jié)省30%~60%。

      王亞晨與李翔在會(huì)上回應(yīng)了諸多外界關(guān)注的問題。

      提問:騰訊高性能網(wǎng)絡(luò)的主要優(yōu)勢(shì)在哪里?技術(shù)關(guān)鍵點(diǎn)集中在哪些地方?

      王亞晨:騰訊在以太網(wǎng)上的優(yōu)化從去年年初就開始了。從國內(nèi)來看,我們是以太網(wǎng)里針對(duì)GPU優(yōu)化比較有優(yōu)勢(shì)的,為什么我們會(huì)和其他廠商做那么多全調(diào)度以太網(wǎng)的合作?因?yàn)槲覀冏隽撕芏鄡?yōu)化,尤其是在協(xié)議自研這塊。

      另一個(gè)優(yōu)勢(shì)在于我們的架構(gòu)。我們是把存儲(chǔ)跟計(jì)算做了分離,保證兩邊的性能更優(yōu)。

      無論是1.6T還是3.2T的GPU,我們可能用了8張GPU,一個(gè)CPU,加上8張網(wǎng)卡,但騰訊做了一些優(yōu)化,8個(gè)網(wǎng)卡,一個(gè)網(wǎng)卡兩個(gè)端口。好處是一旦有一個(gè)端口故障,另一個(gè)端口能夠快速切上來,流量之間不受任何影響,也涉及到和交換機(jī)、和軟件的配合,這種技術(shù)是我們的特色。

      提問:做大模型對(duì)網(wǎng)絡(luò)技術(shù)的核心要求,解決零丟包、低延時(shí)最大的技術(shù)困難是哪些呢?

      王亞晨:當(dāng)時(shí)我們遇到的最大困難是“擁塞控制”。去年年中,騰訊已經(jīng)建了2K-4K的GPU集群用于模型訓(xùn)練,那時(shí)候我們用一級(jí),最多兩級(jí)交換機(jī)就OK了。

      但大模型出來后,GPU規(guī)模建設(shè)需求已經(jīng)是萬卡規(guī)模,這時(shí)候整個(gè)交換機(jī)組網(wǎng)規(guī)模必須要到三級(jí)了,因?yàn)槲覀兘粨Q的芯片容量是主流的25.6T,128個(gè)網(wǎng)口,它決定了組網(wǎng)的規(guī)模兩級(jí)最優(yōu)是4K,這決定了我們要做更大規(guī)模時(shí)交換機(jī)一定要做三級(jí),便會(huì)遇到擁塞控制的問題,到今年年底擴(kuò)容到51.2T時(shí)會(huì)好一點(diǎn)。

      雖然之前裝了TiTa已經(jīng)一定程度上解決了擁塞。但到三級(jí)之后,因?yàn)閾砣豢煽,之前的機(jī)制不完全能達(dá)到很好的效果,所以我們得做新的擁塞控制機(jī)制,這也是現(xiàn)在業(yè)界講到的主動(dòng)擁塞控制。

      在GPU發(fā)包時(shí)要先了解網(wǎng)絡(luò)的狀況,有點(diǎn)類似于我出門前,先看看是否擁堵,如果擁堵,系統(tǒng)主動(dòng)告訴我先不做。以前以太網(wǎng)都是被動(dòng)擁塞控制,擁塞了才調(diào)度,但主動(dòng)擁塞控制機(jī)制一定要在網(wǎng)卡發(fā)包時(shí)和交換機(jī)配合。

      為什么現(xiàn)在我們要自研新的算力網(wǎng)卡,其實(shí)它解決的是在多級(jí)組網(wǎng)情況下更好的擁塞控制,這是當(dāng)時(shí)我們面臨的挑戰(zhàn),也和我們現(xiàn)在的一些能力相關(guān)。

      另一個(gè)是帶寬利用率的提升,F(xiàn)在我們做到95%左右的帶寬利用率,實(shí)際上到新的3.2T服務(wù)器接入與三級(jí)架構(gòu)時(shí),我們發(fā)現(xiàn)這個(gè)帶寬利用率會(huì)遇到巨大挑戰(zhàn)。帶寬利用率要消除網(wǎng)絡(luò)不均勻的問題,之前我們用哈希(Hash)的方式。

      現(xiàn)在以太網(wǎng)是基于流調(diào)度,流有長(zhǎng)有短,類似于路上跑的車有的大馬力有的小馬力,即使哈希到不同路徑,你卻不知道每個(gè)流的長(zhǎng)短是什么樣,很難完全消除不均勻。

      怎么做?現(xiàn)在以太網(wǎng)里有幾個(gè)做法,一個(gè)是定長(zhǎng)包,網(wǎng)卡側(cè)發(fā)包時(shí)是定長(zhǎng)的包,等于你看到的車都是標(biāo)準(zhǔn)化大小,這時(shí)候我再去哈希到不同路徑,一定是相對(duì)均勻。這就是為什么我們要把端側(cè)發(fā)包時(shí)變成定長(zhǎng)的包,交換機(jī)要支持定長(zhǎng)包的處理,同時(shí)定長(zhǎng)包很容易出現(xiàn)亂序的問題,所以我們還要和端側(cè)配合,保證不同的包雖然都是定長(zhǎng)的,傳過來可能有快有慢,還要把亂序的問題解決,這也要靠端側(cè)解決。

      總而言之,擁塞控制與帶寬利用率是我們當(dāng)下遇到最大的兩個(gè)挑戰(zhàn)。

      提問:在網(wǎng)絡(luò)管理和硬件設(shè)計(jì)上,我們傾向于采用集中式還是分布式?

      李翔:分布和集中都是設(shè)計(jì)網(wǎng)絡(luò)的工具手段,我們會(huì)根據(jù)的場(chǎng)景需求來選擇。在網(wǎng)絡(luò)技術(shù)上,集中和分布一直是亙古不變的議題,網(wǎng)絡(luò)中SDN2008年提出來到現(xiàn)在二十年了,集中后,下面被管理的網(wǎng)源會(huì)比較簡(jiǎn)單。集中管理、集中部署,下面的網(wǎng)元會(huì)非常簡(jiǎn)單,成本比較低。但現(xiàn)在分布式是現(xiàn)在網(wǎng)絡(luò)比較認(rèn)可的生態(tài)形式,分布式管理能夠復(fù)用我們之前的運(yùn)營積累,確保運(yùn)營質(zhì)量。

      王亞晨:滿足可擴(kuò)展性和運(yùn)營安全性,這也是很關(guān)鍵的考量。騰訊基礎(chǔ)設(shè)施最主要的生命線是網(wǎng)絡(luò)質(zhì)量,大系統(tǒng)肯定有大系統(tǒng)的好處,性能肯定更高,一旦出現(xiàn)故障,我們的分布式化可以減小故障率,這是最大的好處。我們把路由器拆成很多小的路由模塊,可以跑到容器里,讓我們整個(gè)網(wǎng)絡(luò)更可靠。

      類似于最早的網(wǎng)絡(luò)都是集中化的大盒子設(shè)備,無論是交換機(jī)、路由器還是運(yùn)營商的基站、核心網(wǎng),都是集中化的。但云廠商不一樣,我們基本是全自研,都是一套自研系統(tǒng),自主控制,不用引入太多異廠家的交互性。所以一定要在自研情況下做分布式更好,如果不是自研能力,靠各種廠家做分布式,本質(zhì)上來講一個(gè)廠家自己分布沒問題,一旦引入另一個(gè)廠家混合搞,可能就復(fù)雜很多了。

      提問:之前說到白盒交換機(jī)的問題,可以多介紹一下嗎?

      李翔:首先我們?yōu)槭裁匆霭缀?剛才提到,交換機(jī)從最早的幾臺(tái)一直到現(xiàn)在幾十萬臺(tái)在網(wǎng),每年可能有幾萬臺(tái)的采購量。面對(duì)大量級(jí)的需求,我們遇到了一些比較現(xiàn)實(shí)的問題。廠商會(huì)賣給你非常完善的解決方案,有幾千個(gè)共同特性,所以迭代周期很慢。

      我們從兩個(gè)維度考慮問題,第一個(gè)維度從質(zhì)量考慮,我們希望對(duì)軟件做減法。比如90%我是不是可以裁掉,自己用非常少的人維護(hù)起來,可以快迭代、快修復(fù),從實(shí)際部署來說軟件自主研發(fā)之后,顯著提升了質(zhì)量。

      第二就是在硬件角度,我們是“海底撈”模式,商業(yè)交換機(jī)賣的是滿漢全席,是粵菜,但比較貴,我們只需要一款交換機(jī),做減法。我們直接跟上游芯片商合作可以更快享受技術(shù)能力,過程更加透明,供應(yīng)商利潤也比較合理。

      所以我們做白盒有兩個(gè)維度,第一個(gè)維度在軟件上,更多是質(zhì)量和迭代效率的考慮,硬件上是從成本上考慮,能夠把它變得更加透明化。

      提問:如果將來你們接入其它模型,很多用戶在上面訓(xùn)練,網(wǎng)絡(luò)安全可能就比以前更重要了,以前只有你們自己在用,這方面不知道你們有什么設(shè)計(jì)或者已經(jīng)做的事情?

      李翔:數(shù)據(jù)安全的問題在公有云時(shí)代是特別重要的。騰訊有七大安全實(shí)驗(yàn)室,都是做網(wǎng)絡(luò)安全,我們整個(gè)技術(shù)網(wǎng)絡(luò)有非常完善的虛擬化技術(shù),還有做租戶隔離、存儲(chǔ)隔離,這些都是比較扎實(shí)的技術(shù)底座,同時(shí)內(nèi)部還會(huì)有各種各樣高級(jí)別的科學(xué)家?guī)ьI(lǐng)團(tuán)隊(duì)做各種模擬攻擊,保證不會(huì)被攻破。安全問題一直是云客戶最重要的事情。

      回到GPU,一方面我們復(fù)用了它的能力,比如存儲(chǔ),直接復(fù)用云大盤的能力,對(duì)于基座的物理服務(wù)器可能更復(fù)雜,因?yàn)樗容^追求性能,云上做隔離。但是容器、虛擬化對(duì)GPU服務(wù)器有嚴(yán)格的性能要求,需要一個(gè)物理機(jī),這時(shí)候我們就只能把隔離監(jiān)控全部放到網(wǎng)絡(luò)上做。

      王亞晨:星脈除了支持騰訊自己的大模型以外,在騰訊云上也支持很多其它客戶的模型做訓(xùn)練,有些客戶對(duì)于性能覺得虛機(jī)也OK,我們就以大盤的能力來保證整個(gè)網(wǎng)絡(luò)的安全。另外剛才說的信息安全,防攻擊那些,都是騰訊云上面比較完善的體系。

      提問:針對(duì)騰訊之外的廠商,我們主要提供技術(shù)支持,還是也提供大模型相關(guān)的解決方案?

      王亞晨:我們整個(gè)技術(shù)底座除了騰訊自身以外也在支持騰訊云的算力集群,在騰訊云上也可以給客戶售賣,今天沒有專門講這個(gè)解決方案。我們除了提供GPU的IaaS服務(wù)以外也會(huì)配合上面的訓(xùn)練框架、加速框架這些PaaS的可選服務(wù),根據(jù)團(tuán)隊(duì)訓(xùn)練的模型和你的需求定制選購;旧弦恍┐蟮墓具是選擇以IaaS服務(wù)為主,這也是騰訊云以標(biāo)準(zhǔn)產(chǎn)品給到客戶。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    新聞

    明火炊具市場(chǎng):三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實(shí)力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專題論壇在沈陽成功舉辦。