中國品牌,讓東南亞感受“消費升級”小紅書本地“坐抖望團”CrowdStrike“全球滅霸響指”事件后續(xù),德國 10% 企業(yè)更換安全供應(yīng)商導(dǎo)致 1TB 數(shù)據(jù)泄露后,迪士尼宣布棄用 Slack 平臺合合信息啟信產(chǎn)業(yè)大腦攜手市北新區(qū)打造“一企一畫像”平臺,加速數(shù)字化轉(zhuǎn)型重慶:力爭今年智能網(wǎng)聯(lián)新能源汽車產(chǎn)量突破 100 萬輛,到 2027 年建成萬億級產(chǎn)業(yè)集群微信iOS最新版上線:iPhone用戶可在朋友圈發(fā)實況照片了蘋果有線耳機或?qū)⑼.a(chǎn)沖上熱搜!閑魚相關(guān)搜索量暴漲384%2024 vivo開發(fā)者大會官宣:OriginOS 5/自研藍(lán)河系統(tǒng)2降臨真·AI程序員來了,阿里云「通義靈碼」全面進化,全流程開發(fā)僅用幾分鐘東方甄選烤腸全網(wǎng)銷量及銷售額領(lǐng)先鴻蒙PC要來了 界面很漂亮!余承東:目前華為PC將是最后一批搭載Windows上半年中國AR/VR出貨23.3萬臺,同比下滑了 29.1%IDC:2024 上半年中國 AR / VR 頭顯出貨 23.3 萬臺,同比下滑 29.1%英特爾AI加速器Gaudi3下周發(fā)布,挑戰(zhàn)NVIDIA統(tǒng)治地位!大屏技術(shù)邂逅千年色彩美學(xué)!海信激光電視成為電影《只此青綠》官方合作伙伴OpenAI將最新AI模型o1擴展到企業(yè)和教育領(lǐng)域三星新專利探索AR技術(shù)新應(yīng)用:檢測屏幕指紋殘留,提高手機安全性猛瑪傳奇C1:直播圖傳技術(shù)的革新者JFrog推出首個運行時安全解決方案,實現(xiàn)從代碼到云的全面軟件完整性和可追溯性
  • 首頁 > 產(chǎn)經(jīng)新聞頻道 > 業(yè)界新聞

    智算中心建設(shè)熱,不能光有GPU

    2024年07月19日 20:03:24   來源:數(shù)智前線

      國內(nèi)掀起了智算中心建設(shè)潮,但在建設(shè)中,人們發(fā)現(xiàn)智能算力有典型的“木桶效應(yīng)”。光有GPU還遠(yuǎn)遠(yuǎn)不夠。

      文|;

      編|趙艷秋

      從去年到今年,業(yè)界正進入大模型2.0時代。它意味著,無論是追逐更大參數(shù)的大語言模型,還是業(yè)界投入重兵的多模態(tài)模型,大模型訓(xùn)練的數(shù)據(jù)集已從TB級邁向了PB級,也對算力提出十倍甚至百倍的增長需求。業(yè)界出現(xiàn)了萬卡甚至十萬卡集群,并拉動了新一代智算中心的建設(shè)。

      為應(yīng)對暴漲的算力需求,國內(nèi)掀起了智算中心建設(shè)潮,建設(shè)方來自地方政府、云計算大廠、央國企、數(shù)據(jù)中心服務(wù)商,以及一些跨界企業(yè),呈現(xiàn)出百花齊放的狀態(tài)。

      但在建設(shè)中,人們發(fā)現(xiàn)“智能算力有典型的木桶效應(yīng)”。光有GPU就夠了嗎?根據(jù)實際案例,組建算力集群不是簡單的“蓋樓”,算力并不會隨著卡的數(shù)量線性增長。從多元芯片,到服務(wù)器集群,再到整個數(shù)據(jù)中心的網(wǎng)絡(luò)、存儲......如果其中有一塊短板,昂貴的GPU算力都會大打折扣。

      針對這些現(xiàn)象,不久前騰訊云與智慧產(chǎn)業(yè)事業(yè)群CEO湯道生也提到對AI的認(rèn)知和投入不能“狹隘”,稱人工智能有很多其他的技術(shù)路線,也很值得關(guān)注,要搭建一套有用的智能系統(tǒng)。AI不止于大模型。

      01

      智算中心建設(shè)熱,光有GPU不行?

      大模型越來越火,業(yè)界為算力資源傷透了腦筋。為了打消客戶對缺卡的顧慮,如騰訊云一眾云計算大廠,提供了“一云多芯”大規(guī)模AI異構(gòu)算力。

      與此同時,不少建設(shè)方已在啟動自身智算中心的建設(shè)。比如在地方政府側(cè),自2017年國家發(fā)布人工智能發(fā)展規(guī)劃之后,智算中心就被提到戰(zhàn)略高度。2023年,工信部等六部委印發(fā)了《算力基礎(chǔ)設(shè)施高質(zhì)量發(fā)展行動計劃》,明確提出到2025年我國算力規(guī)模超過300EFLOPS,其中智能算力占比達(dá)到35%。在國家倡導(dǎo)下,各地政府熱情高漲,政策覆蓋的20多個省市,將建設(shè)40多個智算中心。

      與此同時,在智能算力中,仍有70%~80%由企業(yè)唱主角。除了云計算大廠外,央國企也是一股關(guān)鍵力量。根據(jù)數(shù)智前線的統(tǒng)計,僅今年前五個半月,國內(nèi)大模型中標(biāo)項目已超過230個。運營商、金融、教育、能源、政務(wù)、汽車等領(lǐng)域,涌現(xiàn)出大量招標(biāo)項目。在主要大項目中,有超六成來自于央國企。不少央國企也提出自建智能算力的需求,支撐自身人工智能平臺建設(shè),并滿足數(shù)據(jù)安全需求。

      此外,數(shù)據(jù)中心服務(wù)商、傳統(tǒng)解決方案提供商,也紛紛布局智算中心。

      上述很多建設(shè)方的一個特點是,手里有卡和硬件資源。他們的需求是,用自己的卡能不能組建大模型算力集群,從而在自己的專屬算力環(huán)境下訓(xùn)練大模型?

      實際上,有GPU卡或者GPU集群,離一個高效運轉(zhuǎn)的私有化智算中心,還相差甚遠(yuǎn)。騰訊云專有云研發(fā)副總經(jīng)理王旻說,大集群并不等于大算力!算力不是靠簡單地“堆”GPU服務(wù)器堆出來的。

      “智能算力存在比較典型的木桶短板效應(yīng)。”騰訊專有云研發(fā)負(fù)責(zé)人王旻進一步解釋,大模型訓(xùn)練過程中,集群通信時間最高占比可達(dá)50%。這意味著,網(wǎng)絡(luò)不給力,GPU只能閑著。再如,RDMA網(wǎng)絡(luò)0.1%的丟包率就會造成將近50%的算力損失。因此,客戶需要一套沒有短板的全棧方案,才能構(gòu)建一個高效實用的私有智算中心。

      針對木桶短板效應(yīng),騰訊云最新推出了專有云智算套件。“在過去的發(fā)展中,我們服務(wù)了大量的公有云客戶和自研業(yè)務(wù)。這次將公有云積攢的技術(shù)能力向外輸出,支持私有化部署。”騰訊云副總裁沙開波說。

      在客戶的GPU硬件服務(wù)器基礎(chǔ)之上,智算套件集合了高性能計算集群HCC軟件能力、RDMA智能高性能網(wǎng)絡(luò)IHN(星脈網(wǎng)絡(luò))、高并發(fā)文件存儲系統(tǒng)TurboFS、算力軟件加速框架Taco-LLM,實現(xiàn)萬億參數(shù)大模型訓(xùn)練時間縮短 80%。

      利用騰訊云智算套件,客戶現(xiàn)在可以開始搭建自己的計算集群了 ,而套件的亮點也解決了行業(yè)突出的共性問題:

      穩(wěn)定的HCC高性能計算集群:支持超過100小時的連續(xù)穩(wěn)態(tài)訓(xùn)練。通過自研服務(wù)器、自研網(wǎng)絡(luò)、存儲架構(gòu)等軟硬件設(shè)施,讓萬億參數(shù)大模型的訓(xùn)練時間,從50天縮短至4天。

      智能高性能網(wǎng)絡(luò)IHN(星脈網(wǎng)絡(luò)):它應(yīng)驗了那句話,要想富先修路。智算中心已從CPU時代進入GPU時代,如果把GPU比作F1跑車,要讓跑車的性能發(fā)揮到極致,就要給它建立專業(yè)賽道。不久前,騰訊自研星脈網(wǎng)絡(luò)全面升級為2.0,目標(biāo)是在工程上支持10萬卡規(guī)模。在性能上,它相比上一代網(wǎng)絡(luò)通信效率提升了60%,讓大模型訓(xùn)練效率提升20%。

      極速存儲高性能文件系統(tǒng)TurboFS:在大模型訓(xùn)練時,數(shù)據(jù)存儲約占整體工程量的30%。隨著模型參數(shù)和計算集群越來越大,不同存儲技術(shù),可能造成數(shù)十倍的性能差距。TurboFS的高并發(fā)千卡級別并發(fā)讀寫能力,在私有算力環(huán)境下,可以支撐4000卡在一分鐘內(nèi)完成TB級CheckPoint(工作日志檢查點),對于處理大模型訓(xùn)練、故障檢查都非常關(guān)鍵。

      高效加速框架TACO-LLM:訓(xùn)練框架可以指導(dǎo)GPU更高效完成任務(wù),加速框架為不同場景的訓(xùn)練和推理設(shè)計了不同方案。在突破GPU自回歸限制和連續(xù)顯存瓶頸后,讓模型推理速度提升了2倍。采用模型壓縮、量化、混和序列并行模式等后,模型訓(xùn)練速度提升30%。

      這一智算套件中的產(chǎn)品技術(shù),已經(jīng)過大規(guī)模實踐驗證。沙開波說,在公有云上,它們服務(wù)了百萬客戶,并在騰訊內(nèi)部服務(wù)了混元大模型,而混元已接入騰訊廣告、騰訊會議、微信讀書在內(nèi)的超600款場景。

      02

      自身沒有卡,怎么建專屬智算中心?

      除了上述客戶的需求外,很多客戶手里沒有GPU卡和硬件資源,但也需要構(gòu)建自己的智算中心。

      “大模型產(chǎn)業(yè)還處于很早期。”湯道生曾分析當(dāng)下的市場狀況,“大家都在跑馬圈地,嘗試著不同的商業(yè)模式。有的在追 Scaling Law(規(guī)模效應(yīng)),有的在打造 to C 市場新入口,有的在做產(chǎn)業(yè)落地,非常熱鬧。”因此,這些企業(yè)對智能算力提出多樣化需求,也并不奇怪。

      針對這樣的需求,騰訊云提出了分布式云產(chǎn)品,來幫助沒有GPU和硬件資源的伙伴,從零到一打造自己專屬的智算中心。

      什么是分布式云?簡單來說,就是騰訊云在客戶本地提供公有云服務(wù)。此前,公有云的算力資源、業(yè)務(wù)數(shù)據(jù)和管控系統(tǒng)“三大件”,都在云廠商的IDC里,并由云廠商運維,客戶只需要使用。

      現(xiàn)在,分布式云復(fù)用了公有云的“管控系統(tǒng)”,而客戶核心的“算力資源”、“業(yè)務(wù)數(shù)據(jù)”則部署在自己指定的數(shù)據(jù)中心提供服務(wù)。為此,騰訊云提供了專屬可用區(qū)CDZ和本地專用集群CDC兩種形式,由公有云運維團隊進行運維。

      分布式云有什么優(yōu)勢,尤其是在大模型快速迭代和應(yīng)用部署的當(dāng)下?騰訊云計算產(chǎn)品高級產(chǎn)品經(jīng)理張祥春說,使用傳統(tǒng)方案建設(shè),客戶建設(shè)、運維的門檻都很高,并且在建成之后,整個環(huán)境不太可能做版本升級,服務(wù)能力被固化了,而分布式云與公有云是同步升級的。

      這意味著,客戶不僅能在自己需要的地點便捷搭建專屬的智算云,更能不斷使用到騰訊云最新的智算技術(shù)。這對客戶快速推進人工智能業(yè)務(wù)極為關(guān)鍵。畢竟最新的技術(shù),讓客戶能跑的更快。

      值得關(guān)注的是,分布式云也打包了騰訊云最新的智算套件、大模型部署與精調(diào)的AI平臺層能力、數(shù)據(jù)管理平臺層的能力,以及代碼助手等開發(fā)層能力,這樣,客戶就有了完整的AIGC訓(xùn)練和應(yīng)用能力。

      這恰好符合一部分當(dāng)下客戶的需求。根據(jù)專業(yè)機構(gòu)的調(diào)研,68%的企業(yè)需要混合多云架構(gòu)基礎(chǔ)設(shè)施,70%的企業(yè)希望構(gòu)建大模型之后,實現(xiàn)每周甚至更頻繁的更新,57%的企業(yè)期望基于現(xiàn)有大模型,進行模型定制化或微調(diào),另外77%的企業(yè)希望第三方幫助其做大量非結(jié)構(gòu)化數(shù)據(jù)的處理和分析。

      當(dāng)通過分布式云的方案搭建起平臺,客戶就能一步觸達(dá)這些需求,分布式云因而受到歡迎,已有不少落地案例。張祥春介紹了三類典型場景。

      在大型智算中心場景下,國內(nèi)一家大型智能化解決方案服務(wù)商,使用本地專用集群CDC,組建了自己的大型智算中心。國內(nèi)某大型二手交易平臺,使用專屬可用區(qū)CDZ,搭建大型本地云,既滿足數(shù)據(jù)安全要求,又享受到與公有云一致的體驗。

      在企業(yè)邊緣算力需求場景下,智算服務(wù)與各行業(yè)結(jié)合越來越深,智能駕駛、智能制造對于邊緣區(qū)域的低延遲算力、數(shù)據(jù)不離場、可靠性高的要求越來越多。某國內(nèi)大型工業(yè)制造企業(yè),使用本地專用集群CDC,實現(xiàn)了工廠智能制造方案底座,IT團隊管理效率提升4倍。某Top級車企,使用本地專用集群CDC,支撐智能制造、車聯(lián)網(wǎng)大數(shù)據(jù)業(yè)務(wù)。

      此外,在企業(yè)出海場景下,企業(yè)的業(yè)務(wù)系統(tǒng)需要在當(dāng)?shù)夭渴,并且要符合海外的?shù)據(jù)合規(guī)策略。企業(yè)將內(nèi)部云拓展到海外,是一項耗時耗力的工程,還可能經(jīng)歷數(shù)年的穩(wěn)定期。而騰訊云可基于在海外可用區(qū)建設(shè)、運維的經(jīng)驗,向客戶交付分布式云。某國內(nèi)Top級消費電子企業(yè),已使用本地專用集群CDC,滿足南美工廠本地云需求。

      03

      AI原生云將主導(dǎo)智算未來

      在快速構(gòu)建智能算力、滿足大模型訓(xùn)練和推理大爆發(fā)的算力訴求之外,實際上,這輪生成式AI,對整體云計算提出了更高的要求。在這一過程中,騰訊云在不斷自我革新與升級,演進到為生成式AI而生的AI原生云。

      日前,騰訊云和Gartner聯(lián)合發(fā)布的首個《AI原生云建設(shè)與加速指南》白皮書中提到,我們將見到從Cloud for AI向AI原生云的轉(zhuǎn)變,這一轉(zhuǎn)變標(biāo)志著云平臺能力的全面革新。AI原生云平臺是AI原生時代發(fā)展的重要基石,將全方位、更高效、便捷地支撐AI原生應(yīng)用的創(chuàng)新。

      騰訊云為用戶提供生成式AI驅(qū)動的新一代AI原生云平臺架構(gòu),除了在基礎(chǔ)設(shè)施層(Allnfra)上的升級和革新外,也在模型層(Models&Frameworks)、工程工程層(Al Engineering)、應(yīng)用層(AI Apps)、全棧安全防護(Security)上構(gòu)建了核心能力,助力大模型訓(xùn)練、推理,到應(yīng)用,全面加速,釋放產(chǎn)業(yè)各類MaaS生產(chǎn)力,加速AI原生應(yīng)用落地。

      其中,為了讓更多人能夠快速部署AI服務(wù),在工程平臺層面,該解決方案提供了基于騰訊云高性能服務(wù)HAI與云端開發(fā)工具CloudStudio的GPU開發(fā)空間;騰訊云向量數(shù)據(jù)庫提供了數(shù)據(jù)檢索增強套件能力;騰訊云機器學(xué)習(xí)平臺TI提供了從數(shù)據(jù)標(biāo)注到模型推理的工具鏈。在此之上,騰訊云OrcaTerm AI助手、AI代碼助手可以提供智能運維、技術(shù)問答、代碼補全等AI輔助能力。

      在模型層,騰訊自研的大模型混元最大參數(shù)量級已過萬億,在國內(nèi)率先采用混合專家模型 (MoE) 結(jié)構(gòu),部分中文能力已追平GPT-4,在“時新”問題的回答表現(xiàn)上,數(shù)學(xué)、推理等能力上均有較大提升。同時,騰訊會議等騰訊SaaS產(chǎn)品已經(jīng)全面接入騰訊混元大模型。

      在安全方面,騰訊全棧安全產(chǎn)品已深度融合AI技術(shù),并在實際攻防場景與內(nèi)容安全中守護安全防線,實現(xiàn)AI信任。

      在應(yīng)用層,騰訊云不僅直接提供騰訊會議、騰訊文檔、企業(yè)微信、騰訊樂享、騰訊企點等智能應(yīng)用APP,還提供智能應(yīng)用增強軟件,如數(shù)智人、知識引擎、智能客服等,同時提供基于這些智能應(yīng)用APP孵化出來的各種生成式AI助手與引擎等技術(shù)產(chǎn)品能力,幫助用戶全面實現(xiàn)應(yīng)用智能增強。

      在以生成式AI為代表的人工智能的發(fā)展中,AI原生云將是一個比傳統(tǒng)云計算更為巨大的市場,產(chǎn)業(yè)升級給云大廠帶來了巨大機遇。而騰訊云平臺基于生成式AI的全面升級,目前已成為AI原生時代的領(lǐng)航者;谥鸩綐(gòu)建和完善的五大核心能力,幫助企業(yè)在AI時代實現(xiàn)快速發(fā)展和創(chuàng)新,搶占AGI風(fēng)口。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。

    即時

    TCL實業(yè)榮獲IFA2024多項大獎,展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產(chǎn)品設(shè)計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強大影響力。

    新聞

    敢闖技術(shù)無人區(qū) TCL實業(yè)斬獲多項AWE 2024艾普蘭獎

    近日,中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項AWE 2024艾普蘭大獎。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    “純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

    2024年3月12日,由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會在上海盛大舉行。

    研究

    2024全球開發(fā)者先鋒大會即將開幕

    由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經(jīng)濟發(fā)展(集團)有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。