首頁(yè) > 產(chǎn)經(jīng)新聞?lì)l道 > 業(yè)界新聞

中國(guó)智算建設(shè)潮背后，誰(shuí)在推動(dòng)十萬(wàn)卡集群

2024年11月14日 10:39:03 文｜趙艷秋編｜牛慧 來(lái)源：數(shù)智前線

　　中國(guó)云廠商在十萬(wàn)卡集群上表現(xiàn)得更為理性，是什么在推動(dòng)它們展開(kāi)技術(shù)準(zhǔn)備?

　　文|趙艷秋

　　編|牛慧

　　在打造十萬(wàn)卡集群上，幾家國(guó)內(nèi)頭部企業(yè)已有動(dòng)作。

　　在11月12日舉辦的百度世界2024大會(huì)上，百度集團(tuán)執(zhí)行副總裁、百度智能云事業(yè)群總裁沈抖透露，為了支撐大模型進(jìn)一步的高速發(fā)展，百度在打磨十萬(wàn)卡集群能力方面，已在兩大問(wèn)題上取得關(guān)鍵突破。與此同時(shí)，字節(jié)和阿里在智算上投入巨大，今年以來(lái)，華為也聯(lián)合廠商在攻克更大規(guī)模集群。

　　是否有必要打造十萬(wàn)卡集群?過(guò)去24個(gè)月，由于大模型超級(jí)應(yīng)用還未出現(xiàn)，中國(guó)業(yè)界出現(xiàn)了反思——大模型全球性的狂熱，究竟是一場(chǎng)新的技術(shù)革命，還是新一輪泡沫?

　　在這次大會(huì)上，百度創(chuàng)始人李彥宏披露了一個(gè)數(shù)字，文心大模型日均調(diào)用量達(dá)到15億，而6個(gè)月前是2億。“‘應(yīng)用來(lái)了’，代表了我們對(duì)大模型和生成式AI當(dāng)下的認(rèn)知和判斷。” 李彥宏稱。這個(gè)在下半年突然變得陡峭的曲線，在一定程度上給出了佐證。

　　這也是當(dāng)下中國(guó)云廠商開(kāi)展技術(shù)準(zhǔn)備的現(xiàn)實(shí)考量。由于投入和芯片上的限制，中國(guó)云廠商的表現(xiàn)并不激進(jìn)。但他們?cè)诳蛻艨焖僭鲩L(zhǎng)的需求下，也在分步走向十萬(wàn)卡集群。

　　企業(yè)智算投資的熱情高了

　　百度杰出系統(tǒng)架構(gòu)師王雁鵬，最近幾個(gè)月頻繁接觸到高�？蛻�，“他們對(duì)算力的需求在增多”。

　　今年諾貝爾物理學(xué)獎(jiǎng)、化學(xué)獎(jiǎng)都頒給了人工智能相關(guān)專家，引發(fā)了廣泛關(guān)注。“大家最興奮的是，原來(lái)AI for Science要由各種不同的模型去做，但現(xiàn)在搞蛋白質(zhì)的、搞數(shù)學(xué)的......都可以‘揉’到大模型的方式中來(lái)，核心架構(gòu)甚至全都是transformer。”王雁鵬告訴數(shù)智前線。高校的熱情普遍提高了，最近預(yù)算變多，都拿到資金建設(shè)智算基礎(chǔ)設(shè)施。

　　像上海交通大學(xué)，已轉(zhuǎn)變傳統(tǒng)科研模式，期望科學(xué)與AI更緊密的結(jié)合。他們與百度智能云合作建成了自己的AI for Science科學(xué)數(shù)據(jù)開(kāi)源開(kāi)放平臺(tái)，支撐白玉蘭科學(xué)大模型的訓(xùn)練。依托AI for Science平臺(tái)，上海交大已在Nature Computational Science封面，發(fā)表了AI+城市的科學(xué)成果。在公開(kāi)招投標(biāo)平臺(tái)上，近期更多高校發(fā)布智算相關(guān)招標(biāo)公告。

　　車企是當(dāng)下智算的采購(gòu)大戶。“我們調(diào)研，用戶已愿意為好用的智駕買(mǎi)單。”一位大型車企人士說(shuō)。而且，端到端智駕技術(shù)，比原來(lái)由很多小模型串聯(lián)起來(lái)的智駕“更擬人化”，成為行業(yè)的主流方案。明確的方向，讓車企投入意愿更強(qiáng)烈。該人士判斷，未來(lái)1~2年內(nèi)，車企智算算力會(huì)再翻兩番左右。

　　“在教育行業(yè)，最大的夢(mèng)想就是實(shí)現(xiàn)大規(guī)模因材施教。”好未來(lái)集團(tuán)CTO田密說(shuō)，“AI老師讓我們看到了一絲曙光。有了大模型，所有的AI教育科技都值得重做一遍。” 大模型可以解題、講題、口語(yǔ)練習(xí)、批改作業(yè)，為學(xué)生做個(gè)性化學(xué)習(xí)推薦。

　　“大廠可以從零開(kāi)始做，小廠通過(guò)API調(diào)用或微調(diào)、RAG就可以。作為中廠或垂直領(lǐng)域的龍頭企業(yè)，我們還是要基于最優(yōu)秀的開(kāi)源模型，做好后訓(xùn)練。”田密說(shuō)。去年，好未來(lái)推出九章大模型MathGPT。為此，好未來(lái)在百度智能云上，自有和租賃數(shù)千卡，這在教育行業(yè)中是最好最高的。大模型在以各種形式落地，如學(xué)習(xí)機(jī)、App，也通過(guò)API向社會(huì)開(kāi)放，手機(jī)、平板、PC和新能源車都開(kāi)始了調(diào)用。

　　在餐飲行業(yè)，消費(fèi)者已不知不覺(jué)用上了大模型技術(shù)。“百勝中國(guó)是最早開(kāi)始使用生成式AI的餐飲企業(yè)。”百勝中國(guó)CTO張雷說(shuō)。它是國(guó)內(nèi)規(guī)模最大的餐飲公司。在人們經(jīng)常使用的App小程序、外賣(mài)平臺(tái)各渠道中，百勝采用了百度智能云的客悅AI智能客服系統(tǒng)，解決肯德基、必勝客在線點(diǎn)餐中非常多樣化的服務(wù)需求，每天已協(xié)助處理超15萬(wàn)次消費(fèi)者溝通。

　　張雷稱，未來(lái)將以AI原生方式，在管理、運(yùn)營(yíng)、生產(chǎn)和交易的各個(gè)方面進(jìn)行技術(shù)重構(gòu)。

　　從去年開(kāi)始，國(guó)家電網(wǎng)基于文心大模型和千帆平臺(tái)，結(jié)合電力行業(yè)高質(zhì)量數(shù)據(jù)，在共創(chuàng)電力行業(yè)大模型基礎(chǔ)底座，在調(diào)度、設(shè)備、營(yíng)銷等六大專業(yè)領(lǐng)域探索AI原生應(yīng)用。近期國(guó)網(wǎng)就會(huì)正式對(duì)外發(fā)布相關(guān)成果。

　　“我理解，所有行業(yè)都已被transformer給重構(gòu)了。”好未來(lái)田密說(shuō)。越來(lái)越多的大中型互聯(lián)網(wǎng)企業(yè)、車企、頭部央企等，都在訓(xùn)練自己的行業(yè)或企業(yè)大模型。

　　他們的共同特點(diǎn)是，有大量私域數(shù)據(jù)和獨(dú)有業(yè)務(wù)，有研發(fā)力量，但不會(huì)從頭去訓(xùn)練通用大模型，而是在開(kāi)源或商用模型上做深入的后訓(xùn)練，適配各類場(chǎng)景，搭建自己的數(shù)據(jù)飛輪，并有商業(yè)預(yù)期。這些企業(yè)的需求，也進(jìn)一步拉動(dòng)了智算市場(chǎng)。

　　值得關(guān)注的是，在大模型范式下，算力與算法的重要性開(kāi)始對(duì)等了，這讓企業(yè)的投入占比發(fā)生了變化。

　　“我們算了一筆賬。四五年前開(kāi)始研發(fā)智駕時(shí)，要投入相當(dāng)多的算法和規(guī)則開(kāi)發(fā)工程師，人力、數(shù)據(jù)和算力的投入比是6：2：2。”一位車企人士說(shuō)，“但現(xiàn)在端到端智駕研發(fā)，需要更大的算力。我們初步預(yù)測(cè)，上述比例將變?yōu)?：3：5，50%甚至更高的投入是算力。”

　　有趣的是，這些龍頭企業(yè)無(wú)論采用公有云，還是自建數(shù)據(jù)中心，都不約而同找到了云廠商。“我們主動(dòng)找到了百度智能云。”好未來(lái)田密說(shuō)，“你會(huì)發(fā)現(xiàn)，在Infra(基礎(chǔ)設(shè)施)的投入上，只有大廠才能做得這么細(xì)致。”

　　而IDC中國(guó)研究總監(jiān)劉麗輝介紹，到2026年，半數(shù)以上的企業(yè)，都會(huì)與云廠商達(dá)成生成式AI基礎(chǔ)設(shè)施、相關(guān)平臺(tái)工具等方面的合作。

　　壓力給到了云廠商

　　百度王雁鵬觀察，在投入踴躍的企業(yè)中，行業(yè)龍頭典型的算力需求在1000卡~5000卡規(guī)模，而大模型創(chuàng)企的需求則在萬(wàn)卡水平。

　　這些企業(yè)在訓(xùn)練和推理過(guò)程中，遇到了各種問(wèn)題，他們對(duì)智算基礎(chǔ)設(shè)施提出了四個(gè)主要的訴求——高速網(wǎng)絡(luò)互聯(lián)、集群穩(wěn)定性、資源利用率、大模型訓(xùn)練和推理工具等。而這些需求與CPU云時(shí)代截然不同。

　　比如有人把GPU比作賽車，要讓賽車性能發(fā)揮到極致，就要給它建立專業(yè)賽道。在搭建GPU集群時(shí)，企業(yè)要求云廠商提供一個(gè)更好的網(wǎng)絡(luò)硬件互聯(lián)架構(gòu)。

　　穩(wěn)定性是一件要命的事。CPU的功耗只有兩三百瓦，GPU已經(jīng)1500瓦了。黃仁勛因此被戲稱為“核彈狂魔”。功耗高代表著集成度高，這就容易出故障。“我們算過(guò)，一個(gè)千卡集群，按照現(xiàn)有市場(chǎng)價(jià)格，一天的租金是二三十萬(wàn)元。平臺(tái)穩(wěn)定性不好了，我們的損失就很大。”一家車企人士說(shuō)。而視頻大模型企業(yè)生數(shù)科技人士告訴數(shù)智前線，他們核心的訴求是“穩(wěn)定性”。

　　平臺(tái)穩(wěn)定，確保他們?cè)谝曨l生成的核心技術(shù)“高一致性”上實(shí)現(xiàn)突破。

　　資源利用率也是企業(yè)最關(guān)注的問(wèn)題，因?yàn)镚PU太貴了，利用率左右著ROI。

　　而這些訴求，把壓力給到了云廠商。“過(guò)去一年多，大模型正在重構(gòu)AI計(jì)算模式。”一位云廠商的資深人士說(shuō)，“我從來(lái)沒(méi)有看到過(guò)任何一個(gè)技術(shù)浪潮，能夠像這一輪大模型，從上到下對(duì)我們的技術(shù)有如此大的顛覆。”

　　此前，基礎(chǔ)設(shè)施是以CPU為核心的體系。它的核心點(diǎn)是極致彈性、極致性價(jià)比，大家最大的驅(qū)動(dòng)力是提效降本。

　　到了大模型時(shí)代，基礎(chǔ)設(shè)施轉(zhuǎn)向了極致高密、極致互聯(lián)與極致規(guī)模。國(guó)外今年已從十萬(wàn)卡向百萬(wàn)卡集群邁進(jìn)。用不了太長(zhǎng)時(shí)間，可能一個(gè)數(shù)據(jù)中心，就會(huì)“縮到”一個(gè)機(jī)柜里或一個(gè)節(jié)點(diǎn)上。

　　基礎(chǔ)設(shè)施從過(guò)去的提效降本，轉(zhuǎn)變成一個(gè)全面追求技術(shù)創(chuàng)新，來(lái)驅(qū)動(dòng)整個(gè)業(yè)務(wù)大發(fā)展的階段。每一個(gè)從業(yè)者也都在朝著如何能夠去追趕上scaling law的發(fā)展去奔跑。在一次會(huì)議中，百度集團(tuán)副總裁侯震宇介紹，最近幾年，在百度內(nèi)部提及最多的是800G/T級(jí)互聯(lián)、高密存儲(chǔ)、異地異網(wǎng)異構(gòu)調(diào)度、訓(xùn)推一體.....

　　由于過(guò)去十多年在整體AI上的投入，百度從2009年開(kāi)始，在中國(guó)互聯(lián)網(wǎng)企業(yè)中第一家開(kāi)始使用GPU做集群加速，2021年已建成三四千卡單一任務(wù)的GPU集群，并逐步形成了有豐富技術(shù)棧的百度百舸異構(gòu)計(jì)算平臺(tái)。

　　“CPU的IaaS是一個(gè)通用平臺(tái)，但GPU的IaaS不一樣，更追求GPU算力端到端的性能最優(yōu)，要給它提供更厚的技術(shù)棧，算力才容易發(fā)揮出來(lái)。”百度王雁鵬對(duì)數(shù)智前線解釋。

　　基于百度百舸的技術(shù)棧，解決了龍頭企業(yè)在算力上的問(wèn)題。在長(zhǎng)安汽車，最初GPU綜合利用率不太高。長(zhǎng)安汽車和百度智能云，應(yīng)用百舸平臺(tái)，做好訓(xùn)練任務(wù)的編排和調(diào)度，GPU利用率提升了40%以上。

　　視頻大模型創(chuàng)企生數(shù)科技稱，基于百度百舸穩(wěn)定的超大算力集群，在OpenAI推出Sora僅40天后，推出了自研視頻大模型Vidu。在訓(xùn)練中，他們應(yīng)用了百舸平臺(tái)的算力集群的任務(wù)分發(fā)、隊(duì)列調(diào)度和訓(xùn)練加速，“縮短了 Vidu的研發(fā)周期”。

　　“我們迭代的速度是非常快的，無(wú)論是新功能，還是模型基礎(chǔ)能力上。”在Vidu上線逾百日之際，生數(shù)科技在11月13日推出Vidu 1.5新版本，率先攻克“多主體一致性”難題。

　　由于最早在市場(chǎng)上推出模型，生數(shù)科技已在影視、動(dòng)畫(huà)、文旅有落地。比如，近期漫威電影《毒液3》的中國(guó)水墨風(fēng)格AI宣傳片，就是Vidu生成的。

　　奔向十萬(wàn)卡

　　國(guó)內(nèi)云計(jì)算廠商還在更進(jìn)一步，但他們的做法和考量也更理性和現(xiàn)實(shí)。

　　在海外，美國(guó)市場(chǎng)在經(jīng)歷了一個(gè)充分有效的競(jìng)爭(zhēng)后，之前很熱鬧的大模型公司都在賣(mài)身，今年做基礎(chǔ)大模型的企業(yè)已迅速收縮到五家——OpenAI、Anthropic、Meta、谷歌，以及馬斯克旗下的xAI。

　　而這些巨頭的算力競(jìng)爭(zhēng)門(mén)檻已達(dá)到十萬(wàn)卡規(guī)模。微軟計(jì)劃到明年底，向 OpenAI 提供約30萬(wàn)個(gè)英偉達(dá)最新GB200圖形處理器。但OpenAI似乎并不滿意，也與甲骨文達(dá)成了協(xié)議，甲骨文正在設(shè)計(jì)一個(gè)超級(jí)數(shù)據(jù)中心，將達(dá)到一千兆瓦電力，轉(zhuǎn)換過(guò)來(lái)就是50多萬(wàn)卡英偉達(dá)GPU。

　　Meta的小扎也不甘落后，稱Llama 4模型正在一個(gè)10萬(wàn)片*** GPU集群上訓(xùn)練;馬斯克的xAI今年7月已建成十萬(wàn)卡集群，并將在未來(lái)幾個(gè)月內(nèi)再增加10萬(wàn)卡，其中5萬(wàn)卡將是英偉達(dá)H200。

　　在百度世界2024大會(huì)上，沈抖披露，百度已解決了10萬(wàn)卡集群兩個(gè)難題。一個(gè)是在一云多芯情況下，兩種芯片混合訓(xùn)練效能折損，控制在5%以內(nèi)，這是業(yè)界領(lǐng)先水平。這一技術(shù)是針對(duì)芯片供應(yīng)緊張，以及部分企業(yè)對(duì)國(guó)產(chǎn)算力有強(qiáng)需求而研發(fā)。

　　另一個(gè)難題是跨地域機(jī)房部署，百舸將單一訓(xùn)練任務(wù)集群的性能折損控制在4%以內(nèi)，這也是業(yè)界領(lǐng)先水平。它解決的是電力問(wèn)題和機(jī)房空間問(wèn)題。10萬(wàn)卡集群一天要吃掉300萬(wàn)千瓦時(shí)電力，相當(dāng)于北京東城區(qū)一天的居民用電量;所需的占地，相當(dāng)于14 個(gè)標(biāo)準(zhǔn)足球場(chǎng)。它通過(guò)高效拓?fù)浣Y(jié)構(gòu)、跨地域無(wú)擁塞高性能網(wǎng)絡(luò)和高效模型并行訓(xùn)練等方案，在橫跨幾十公里的多機(jī)房上實(shí)現(xiàn)。

　　不過(guò)，業(yè)界如今有一個(gè)疑問(wèn)，OpenAI在2020年提出的Scaling Law是否還成立?是否有必要追趕十萬(wàn)卡集群?王雁鵬坦言，他們看到Scaling Law確實(shí)在放緩。這也是OpenAI o1比較火的一個(gè)原因，它采用強(qiáng)化學(xué)習(xí)(Self-play)模式，開(kāi)創(chuàng)了模型scaling的新維度。

　　一些國(guó)內(nèi)龍頭企業(yè)，其實(shí)在半年多前已將更多精力轉(zhuǎn)向強(qiáng)化學(xué)習(xí)。通過(guò)算力創(chuàng)造更多數(shù)據(jù)，由人們給每一步打分、做數(shù)據(jù)標(biāo)注，通過(guò)獎(jiǎng)勵(lì)模型去強(qiáng)化它，讓模型更智能。

　　強(qiáng)化學(xué)習(xí)讓模型訓(xùn)練對(duì)算力的需求也降低了不少。但這并不意味著國(guó)內(nèi)就原地踏步在數(shù)千卡到萬(wàn)卡集群。大模型正進(jìn)入更多產(chǎn)業(yè)，王雁鵬預(yù)估，明年算力需求還會(huì)以訓(xùn)練為主，算力需求在高速增長(zhǎng)，企業(yè)對(duì)算力在性能和成本上，也提出進(jìn)一步的訴求。

　　“比如大模型創(chuàng)企，他們有很強(qiáng)的融資壓力，所以對(duì)成本的訴求非常強(qiáng)。”王雁鵬說(shuō)。

　　當(dāng)下，公有云是企業(yè)進(jìn)行大模型訓(xùn)練的主流方式。云廠商常常采用“服務(wù)一個(gè)企業(yè)，搭建一個(gè)集群的方式”。但這種方式存在明顯劣勢(shì)，即在企業(yè)訓(xùn)練任務(wù)不處于高峰期時(shí)，集群中的計(jì)算資源處于閑置狀態(tài)，造成資源浪費(fèi)。而當(dāng)10萬(wàn)卡集群出現(xiàn)后，云廠商就可以依靠這個(gè)大型集群，為眾多企業(yè)提供服務(wù)，根據(jù)不同企業(yè)的需求，動(dòng)態(tài)分配計(jì)算資源，不僅提高了資源利用率，也降低了企業(yè)的成本。

　　“當(dāng)我們能解決了十萬(wàn)卡集群技術(shù)，比如上述的跨地域RDMA技術(shù)、多芯混訓(xùn)技術(shù)、容錯(cuò)技術(shù)，就可以不需要建一個(gè)大的單一機(jī)房，而是把幾個(gè)機(jī)房融合在一起，提供一個(gè)更好的云平臺(tái)，也給大家一個(gè)更好的成本。多芯技術(shù)也是一樣的邏輯。”他進(jìn)一步說(shuō)。

　　在與國(guó)內(nèi)企業(yè)的相互合作和推動(dòng)下，中國(guó)云廠商正在加速平臺(tái)建設(shè)，推動(dòng)大模型技術(shù)浪潮，在市場(chǎng)的快速演進(jìn)。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信