中國(guó)云廠商在十萬(wàn)卡集群上表現(xiàn)得更為理性,是什么在推動(dòng)它們展開(kāi)技術(shù)準(zhǔn)備?
文|趙艷秋
編|牛慧
在打造十萬(wàn)卡集群上,幾家國(guó)內(nèi)頭部企業(yè)已有動(dòng)作。
在11月12日舉辦的百度世界2024大會(huì)上,百度集團(tuán)執(zhí)行副總裁、百度智能云事業(yè)群總裁沈抖透露,為了支撐大模型進(jìn)一步的高速發(fā)展,百度在打磨十萬(wàn)卡集群能力方面,已在兩大問(wèn)題上取得關(guān)鍵突破。與此同時(shí),字節(jié)和阿里在智算上投入巨大,今年以來(lái),華為也聯(lián)合廠商在攻克更大規(guī)模集群。
是否有必要打造十萬(wàn)卡集群?過(guò)去24個(gè)月,由于大模型超級(jí)應(yīng)用還未出現(xiàn),中國(guó)業(yè)界出現(xiàn)了反思——大模型全球性的狂熱,究竟是一場(chǎng)新的技術(shù)革命,還是新一輪泡沫?
在這次大會(huì)上,百度創(chuàng)始人李彥宏披露了一個(gè)數(shù)字,文心大模型日均調(diào)用量達(dá)到15億,而6個(gè)月前是2億。“‘應(yīng)用來(lái)了’,代表了我們對(duì)大模型和生成式AI當(dāng)下的認(rèn)知和判斷。” 李彥宏稱(chēng)。這個(gè)在下半年突然變得陡峭的曲線,在一定程度上給出了佐證。
這也是當(dāng)下中國(guó)云廠商開(kāi)展技術(shù)準(zhǔn)備的現(xiàn)實(shí)考量。由于投入和芯片上的限制,中國(guó)云廠商的表現(xiàn)并不激進(jìn)。但他們?cè)诳蛻?hù)快速增長(zhǎng)的需求下,也在分步走向十萬(wàn)卡集群。
01
企業(yè)智算投資的熱情高了
百度杰出系統(tǒng)架構(gòu)師王雁鵬,最近幾個(gè)月頻繁接觸到高?蛻(hù),“他們對(duì)算力的需求在增多”。
今年諾貝爾物理學(xué)獎(jiǎng)、化學(xué)獎(jiǎng)都頒給了人工智能相關(guān)專(zhuān)家,引發(fā)了廣泛關(guān)注。“大家最興奮的是,原來(lái)AI for Science要由各種不同的模型去做,但現(xiàn)在搞蛋白質(zhì)的、搞數(shù)學(xué)的......都可以‘揉’到大模型的方式中來(lái),核心架構(gòu)甚至全都是transformer。”王雁鵬告訴數(shù)智前線。高校的熱情普遍提高了,最近預(yù)算變多,都拿到資金建設(shè)智算基礎(chǔ)設(shè)施。
像上海交通大學(xué),已轉(zhuǎn)變傳統(tǒng)科研模式,期望科學(xué)與AI更緊密的結(jié)合。他們與百度智能云合作建成了自己的AI for Science科學(xué)數(shù)據(jù)開(kāi)源開(kāi)放平臺(tái),支撐白玉蘭科學(xué)大模型的訓(xùn)練。依托AI for Science平臺(tái),上海交大已在Nature Computational Science封面,發(fā)表了AI+城市的科學(xué)成果。在公開(kāi)招投標(biāo)平臺(tái)上,近期更多高校發(fā)布智算相關(guān)招標(biāo)公告。
車(chē)企是當(dāng)下智算的采購(gòu)大戶(hù)。“我們調(diào)研,用戶(hù)已愿意為好用的智駕買(mǎi)單。”一位大型車(chē)企人士說(shuō)。而且,端到端智駕技術(shù),比原來(lái)由很多小模型串聯(lián)起來(lái)的智駕“更擬人化”,成為行業(yè)的主流方案。明確的方向,讓車(chē)企投入意愿更強(qiáng)烈。該人士判斷,未來(lái)1~2年內(nèi),車(chē)企智算算力會(huì)再翻兩番左右。
“在教育行業(yè),最大的夢(mèng)想就是實(shí)現(xiàn)大規(guī)模因材施教。”好未來(lái)集團(tuán)CTO田密說(shuō),“AI老師讓我們看到了一絲曙光。有了大模型,所有的AI教育科技都值得重做一遍。” 大模型可以解題、講題、口語(yǔ)練習(xí)、批改作業(yè),為學(xué)生做個(gè)性化學(xué)習(xí)推薦。
“大廠可以從零開(kāi)始做,小廠通過(guò)API調(diào)用或微調(diào)、RAG就可以。作為中廠或垂直領(lǐng)域的龍頭企業(yè),我們還是要基于最優(yōu)秀的開(kāi)源模型,做好后訓(xùn)練。”田密說(shuō)。去年,好未來(lái)推出九章大模型MathGPT。為此,好未來(lái)在百度智能云上,自有和租賃數(shù)千卡,這在教育行業(yè)中是最好最高的。大模型在以各種形式落地,如學(xué)習(xí)機(jī)、App,也通過(guò)API向社會(huì)開(kāi)放,手機(jī)、平板、PC和新能源車(chē)都開(kāi)始了調(diào)用。
在餐飲行業(yè),消費(fèi)者已不知不覺(jué)用上了大模型技術(shù)。“百勝中國(guó)是最早開(kāi)始使用生成式AI的餐飲企業(yè)。”百勝中國(guó)CTO張雷說(shuō)。它是國(guó)內(nèi)規(guī)模最大的餐飲公司。在人們經(jīng)常使用的App小程序、外賣(mài)平臺(tái)各渠道中,百勝采用了百度智能云的客悅AI智能客服系統(tǒng),解決肯德基、必勝客在線點(diǎn)餐中非常多樣化的服務(wù)需求,每天已協(xié)助處理超15萬(wàn)次消費(fèi)者溝通。
張雷稱(chēng),未來(lái)將以AI原生方式,在管理、運(yùn)營(yíng)、生產(chǎn)和交易的各個(gè)方面進(jìn)行技術(shù)重構(gòu)。
從去年開(kāi)始,國(guó)家電網(wǎng)基于文心大模型和千帆平臺(tái),結(jié)合電力行業(yè)高質(zhì)量數(shù)據(jù),在共創(chuàng)電力行業(yè)大模型基礎(chǔ)底座,在調(diào)度、設(shè)備、營(yíng)銷(xiāo)等六大專(zhuān)業(yè)領(lǐng)域探索AI原生應(yīng)用。近期國(guó)網(wǎng)就會(huì)正式對(duì)外發(fā)布相關(guān)成果。
“我理解,所有行業(yè)都已被transformer給重構(gòu)了。”好未來(lái)田密說(shuō)。越來(lái)越多的大中型互聯(lián)網(wǎng)企業(yè)、車(chē)企、頭部央企等,都在訓(xùn)練自己的行業(yè)或企業(yè)大模型。
他們的共同特點(diǎn)是,有大量私域數(shù)據(jù)和獨(dú)有業(yè)務(wù),有研發(fā)力量,但不會(huì)從頭去訓(xùn)練通用大模型,而是在開(kāi)源或商用模型上做深入的后訓(xùn)練,適配各類(lèi)場(chǎng)景,搭建自己的數(shù)據(jù)飛輪,并有商業(yè)預(yù)期。這些企業(yè)的需求,也進(jìn)一步拉動(dòng)了智算市場(chǎng)。
值得關(guān)注的是,在大模型范式下,算力與算法的重要性開(kāi)始對(duì)等了,這讓企業(yè)的投入占比發(fā)生了變化。
“我們算了一筆賬。四五年前開(kāi)始研發(fā)智駕時(shí),要投入相當(dāng)多的算法和規(guī)則開(kāi)發(fā)工程師,人力、數(shù)據(jù)和算力的投入比是6:2:2。”一位車(chē)企人士說(shuō),“但現(xiàn)在端到端智駕研發(fā),需要更大的算力。我們初步預(yù)測(cè),上述比例將變?yōu)?:3:5,50%甚至更高的投入是算力。”
有趣的是,這些龍頭企業(yè)無(wú)論采用公有云,還是自建數(shù)據(jù)中心,都不約而同找到了云廠商。“我們主動(dòng)找到了百度智能云。”好未來(lái)田密說(shuō),“你會(huì)發(fā)現(xiàn),在Infra(基礎(chǔ)設(shè)施)的投入上,只有大廠才能做得這么細(xì)致。”
而IDC中國(guó)研究總監(jiān)劉麗輝介紹,到2026年,半數(shù)以上的企業(yè),都會(huì)與云廠商達(dá)成生成式AI基礎(chǔ)設(shè)施、相關(guān)平臺(tái)工具等方面的合作。
02
壓力給到了云廠商
百度王雁鵬觀察,在投入踴躍的企業(yè)中,行業(yè)龍頭典型的算力需求在1000卡~5000卡規(guī)模,而大模型創(chuàng)企的需求則在萬(wàn)卡水平。
這些企業(yè)在訓(xùn)練和推理過(guò)程中,遇到了各種問(wèn)題,他們對(duì)智算基礎(chǔ)設(shè)施提出了四個(gè)主要的訴求——高速網(wǎng)絡(luò)互聯(lián)、集群穩(wěn)定性、資源利用率、大模型訓(xùn)練和推理工具等。而這些需求與CPU云時(shí)代截然不同。
比如有人把GPU比作賽車(chē),要讓賽車(chē)性能發(fā)揮到極致,就要給它建立專(zhuān)業(yè)賽道。在搭建GPU集群時(shí),企業(yè)要求云廠商提供一個(gè)更好的網(wǎng)絡(luò)硬件互聯(lián)架構(gòu)。
穩(wěn)定性是一件要命的事。CPU的功耗只有兩三百瓦,GPU已經(jīng)1500瓦了。黃仁勛因此被戲稱(chēng)為“核彈狂魔”。功耗高代表著集成度高,這就容易出故障。“我們算過(guò),一個(gè)千卡集群,按照現(xiàn)有市場(chǎng)價(jià)格,一天的租金是二三十萬(wàn)元。平臺(tái)穩(wěn)定性不好了,我們的損失就很大。”一家車(chē)企人士說(shuō)。而視頻大模型企業(yè)生數(shù)科技人士告訴數(shù)智前線,他們核心的訴求是“穩(wěn)定性”。
平臺(tái)穩(wěn)定,確保他們?cè)谝曨l生成的核心技術(shù)“高一致性”上實(shí)現(xiàn)突破。
資源利用率也是企業(yè)最關(guān)注的問(wèn)題,因?yàn)镚PU太貴了,利用率左右著ROI。
而這些訴求,把壓力給到了云廠商。“過(guò)去一年多,大模型正在重構(gòu)AI計(jì)算模式。”一位云廠商的資深人士說(shuō),“我從來(lái)沒(méi)有看到過(guò)任何一個(gè)技術(shù)浪潮,能夠像這一輪大模型,從上到下對(duì)我們的技術(shù)有如此大的顛覆。”
此前,基礎(chǔ)設(shè)施是以CPU為核心的體系。它的核心點(diǎn)是極致彈性、極致性?xún)r(jià)比,大家最大的驅(qū)動(dòng)力是提效降本。
到了大模型時(shí)代,基礎(chǔ)設(shè)施轉(zhuǎn)向了極致高密、極致互聯(lián)與極致規(guī)模。國(guó)外今年已從十萬(wàn)卡向百萬(wàn)卡集群邁進(jìn)。用不了太長(zhǎng)時(shí)間,可能一個(gè)數(shù)據(jù)中心,就會(huì)“縮到”一個(gè)機(jī)柜里或一個(gè)節(jié)點(diǎn)上。
基礎(chǔ)設(shè)施從過(guò)去的提效降本,轉(zhuǎn)變成一個(gè)全面追求技術(shù)創(chuàng)新,來(lái)驅(qū)動(dòng)整個(gè)業(yè)務(wù)大發(fā)展的階段。每一個(gè)從業(yè)者也都在朝著如何能夠去追趕上scaling law的發(fā)展去奔跑。在一次會(huì)議中,百度集團(tuán)副總裁侯震宇介紹,最近幾年,在百度內(nèi)部提及最多的是800G/T級(jí)互聯(lián)、高密存儲(chǔ)、異地異網(wǎng)異構(gòu)調(diào)度、訓(xùn)推一體.....
由于過(guò)去十多年在整體AI上的投入,百度從2009年開(kāi)始,在中國(guó)互聯(lián)網(wǎng)企業(yè)中第一家開(kāi)始使用GPU做集群加速,2021年已建成三四千卡單一任務(wù)的GPU集群,并逐步形成了有豐富技術(shù)棧的百度百舸異構(gòu)計(jì)算平臺(tái)。
“CPU的IaaS是一個(gè)通用平臺(tái),但GPU的IaaS不一樣,更追求GPU算力端到端的性能最優(yōu),要給它提供更厚的技術(shù)棧,算力才容易發(fā)揮出來(lái)。”百度王雁鵬對(duì)數(shù)智前線解釋。
基于百度百舸的技術(shù)棧,解決了龍頭企業(yè)在算力上的問(wèn)題。在長(zhǎng)安汽車(chē),最初GPU綜合利用率不太高。長(zhǎng)安汽車(chē)和百度智能云,應(yīng)用百舸平臺(tái),做好訓(xùn)練任務(wù)的編排和調(diào)度,GPU利用率提升了40%以上。
視頻大模型創(chuàng)企生數(shù)科技稱(chēng),基于百度百舸穩(wěn)定的超大算力集群,在OpenAI推出Sora僅40天后,推出了自研視頻大模型Vidu。在訓(xùn)練中,他們應(yīng)用了百舸平臺(tái)的算力集群的任務(wù)分發(fā)、隊(duì)列調(diào)度和訓(xùn)練加速,“縮短了 Vidu的研發(fā)周期”。
“我們迭代的速度是非?斓模瑹o(wú)論是新功能,還是模型基礎(chǔ)能力上。”在Vidu上線逾百日之際,生數(shù)科技在11月13日推出Vidu 1.5新版本,率先攻克“多主體一致性”難題。
由于最早在市場(chǎng)上推出模型,生數(shù)科技已在影視、動(dòng)畫(huà)、文旅有落地。比如,近期漫威電影《毒液3》的中國(guó)水墨風(fēng)格AI宣傳片,就是Vidu生成的。
03
奔向十萬(wàn)卡
國(guó)內(nèi)云計(jì)算廠商還在更進(jìn)一步,但他們的做法和考量也更理性和現(xiàn)實(shí)。
在海外,美國(guó)市場(chǎng)在經(jīng)歷了一個(gè)充分有效的競(jìng)爭(zhēng)后,之前很熱鬧的大模型公司都在賣(mài)身,今年做基礎(chǔ)大模型的企業(yè)已迅速收縮到五家——OpenAI、Anthropic、Meta、谷歌,以及馬斯克旗下的xAI。
而這些巨頭的算力競(jìng)爭(zhēng)門(mén)檻已達(dá)到十萬(wàn)卡規(guī)模。微軟計(jì)劃到明年底,向 OpenAI 提供約30萬(wàn)個(gè)英偉達(dá)最新GB200圖形處理器。但OpenAI似乎并不滿(mǎn)意,也與甲骨文達(dá)成了協(xié)議,甲骨文正在設(shè)計(jì)一個(gè)超級(jí)數(shù)據(jù)中心,將達(dá)到一千兆瓦電力,轉(zhuǎn)換過(guò)來(lái)就是50多萬(wàn)卡英偉達(dá)GPU。
Meta的小扎也不甘落后,稱(chēng)Llama 4模型正在一個(gè)10萬(wàn)片*** GPU集群上訓(xùn)練;馬斯克的xAI今年7月已建成十萬(wàn)卡集群,并將在未來(lái)幾個(gè)月內(nèi)再增加10萬(wàn)卡,其中5萬(wàn)卡將是英偉達(dá)H200。
在百度世界2024大會(huì)上,沈抖披露,百度已解決了10萬(wàn)卡集群兩個(gè)難題。一個(gè)是在一云多芯情況下,兩種芯片混合訓(xùn)練效能折損,控制在5%以?xún)?nèi),這是業(yè)界領(lǐng)先水平。這一技術(shù)是針對(duì)芯片供應(yīng)緊張,以及部分企業(yè)對(duì)國(guó)產(chǎn)算力有強(qiáng)需求而研發(fā)。
另一個(gè)難題是跨地域機(jī)房部署,百舸將單一訓(xùn)練任務(wù)集群的性能折損控制在4%以?xún)?nèi),這也是業(yè)界領(lǐng)先水平。它解決的是電力問(wèn)題和機(jī)房空間問(wèn)題。10萬(wàn)卡集群一天要吃掉300萬(wàn)千瓦時(shí)電力,相當(dāng)于北京東城區(qū)一天的居民用電量;所需的占地,相當(dāng)于14 個(gè)標(biāo)準(zhǔn)足球場(chǎng)。它通過(guò)高效拓?fù)浣Y(jié)構(gòu)、跨地域無(wú)擁塞高性能網(wǎng)絡(luò)和高效模型并行訓(xùn)練等方案,在橫跨幾十公里的多機(jī)房上實(shí)現(xiàn)。
不過(guò),業(yè)界如今有一個(gè)疑問(wèn),OpenAI在2020年提出的Scaling Law是否還成立?是否有必要追趕十萬(wàn)卡集群?王雁鵬坦言,他們看到Scaling Law確實(shí)在放緩。這也是OpenAI o1比較火的一個(gè)原因,它采用強(qiáng)化學(xué)習(xí)(Self-play)模式,開(kāi)創(chuàng)了模型scaling的新維度。
一些國(guó)內(nèi)龍頭企業(yè),其實(shí)在半年多前已將更多精力轉(zhuǎn)向強(qiáng)化學(xué)習(xí)。通過(guò)算力創(chuàng)造更多數(shù)據(jù),由人們給每一步打分、做數(shù)據(jù)標(biāo)注,通過(guò)獎(jiǎng)勵(lì)模型去強(qiáng)化它,讓模型更智能。
強(qiáng)化學(xué)習(xí)讓模型訓(xùn)練對(duì)算力的需求也降低了不少。但這并不意味著國(guó)內(nèi)就原地踏步在數(shù)千卡到萬(wàn)卡集群。大模型正進(jìn)入更多產(chǎn)業(yè),王雁鵬預(yù)估,明年算力需求還會(huì)以訓(xùn)練為主,算力需求在高速增長(zhǎng),企業(yè)對(duì)算力在性能和成本上,也提出進(jìn)一步的訴求。
“比如大模型創(chuàng)企,他們有很強(qiáng)的融資壓力,所以對(duì)成本的訴求非常強(qiáng)。”王雁鵬說(shuō)。
當(dāng)下,公有云是企業(yè)進(jìn)行大模型訓(xùn)練的主流方式。云廠商常常采用“服務(wù)一個(gè)企業(yè),搭建一個(gè)集群的方式”。但這種方式存在明顯劣勢(shì),即在企業(yè)訓(xùn)練任務(wù)不處于高峰期時(shí),集群中的計(jì)算資源處于閑置狀態(tài),造成資源浪費(fèi)。而當(dāng)10萬(wàn)卡集群出現(xiàn)后,云廠商就可以依靠這個(gè)大型集群,為眾多企業(yè)提供服務(wù),根據(jù)不同企業(yè)的需求,動(dòng)態(tài)分配計(jì)算資源,不僅提高了資源利用率,也降低了企業(yè)的成本。
“當(dāng)我們能解決了十萬(wàn)卡集群技術(shù),比如上述的跨地域RDMA技術(shù)、多芯混訓(xùn)技術(shù)、容錯(cuò)技術(shù),就可以不需要建一個(gè)大的單一機(jī)房,而是把幾個(gè)機(jī)房融合在一起,提供一個(gè)更好的云平臺(tái),也給大家一個(gè)更好的成本。多芯技術(shù)也是一樣的邏輯。”他進(jìn)一步說(shuō)。
在與國(guó)內(nèi)企業(yè)的相互合作和推動(dòng)下,中國(guó)云廠商正在加速平臺(tái)建設(shè),推動(dòng)大模型技術(shù)浪潮,在市場(chǎng)的快速演進(jìn)。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
11月11日,據(jù)網(wǎng)經(jīng)社數(shù)字零售臺(tái)(DR.100EC.CN)數(shù)據(jù)顯示,秋冬服飾仍是雙11的C位,女士針織衫、女士外套、女士羽絨服等位居服飾消費(fèi)前列,女士夾克銷(xiāo)量同比增長(zhǎng)72%,女士棉衣、女士羊毛衫銷(xiāo)量同比增長(zhǎng)50%以上。男士外套銷(xiāo)量同比增長(zhǎng)30%以上。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開(kāi)“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶(hù)就打進(jìn)了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來(lái)實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性?xún)r(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專(zhuān)題論壇在沈陽(yáng)成功舉辦。