首頁(yè) > 產(chǎn)經(jīng)新聞?lì)l道 > 業(yè)界新聞

GPU缺口45萬(wàn)片？中國(guó)大模型產(chǎn)業(yè)鏈有新動(dòng)向

2023年08月30日 16:03:04 文｜趙艷秋編｜牛慧 來(lái)源：數(shù)智前線

　　很難想象，一個(gè)只有兩三百人的會(huì)議，來(lái)了國(guó)內(nèi)“百模大戰(zhàn)”中的幾十家企業(yè)。他們?yōu)楹味鴣?lái)?

　　文|趙艷秋

　　編|�；�

　　8與24日，在北京東三環(huán)一家酒店中舉辦的一場(chǎng)發(fā)布會(huì)現(xiàn)場(chǎng)，來(lái)了國(guó)內(nèi)“百模大戰(zhàn)”中過(guò)半的企業(yè)。

　　全場(chǎng)的氣氛有些焦慮，一些與會(huì)者見面時(shí)的問(wèn)候語(yǔ)變成了“你家的GPU服務(wù)器到貨了沒(méi)有?”

　　今年上半年，全球新發(fā)布的大模型約有400個(gè);截至7月，中國(guó)發(fā)布的10億參數(shù)以上的大模型有79個(gè)。Gartner在其最新2023年新興技術(shù)成熟度曲線，將生成式AI置于過(guò)高期望的頂峰，大模型賽道的熱潮，也導(dǎo)致AI算力現(xiàn)在變得異常稀缺，而GPU芯片大廠英偉達(dá)的營(yíng)收和市值都創(chuàng)造了新高。

　　“我們判斷現(xiàn)在英偉達(dá)H800的缺口在45萬(wàn)片。”一位與會(huì)互聯(lián)網(wǎng)算力平臺(tái)負(fù)責(zé)人說(shuō)，業(yè)界整體面臨算力從哪來(lái)的問(wèn)題。

　　更進(jìn)一步說(shuō)，Gartner預(yù)計(jì)生成式AI將在未來(lái)兩到五年帶來(lái)變革性好處，不少大模型企業(yè)出于自身業(yè)務(wù)長(zhǎng)期的發(fā)展，正在體系化考慮大模型業(yè)務(wù)，比如，思考自建算力集群，產(chǎn)業(yè)鏈也開始要解決更多大模型系統(tǒng)化發(fā)展帶來(lái)的挑戰(zhàn)。

　　中美大模型或?qū)⒆呦虿煌?ldquo;分野”

　　很難想象，一個(gè)只有兩三百人的會(huì)議，來(lái)了幾十家大模型企業(yè)。

　　此前有業(yè)界人士稱，中國(guó)將與美國(guó)一樣，未來(lái)只有幾個(gè)大廠有能力做大模型，其他企業(yè)都將在大模型上做應(yīng)用開發(fā)，但顯然每家來(lái)參會(huì)的企業(yè)都懷抱希望，想要一搏。

　　“我們的模型開源后，大約有150家企業(yè)客戶將它用到了實(shí)際生產(chǎn)中，但其實(shí)可能這只是登記在冊(cè)的，實(shí)際數(shù)量已遠(yuǎn)遠(yuǎn)超過(guò)了這個(gè)數(shù)。”百川智能技術(shù)聯(lián)合創(chuàng)始人陳煒鵬說(shuō)。百川是由王小川等創(chuàng)立的大模型企業(yè)，今年4月進(jìn)入該賽道，時(shí)機(jī)并不算早，但獲得了市場(chǎng)的良性反饋。他們準(zhǔn)備在Q4發(fā)布更大的500億參數(shù)的模型。

　　快手在8月剛剛宣布自研大模型“快意”，一位與會(huì)人士稱，正在加緊探索應(yīng)用場(chǎng)景。

　　“其實(shí)，今天我們只是在生成式AI的起點(diǎn)。”浪潮信息高級(jí)副總裁劉軍告訴數(shù)智前線，“我認(rèn)為還沒(méi)有到定義中國(guó)大模型格局的階段。”

　　浪潮信息高級(jí)副總裁劉軍

　　他的理由是，生成式AI未來(lái)的前景實(shí)在是太廣闊了。而從技術(shù)角度看，以十年的維度，今天GPT4的能力還是一個(gè)小娃娃，未來(lái)有多遠(yuǎn)，人們能到多高的山，現(xiàn)在都還是未知。包括一些組織正在研究新算法要去顛覆大模型“鼻祖”Transformer，美國(guó)至今也在對(duì)大模型進(jìn)行瘋狂投資，這些都是行業(yè)內(nèi)值得關(guān)注的動(dòng)向。

　　不得不承認(rèn)，從應(yīng)用角度看，當(dāng)下大模型在中美的普及程度不太一樣。ChatGPT在美國(guó)已成為很多人工作不可或缺的助手，寫代碼、寫文檔、做翻譯、寫郵件，不少人每天都在用，也有很多人在持續(xù)使用文生圖的Stable Diffusion、Midjourney。

　　在國(guó)內(nèi)，一些先行企業(yè)在做大模型的落地嘗試。上海儀電旗下數(shù)科公司南洋萬(wàn)邦智能物聯(lián)部經(jīng)理曾佑軒告訴數(shù)智前線，從他們做的項(xiàng)目來(lái)看，主要是內(nèi)部員工的AI助手、知識(shí)管理兩大方向。目前AI助手的費(fèi)用已做到每月每人10元。

　　但一位與會(huì)互聯(lián)網(wǎng)人士對(duì)此不以為然，他認(rèn)為上述用戶體量還是太小。他們的App有數(shù)億用戶，對(duì)大模型的落地“胃口”顯然更大。“你看ChatGPT有幾億用戶。”他說(shuō)。

　　大家認(rèn)為，普及上的差距，核心原因是大模型的性能差距。從各大模型企業(yè)釋放的信息來(lái)看，今年底，國(guó)內(nèi)基礎(chǔ)大模型有望趕上GPT3.5的水平。“我們?cè)O(shè)想中國(guó)有10個(gè)達(dá)到GPT4、GPT5這樣能力的大模型，運(yùn)用前景跟今天就會(huì)完全不一樣。”業(yè)內(nèi)資深人士說(shuō)。

　　劉軍認(rèn)為，客觀來(lái)看，一方面國(guó)內(nèi)在基礎(chǔ)大模型上和Open AI之間存在較大差距，確實(shí)需要做提升;另一方面，中國(guó)公司在應(yīng)用上毫無(wú)疑問(wèn)具備特別強(qiáng)的創(chuàng)新能力。這兩者結(jié)合起來(lái)，中國(guó)在生成式AI上會(huì)有一個(gè)非常好也不一樣的前景。“美國(guó)現(xiàn)在的格局，并不意味著就是中國(guó)未來(lái)的格局。”

　　大模型的追趕，需要數(shù)據(jù)、算法和算力上的保障，算力目前是一個(gè)突出問(wèn)題。

　　大模型能力的提升和其訓(xùn)練投入的算力當(dāng)量正相關(guān)。簡(jiǎn)單說(shuō)，算力當(dāng)量就是模型參數(shù)量乘以訓(xùn)練的token數(shù)。根據(jù)公開資料分析，GPT-4、PaLM-2等模型的算力當(dāng)量已達(dá)到GPT-3的數(shù)十倍，相當(dāng)于上萬(wàn)顆領(lǐng)先的英偉達(dá)Hopper架構(gòu)GPU組成的AI集群，訓(xùn)練超過(guò)1 個(gè)月的時(shí)間。實(shí)際情況是大家可能找不到這樣的算力，這是國(guó)內(nèi)大模型企業(yè)面臨的一大挑戰(zhàn)。

　　一位與會(huì)創(chuàng)業(yè)者對(duì)數(shù)智前線說(shuō)，他看到業(yè)界正在研發(fā)各類XPU芯片，早有“百芯大戰(zhàn)”之說(shuō)。未來(lái)AI算力將走向百花齊放，尤其是誰(shuí)將在ChatGPT之后，面向大模型訓(xùn)練開發(fā)出專門的芯片。到那時(shí)，GPU將不再通吃天下。

　　不過(guò)，快手異構(gòu)計(jì)算負(fù)責(zé)人劉凌志稱，他們看到新的AI芯片落地用起來(lái)，基本上在兩三年之后。

　　為了加快多元化芯片的落地，8月，浪潮信息發(fā)布了《開放加速規(guī)范AI服務(wù)器設(shè)計(jì)指南》，“百芯”公司可參考規(guī)范，將服務(wù)器適配周期從原來(lái)將近一年時(shí)間縮短到三分之一。這里的核心問(wèn)題是，英偉達(dá)最搶手的GPU采用了NVLink高速互聯(lián)協(xié)議，但這是一種私有協(xié)議。為解決其他芯片高速協(xié)同工作，國(guó)際開放組織OCP制定了開放加速計(jì)算規(guī)范，目前浪潮信息是最核心的牽頭者和推動(dòng)者。

　　在8月北京舉辦的OCP大會(huì)上，數(shù)智前線看到了采用燧原AI加速芯片的服務(wù)器。有業(yè)者告訴數(shù)智前線，多元算力局面將在2024年底到來(lái)。

　　不過(guò)，為了解決大模型的快速推進(jìn)和算力稀缺之間的矛盾，業(yè)界需要做的還要更多。

　　硬件企業(yè)向上，軟件企業(yè)向下

　　當(dāng)下算力的矛盾，不僅是芯片問(wèn)題，也有如何從系統(tǒng)角度把芯片用起來(lái)的問(wèn)題。

　　“很多人認(rèn)為，只要買了很多GPU，就可以搭建超大規(guī)模的訓(xùn)練集群，這是很大的誤區(qū)。”商湯聯(lián)合創(chuàng)始人陳宇恒曾告訴數(shù)智前線，他深刻體會(huì)到構(gòu)筑AI計(jì)算集群去訓(xùn)練大模型的不易，稱之為“工程的奇跡”。試想，把幾千、幾萬(wàn)塊GPU連接起來(lái)，實(shí)現(xiàn)非常高的并行效率，還要保障長(zhǎng)時(shí)間無(wú)故障運(yùn)行，確實(shí)不容易。

　　浪潮信息人工智能與高性能應(yīng)用軟件部AI架構(gòu)師Owen ZHU在拜訪一家海外大型科技企業(yè)時(shí)，企業(yè)的IT總監(jiān)告訴他：“Al集群就像一臺(tái)動(dòng)力強(qiáng)勁的法拉利，但目前為止我們還沒(méi)有很好的掌握如何駕馭它。”這家企業(yè)有很長(zhǎng)一段時(shí)間都在用公有云，當(dāng)他們要?jiǎng)?chuàng)建自己的AI集群時(shí)，發(fā)現(xiàn)自己已喪失了面對(duì)最新硬件設(shè)備構(gòu)建集群、優(yōu)化運(yùn)維的能力。

　　“我們每個(gè)創(chuàng)業(yè)公司都會(huì)考慮自建集群，但基本決策都還沒(méi)有下。”一家與會(huì)的大模型創(chuàng)業(yè)人士告訴數(shù)智前線，他稱想自建的原因是目前整個(gè)行業(yè)的算力都很緊張，使用云服務(wù)有很大的不確定性，長(zhǎng)期來(lái)看成本也較貴，因?yàn)樵瓉?lái)云可以超賣，但現(xiàn)在訓(xùn)練大模型，為了追求集群的性能，不允許云廠商超賣，這導(dǎo)致用云的成本比自建要高。而目前沒(méi)做決策的原因，是自建的復(fù)雜性。

　　金山辦公技術(shù)總監(jiān)熊龍飛觀察，他們的一些用戶出于數(shù)據(jù)安全和隱私，對(duì)私有化部署已提出強(qiáng)烈需求。“當(dāng)前，我們做的主要還是公有云方案，后面要進(jìn)行私有化部署的遷移，不僅需要尺寸更小的模型，也要更強(qiáng)的本地算力集群。”

　　Owen ZHU觀察，企業(yè)在智算場(chǎng)景下，建設(shè)本地集群的需求越來(lái)越明顯，但從目前的情況看，絕大多數(shù)用戶在如何用好這些算力上，或多或少都遇到一些問(wèn)題。

　　基于這些用戶的需求，8月24日，浪潮信息正式發(fā)布大模型智算軟件棧OGAI (Open GenAI Infra) “元腦生智”，這是一套全棧軟件，面向生成式AI開發(fā)與應(yīng)用場(chǎng)景，涉及從集群系統(tǒng)環(huán)境部署到算力調(diào)度保障再到大模型開發(fā)管理。

　　“現(xiàn)在市面上沒(méi)有公開、標(biāo)準(zhǔn)化的東西，我們就把自己從2021年起做大模型的工程經(jīng)驗(yàn)、服務(wù)客戶的經(jīng)驗(yàn)，轉(zhuǎn)化成工具和流程。”Owen ZHU說(shuō)。

　　這看上去有些跨界，畢竟浪潮信息以算力和基礎(chǔ)設(shè)施為主。但實(shí)際上，人工智能產(chǎn)業(yè)鏈上，跨界動(dòng)作愈發(fā)頻繁，業(yè)界有著“軟件企業(yè)向下，硬件企業(yè)向上”的現(xiàn)象。

　　各大互聯(lián)網(wǎng)企業(yè)不僅開發(fā)各類大模型，做模型商店，還向下做芯片，做人工智能算力大底座。

　　GPU大廠英偉達(dá)CEO黃仁勛在今年一個(gè)大學(xué)演講中稱，“調(diào)動(dòng)公司各方力量來(lái)推進(jìn)人工智能”。英偉達(dá)估計(jì)，這項(xiàng)工作在過(guò)去十年間已花費(fèi)了超過(guò) 300 億美元，使英偉達(dá)不僅是一家芯片供應(yīng)商，還建立起一支訓(xùn)練大模型的人工智能團(tuán)隊(duì)，開發(fā)了CUDA 之外的多層關(guān)鍵軟件，目的是為程序員節(jié)省勞動(dòng)力。

　　“人工智能是對(duì)計(jì)算方式的重新發(fā)明。”黃仁勛進(jìn)一步解釋，“我們從頭開始構(gòu)建一切，從處理器一直到最終。”

　　此前，浪潮信息也已開始人工智能的相關(guān)布局，在2021年9月，發(fā)布了參數(shù)量為2457億的大語(yǔ)言模型“源1.0”，成為國(guó)內(nèi)首個(gè)推出大語(yǔ)言模型的“硬件”企業(yè)，時(shí)間與互聯(lián)網(wǎng)企業(yè)如阿里等不相上下。

　　在被問(wèn)及浪潮信息的定位時(shí)，劉軍回應(yīng)，開發(fā)大模型的核心出發(fā)點(diǎn)，還是研究大模型對(duì)于算力系統(tǒng)的需求特點(diǎn)，但他也隨即補(bǔ)充，“我們?cè)絹?lái)越不認(rèn)為自己是個(gè)硬件廠商，如何能把硬件這個(gè)生意轉(zhuǎn)化成更大的生產(chǎn)力，我們必須去理解客戶的應(yīng)用需求和痛點(diǎn)，這也要求浪潮信息不僅僅是硬件，我們?cè)谙到y(tǒng)、軟件、算法上都有非常強(qiáng)的團(tuán)隊(duì)和能力。”

　　在人工智能賽道，中美企業(yè)當(dāng)下處于狂跑構(gòu)筑大模型、創(chuàng)造新應(yīng)用的關(guān)鍵時(shí)期，很多角色在加速轉(zhuǎn)變，因?yàn)榭蛻粜枨髲?fù)雜，單一角色的價(jià)值越來(lái)越低，越做越難。這就好像混亂的“戰(zhàn)國(guó)時(shí)代”，沒(méi)有說(shuō)分工在哪一層，有跨界，有垂直整合，有些亂序，說(shuō)不上誰(shuí)對(duì)誰(shuí)錯(cuò)，大家都在嘗試。

　　公有云之外的一套工具鏈

　　為什么浪潮信息會(huì)選擇此時(shí)推出大模型智算軟件棧OGAI?一位資深人士告訴數(shù)智前線，在公有云上跑通大模型后，不少企業(yè)開始考慮自建集群，而一些企業(yè)搶購(gòu)的GPU，將陸續(xù)在下半年和明年上半年到達(dá)客戶現(xiàn)場(chǎng)。

　　此前，互聯(lián)網(wǎng)大廠都提供了相應(yīng)的工具鏈，但都在自家云平臺(tái)上提供服務(wù)。浪潮信息的大模型智算軟件棧OGAI“元腦生智”，則針對(duì)本地化或私有化部署，并且可以在用戶的不同平臺(tái)上“嫁接”使用，不要求一定基于浪潮信息的“源”大模型或該公司的某一平臺(tái)。

　　大模型智算軟件棧OGAI分為五層，各層對(duì)應(yīng)不同的應(yīng)用場(chǎng)景，每層間是解耦的，用戶需要哪些工具，就可以調(diào)用哪些。Owen ZHU看到，在大型智算中心的建設(shè)場(chǎng)景中，基本會(huì)使用從L0到L4的全棧軟件服務(wù)，企業(yè)也可選擇其中的某一些工具鏈。

　　在這五層中，與其他工具鏈形成差異化的主要是L1和L2層。

　　L1層PODsys提供了集群部署的系統(tǒng)化工具。有趣的是，這一層是開源軟件組成的。Owen ZHU稱，這符合不少有互聯(lián)網(wǎng)精神的企業(yè)，使用開源組件的需求。在諸多開源工具中如何選用、如何配置、如何快速組合，浪潮信息將自己之前的實(shí)踐公開出來(lái)。這些軟件可從PODsys.ai網(wǎng)站下載，免費(fèi)使用。

　　L2層則是商業(yè)化調(diào)度平臺(tái)AIStation，它的一些功能將與L1層PODsys形成承接。劉軍介紹，商業(yè)化和開源之間的區(qū)別在于生產(chǎn)效率。

　　比如，在PODsys里也有兩個(gè)開源的調(diào)度器，是免費(fèi)使用的，而商業(yè)版本則能自動(dòng)識(shí)別各種節(jié)點(diǎn)、設(shè)備的故障，把它從計(jì)算資源池里剔除出去，加入新的可用計(jì)算資源。同時(shí)，如果產(chǎn)生了斷點(diǎn)，它能從最新斷點(diǎn)自動(dòng)化加載回來(lái)繼續(xù)往前計(jì)算。

　　這是斷點(diǎn)續(xù)訓(xùn)功能，大模型訓(xùn)練時(shí)間通常從幾周到幾個(gè)月，出現(xiàn)設(shè)備失效后，不能讓跑了幾十天的作業(yè)又重頭再來(lái)，斷點(diǎn)續(xù)訓(xùn)的設(shè)置和保護(hù)，對(duì)客戶是一個(gè)極大的保護(hù)。目前，市面上的開源版本不提供這些功能，用戶可以根據(jù)需求來(lái)選擇。

　　L3大模型訓(xùn)練層和L4層多模型納管層，提供的功能類似互聯(lián)網(wǎng)企業(yè)的工具鏈，但OGAI是為企業(yè)提供本地化和私有化部署的。值得關(guān)注的是L4層，未來(lái)，浪潮信息將通過(guò)它的元腦生態(tài)，參與到大模型企業(yè)的商業(yè)通道中。

　　經(jīng)歷了這些年人工智能的演進(jìn)后，劉軍稱，今天我們?nèi)蕴幱诖竽Ｐ偷钠瘘c(diǎn)，除了人工智能的三要素——更好的數(shù)據(jù)、更有創(chuàng)意的算法和更好的算力之外，他希望再加兩個(gè)，即更好的工程和更好的生態(tài)，逐步將大模型的飛輪跑起來(lái)。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信