從狂熱到理性：大模型訓(xùn)練三堵墻，一場(chǎng)少數(shù)人的游戲

2023年06月30日 16:32:54 張帥來源：鈦媒體

　　“只要有GPU卡，把服務(wù)器買走都行”。3月份開始，張陽明顯感受大模型帶來的沖擊，作為一家云廠商算力平臺(tái)負(fù)責(zé)人，他意識(shí)到市場(chǎng)甚至有些盲目。“當(dāng)時(shí)客戶比較慌，相當(dāng)于對(duì)產(chǎn)品都沒有什么要求，不關(guān)心網(wǎng)絡(luò)和存儲(chǔ)，就是感覺大家都在搶機(jī)器，先搶過來固定住時(shí)間，然后再去看怎么用，那會(huì)大家還沒有想明白怎么用。”

　　到了4月，有些客戶已經(jīng)嘗試過或者見過大模型訓(xùn)練，逐漸開始想明白，大概知道想要什么樣的配置。要一堆GPU卡，實(shí)際上是一個(gè)認(rèn)知誤區(qū)，大模型訓(xùn)練的實(shí)現(xiàn)依靠的是一個(gè)算力集群，包含整套的服務(wù)。

　　但不是所有企業(yè)都能駕馭大規(guī)模算力集群，這注定是一場(chǎng)少數(shù)人的游戲。事實(shí)上，微軟和OpenAI的合作也已經(jīng)證明，用云來訓(xùn)練大模型，似乎是更合理的選擇。

　　作為中間層，云廠商向下屏蔽底層軟硬件的復(fù)雜性，向上對(duì)接企業(yè)的研發(fā)和算法工程師、個(gè)人開發(fā)者等，此外背靠集團(tuán)的云廠商，還具備資金、人才、數(shù)據(jù)等優(yōu)勢(shì)，也就最先開始聲勢(shì)浩大的進(jìn)軍大模型。

　　AI算力芯片、服務(wù)器/交換機(jī)、光模塊/光芯片、數(shù)據(jù)中心、云計(jì)算……算力產(chǎn)業(yè)鏈條的每個(gè)角色，仿佛齒輪般咬合在一起，構(gòu)成數(shù)字經(jīng)濟(jì)的產(chǎn)業(yè)發(fā)動(dòng)機(jī)，如今，大模型讓每個(gè)齒輪都極速傳動(dòng)起來。

　　訓(xùn)練基礎(chǔ)模型，是一切大模型產(chǎn)業(yè)生態(tài)的起點(diǎn)，也只有闖過算力關(guān)，才能拿到大模型競(jìng)賽的入場(chǎng)券。

　　大模型訓(xùn)練的三堵墻

　　技術(shù)的發(fā)展有其延續(xù)性，正如微軟Azure為OpenAI打造的“超級(jí)計(jì)算機(jī)”，經(jīng)歷了數(shù)年的演進(jìn)才有成果，現(xiàn)階段大模型訓(xùn)練比拼的，其實(shí)是過去幾年廠商的戰(zhàn)略預(yù)判與技術(shù)積累，能上牌桌的大多是老玩家。

　　“大模型存在明顯的炒作過熱傾向，行業(yè)應(yīng)該更加理性，而不是套著大模型概念做資本或者業(yè)務(wù)的炒作。我自己的觀點(diǎn)是，真的不要去考慮端到端地去做一個(gè)大模型，對(duì)于非要做的企業(yè)，我只能說有機(jī)會(huì)，但是挑戰(zhàn)很大。”一家互聯(lián)網(wǎng)大廠大模型產(chǎn)品負(fù)責(zé)人對(duì)鈦媒體表示。

　　在學(xué)術(shù)界看來，OpenAI并沒有做出革命性的創(chuàng)新，本質(zhì)是圍繞AGI產(chǎn)品進(jìn)行的“工程創(chuàng)新”，但正是工程化造就了OpenAI和大模型的成功，工程化體現(xiàn)在大模型研究、工程、產(chǎn)品、組織各個(gè)環(huán)節(jié)，算力訓(xùn)練集群也是如此。

　　“工程化做得好也很難，它證明了往上堆算力，堆數(shù)據(jù)是可以往前推進(jìn)的。”微軟技術(shù)中心首席架構(gòu)師韓凱對(duì)鈦媒體表示。

　　這一看似簡(jiǎn)單的邏輯背后，對(duì)企業(yè)而言卻是極大的考驗(yàn)——看不見可能的出路，擔(dān)心巨大的投入沒有產(chǎn)出，這是最大的風(fēng)險(xiǎn)，也是為什么國內(nèi)沒有先做出“ChatGPT”的原因——他們更多選擇跟隨，而不是對(duì)一條沒被驗(yàn)證過的路投資。

　　算力集群的工程化，至少要突破三堵墻。

　　首先是“算力”墻。“完成一個(gè)千億參數(shù)級(jí)別的大模型例如GPT-3需要314ZFLOPs算力的模型訓(xùn)練，而單卡只有312TFLOPS算力時(shí)，一張卡訓(xùn)練一個(gè)模型要耗時(shí)32年。所以需要引入分布式訓(xùn)練的方法，使用多機(jī)多卡的方式來加速模型的訓(xùn)練，包括比較常見的數(shù)據(jù)并行和張量并行。”天翼云資深專家陳希表示。

　　其次是“存儲(chǔ)”墻。單顯卡的顯存已經(jīng)無法加載千億級(jí)參數(shù)。千億級(jí)參數(shù)完全加載到顯存大概需要幾個(gè)TB，如果再考慮梯度、優(yōu)化器狀態(tài)等訓(xùn)練過程產(chǎn)生的一些中間結(jié)果，占用的顯存量就更大了，往往需要上百張卡才可以支持。

　　所以廠商一般會(huì)引入流水線并行，將模型不同的層放到不同的節(jié)點(diǎn)的顯卡內(nèi)進(jìn)行計(jì)算。對(duì)于這一組節(jié)點(diǎn)只需要加載某一些層的參數(shù)，降低顯存的壓力。

　　隨之而來的是“通信”墻。大模型并行切分到集群后，模型切片間會(huì)產(chǎn)生大量通信，包括節(jié)點(diǎn)內(nèi)多卡通信，節(jié)點(diǎn)間通信。幾種并行方式都會(huì)涉及到大量的節(jié)點(diǎn)與節(jié)點(diǎn)間的通信，這時(shí)候就會(huì)對(duì)總線和總帶寬都有很高的要求，要達(dá)到幾百G的吞吐。

　　另外除了這三堵墻以外，還有一些其他問題：如大模型參數(shù)的增長速度和芯片工藝發(fā)展之間的矛盾也日趨明顯。最近幾年隨著transformer結(jié)構(gòu)的引入，平均每兩年，模型參數(shù)數(shù)量增長15倍。而相應(yīng)的芯片制程從7nm提升到4nm，單卡算力增長不超過4倍，芯片工藝發(fā)展落后于大模型的需求。

　　大模型訓(xùn)練需要的不單單是算力，對(duì)存儲(chǔ)，對(duì)安全，對(duì)訓(xùn)練框架都有一定的要求，需要一套比較完整的平臺(tái)或服務(wù)來提供支持。“大家最近的一個(gè)普遍的感受，就是能滿足大模型訓(xùn)練平臺(tái)的提供商不多，高性能算力供應(yīng)整體比較緊張。”陳希說。

　　為什么“他們”能成？

　　現(xiàn)在仍有不少企業(yè)毫無準(zhǔn)備或者自我感覺有所準(zhǔn)備，就沖進(jìn)基礎(chǔ)模型領(lǐng)域。

　　然而，如果細(xì)細(xì)研究現(xiàn)階段做出基礎(chǔ)模型的廠商，無一例外在AI領(lǐng)域都有足夠積累，特別是底層基礎(chǔ)設(shè)施層面，他們的實(shí)踐也在驗(yàn)證“云是規(guī)模算力的最佳承載平臺(tái)”這一判斷。

　　“為了打造AI超級(jí)計(jì)算機(jī)，微軟早在2018年就開始布局，除了OpenAI還投資了幾個(gè)小公司，大數(shù)據(jù)是AI的前序，云計(jì)算基礎(chǔ)設(shè)施是算力平臺(tái)，大模型是算力、算法和數(shù)據(jù)的集合，微軟的成功在于全棧能力。”韓凱表示。

　　回到國內(nèi)，百度也遵循類似的邏輯。百度副總裁謝廣軍提到，算力和存儲(chǔ)一定要達(dá)到更高的密度，才能夠支持大模型。顯著的問題還有網(wǎng)絡(luò)互聯(lián)，大模型訓(xùn)練用的比較多的顯卡是帶有NVLink高速互連的A800，需要比傳統(tǒng)云計(jì)算做到更低延時(shí)、更高帶寬，大量的小文件，也需要低延時(shí)、高存儲(chǔ)的基礎(chǔ)設(shè)施。

　　“大模型跑起來之后，還有非常多的地方需要加速，像通信需要加速、顯存需要壓縮、整個(gè)推理也需要加速。百度智能云能夠把調(diào)優(yōu)手段集成到基礎(chǔ)庫，對(duì)于大模型計(jì)算和推理非常有幫助。”謝廣軍說。

　　從平臺(tái)的視角來說，不管是訓(xùn)練任務(wù)還是推理任務(wù)，單個(gè)的任務(wù)就需要非常長的時(shí)間，需要占用很多資源。怎么能夠保證資源的充分利用，以及降低它的訓(xùn)練和推理時(shí)間。這里面需要切任務(wù)、調(diào)度、并行，對(duì)于模型訓(xùn)練的加速比和并行度的支撐。

　　同時(shí)，一個(gè)平臺(tái)上往往有有很多任務(wù)，如何靈活調(diào)度，進(jìn)而能夠讓這些任務(wù)充分地使用資源，甚至能夠感知到異構(gòu)算力的拓?fù)�，使得平臺(tái)效率得到提升……這類AI任務(wù)調(diào)度、容器化支持方面都有非常多的工作需要去做。

　　以文心一言的訓(xùn)練為例，千卡規(guī)模的A100或者A800數(shù)據(jù)并行加速比達(dá)到90%，其中用了非常多的調(diào)優(yōu)手段和技術(shù)，百度智能云圍繞著大模型一層一層做優(yōu)化，在平臺(tái)上分成了AI 計(jì)算、AI 存儲(chǔ)、AI 加速和 AI 容器等四層，共同組成了 AI IaaS，這些基礎(chǔ)設(shè)施可以支持上萬億參數(shù)大模型的訓(xùn)練。

　　此外，預(yù)訓(xùn)練模型需要通過千卡以上的集群訓(xùn)練，而在大多數(shù)情況，精調(diào)或者微調(diào)更普遍，基于大模型訓(xùn)練行業(yè)模型，相當(dāng)于在樹干上長樹枝，不需要超大規(guī)模的集群，小幾十張卡足以滿足企業(yè)所需訓(xùn)練資源。

　　達(dá)觀數(shù)據(jù)將在7月份正式推出國產(chǎn)版GPT“曹植”系統(tǒng)，也是得益于多年文本智能技術(shù)積累和垂直領(lǐng)域場(chǎng)景業(yè)務(wù)經(jīng)驗(yàn)，算法和數(shù)據(jù)層面有所儲(chǔ)備，而在測(cè)試階段的算力層面，達(dá)觀數(shù)據(jù)CEO陳運(yùn)文表示，自建算力數(shù)據(jù)中心較為吃力，達(dá)觀尋求了多種算力平臺(tái)的支持，包括運(yùn)營商算力中心、鵬程實(shí)驗(yàn)室等。

　　達(dá)觀數(shù)據(jù)也曾嘗試某家頭部云廠商的GPU算力，但經(jīng)過測(cè)算成本太高，租一年半下來的成本，足夠達(dá)觀數(shù)據(jù)自家購置一個(gè)自己的算力平臺(tái)，達(dá)觀數(shù)據(jù)選擇了英偉達(dá)DGX高性能工作站方案，相當(dāng)于英偉達(dá)自身做了很多集群優(yōu)化，解決了存儲(chǔ)和網(wǎng)絡(luò)的大部分問題，直接買GPU卡自建集群和英偉達(dá)解決方案相比，綜合性能相差一倍。

　　“我們自己的模型訓(xùn)練成本其實(shí)還是很高的，但是我們幫客戶算過賬，模型在推理階段需要的算力投入并不大，很多客戶只要單機(jī)多卡就夠，硬件投入不算很大，但是給客戶帶來的效果和體驗(yàn)提升非常明顯。”陳運(yùn)文表示。

　　英偉達(dá)不只有GPU

　　小廠商用英偉達(dá)的商業(yè)技術(shù)補(bǔ)齊能力，大廠商以英偉達(dá)的硬件為核心構(gòu)建高性能計(jì)算集群、提升性能，進(jìn)一步縮短訓(xùn)練時(shí)間……基本所有廠商的大模型的推理、訓(xùn)練都高度依賴英偉達(dá)的GPU。

　　來自市場(chǎng)的消息顯示，A800的價(jià)格一度超過8萬元人民幣，A100更貴，甚至超過9萬元。

　　“英偉達(dá)的策略是既要確保每家大客戶都能拿到貨，同時(shí)又不會(huì)完全滿足其短時(shí)大量的需求，這使得英偉達(dá)GPU保持在一個(gè)供應(yīng)緊張的狀態(tài)。”一位業(yè)內(nèi)人士表示，英偉達(dá)全球A100的產(chǎn)能并不缺，供貨沒有問題，對(duì)于禁售A100之后，特供中國的替代品A800，英偉達(dá)特意開了一條產(chǎn)品線，因其產(chǎn)能相對(duì)有限，造成了供需矛盾。

　　一些廠商也在想其他辦法，比如在香港建立算力集群，同時(shí)H800和A800復(fù)用了一部分產(chǎn)品線，未來H800的產(chǎn)能上來之后或許會(huì)壓制A800，不排除英偉達(dá)會(huì)繼續(xù)增加適用于中國市場(chǎng)的產(chǎn)線。

　　除了產(chǎn)量，高企的價(jià)格也源于英偉達(dá)芯片的工程化能力，這是其成為大模型訓(xùn)練核心的決定性原因。

　　業(yè)界內(nèi)外對(duì)英偉達(dá)有兩種極端認(rèn)知：一種認(rèn)為，英偉達(dá)難以戰(zhàn)勝;另一種是諸多廠商在PPT上“吊打”英偉達(dá)。然而，即便在理念和先進(jìn)性上領(lǐng)先，但這一切只停留在芯片設(shè)計(jì)環(huán)節(jié)，沒有真正工業(yè)落地，也就無從對(duì)比。

　　現(xiàn)實(shí)情況是，在大模型算力領(lǐng)域，英偉達(dá)的壁壘在于GPU+NVlink/Infiniband網(wǎng)絡(luò)+CUDA的組合能力。

　　以英偉達(dá)最新發(fā)布的GH200GraceHopper超級(jí)芯片，以及擁有256個(gè)GH200超級(jí)芯片的DGXGH200超級(jí)計(jì)算機(jī)為例，產(chǎn)品性能上至少領(lǐng)先其他廠商一個(gè)身位。

　　涉及到算力集群，RDMA網(wǎng)絡(luò)成為大模型時(shí)代的底層通信技術(shù)，業(yè)內(nèi)主要使用的是Infiniband、RoCE，NVlink僅用于GPU之間通信，InfiniBand網(wǎng)絡(luò)則為通用高性能網(wǎng)絡(luò)，既可用于GPU之間通信，也可用于CPU之間通信。

　　Infiniband網(wǎng)絡(luò)以往在超算領(lǐng)域應(yīng)用較為廣泛，隨后擴(kuò)展至人工智能計(jì)算，2019年，英偉達(dá)以69億美元收購邁絡(luò)思，補(bǔ)全了自己了網(wǎng)絡(luò)短板，目前IB較為成熟，很多廠商都在嘗試自研RoCE路線，在部分場(chǎng)景下較IB網(wǎng)絡(luò)還有一定差距。

　　例如文心一言，早在2021年6月，百度智能云開始規(guī)劃全新的高性能GPU集群的建設(shè)，聯(lián)合NVIDIA共同完成了可以容納萬卡以上規(guī)模的IB網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)，集群中節(jié)點(diǎn)間的每張GPU卡都通過IB網(wǎng)絡(luò)連接，并在2022年4月將集群建設(shè)完成，提供單集群EFLOPS級(jí)別的算力。

　　2023年3月，文心一言在這個(gè)高性能集群上誕生，并不斷迭代出新的能力。目前，這個(gè)集群的規(guī)模還在不斷擴(kuò)大。NVIDIA中國區(qū)解決方案與工程總經(jīng)理賴俊杰也提到，高速IB網(wǎng)絡(luò)互聯(lián)的GPU集群是大模型時(shí)代的關(guān)鍵基礎(chǔ)設(shè)施。

　　據(jù)了解，百度僅半年時(shí)間就采購了數(shù)萬片英偉達(dá)A800，其他互聯(lián)網(wǎng)廠商的采購量也在上萬片，刨除一開始發(fā)生了擠兌現(xiàn)象導(dǎo)致供不應(yīng)求外，目前英偉達(dá)產(chǎn)品的供貨周期在三個(gè)月以內(nèi)。

　　CUDA(ComputeUnifiedDeviceArchitecture)軟件生態(tài)，也是備受開發(fā)人員好評(píng)的產(chǎn)品，它允許開發(fā)者使用C/C++、Fortran等編程語言在英偉達(dá)GPU上進(jìn)行并行計(jì)算，提供了強(qiáng)大的計(jì)算能力和高效的數(shù)據(jù)傳輸方式，使得GPU在科學(xué)計(jì)算、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等領(lǐng)域得到了廣泛的應(yīng)用。

　　目前，英偉達(dá)是大模型熱潮中最受益的廠商，沒有之一，即便是微軟為OpenAI搭建的超級(jí)計(jì)算機(jī)，也依賴于英偉達(dá)的產(chǎn)品，絕大多數(shù)訓(xùn)練算力都來自于英偉達(dá)GPU，面對(duì)全球如雪花般飛來的訂單，英偉達(dá)賺的盆滿缽滿。

　　其最新的2024財(cái)年第一季度財(cái)報(bào)顯示，英偉達(dá)數(shù)據(jù)中心業(yè)務(wù)營收為42.8億美元，創(chuàng)下歷史紀(jì)錄，與上年同期相比增長14%，與上一財(cái)季相比增長18%，股價(jià)也創(chuàng)下歷史新高。財(cái)報(bào)具有滯后性，大模型帶來的業(yè)績?cè)鍪者€沒有完全體現(xiàn)在財(cái)報(bào)上。

　　國產(chǎn)算力的機(jī)會(huì)

　　在自主創(chuàng)新的大背景下，大模型算力也在加速擁抱國產(chǎn)化，大家的態(tài)度是遠(yuǎn)期普遍看好，短期仍有挑戰(zhàn)。大模型時(shí)代到來之后，很多國產(chǎn)芯片雖然有所準(zhǔn)備，但是在最高端的芯片上存在一定的差距。

　　燧原COO張亞林表示，當(dāng)前所有人在做大模型訓(xùn)練的時(shí)候，時(shí)間至關(guān)重要，現(xiàn)在大家需要成熟的產(chǎn)品，不會(huì)傾向于選用國產(chǎn)化芯片，避免遇到一些穩(wěn)定性或者成熟度的問題。

　　但推理層面是國產(chǎn)芯片的機(jī)會(huì)，張亞林表示，推理模型本身支持的方向比較單一，只要在推理模型上做到極致的調(diào)優(yōu)，把性價(jià)比拿出來，很多用戶反而愿意用國產(chǎn)化芯片。“我認(rèn)為現(xiàn)在國產(chǎn)芯片應(yīng)該倒過來，先做推理和微調(diào)，然后慢慢通過研究所、高校、國家級(jí)實(shí)驗(yàn)室的研究，牽引到集群化的能力，從推理到訓(xùn)練的曲線會(huì)更加合理。”他說。

　　謝廣軍提到，AI芯片的發(fā)展比摩爾定律更加激進(jìn)，也會(huì)有更大的下降空間。算力短缺一方面算力跟不上需求，另一方面，還是由于整個(gè)供應(yīng)形勢(shì)所帶來的問題。

　　“大模型的需求也會(huì)加速國產(chǎn)芯片的迭代。以昆侖芯來講，今年年底昆侖第三代，更加適合大模型，不管是訓(xùn)練還是推理，包括通信、顯存都會(huì)有非常大的提升。我相信其他的國產(chǎn)算力也是這樣的，國產(chǎn)算力更具備競(jìng)爭(zhēng)力，會(huì)使得整個(gè)算力成本進(jìn)一步下降，而且是加速下降。”謝廣軍說。

　　鈦媒體App了解到，今年國產(chǎn)芯片的發(fā)展呈現(xiàn)錯(cuò)位狀態(tài)，國產(chǎn)芯片還沒有對(duì)標(biāo)到英偉達(dá)最高端的產(chǎn)品，比如A100。有幾家國產(chǎn)芯片廠商已經(jīng)預(yù)備在今年晚些時(shí)候，推出類似的對(duì)標(biāo)產(chǎn)品。不論是訓(xùn)練還是推理，國產(chǎn)芯片的發(fā)展或多或少有一些滯后。

　　與之對(duì)應(yīng)地，英偉達(dá)芯片供應(yīng)相對(duì)緊張，國產(chǎn)算力在明年之后，會(huì)有比較大的機(jī)會(huì)，現(xiàn)在算力市場(chǎng)還在急劇增長，國產(chǎn)芯片的匹配度不夠，主要還是英偉達(dá)在增長，如果需求匹配上之后，國內(nèi)芯片會(huì)有很大的機(jī)會(huì)。

　　張亞林表示，如果燧原要真的“殺”到互聯(lián)網(wǎng)客戶場(chǎng)景，一定是在他們需要的場(chǎng)景和業(yè)務(wù)下，具備1.5倍的英偉達(dá)產(chǎn)品性能，和兩倍的性價(jià)比。

　　“互聯(lián)網(wǎng)客戶普遍追求極致性價(jià)比，但是在集群方面要看TCO(總體擁有成本)，集群的軟硬件整體價(jià)格、運(yùn)維服務(wù)部署等，比如我1000卡的集群，跟英偉達(dá)的600卡集群對(duì)比，可能性能差不多，但是我性價(jià)比更高，同時(shí)我提供更好的定制化的服務(wù)支持，在市場(chǎng)上也是很有競(jìng)爭(zhēng)力的。”他說。

　　6月，關(guān)于大模型算力的討論漸歇，基礎(chǔ)模型廠商初窺門徑，要么身體力行地去訓(xùn)練大模型，要么買到更有性價(jià)比的算力，但總體來說，以算力為中心的大模型基礎(chǔ)設(shè)施，成本依然處于較高的水平。

　　IT產(chǎn)業(yè)總是遵循否定之否定的鐘擺定理，在大模型的產(chǎn)業(yè)熱潮中，接下來算力的各個(gè)環(huán)節(jié)如何進(jìn)化，也更值得期待。(文中張陽為化名)

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信