馬斯克19天建成由10萬塊H100串聯(lián)的世界最大超算,已全力投入Grok3的訓練中。
與此同時,外媒爆料稱,OpenAI和微軟聯(lián)手打造的下一個超算集群,將由10萬塊GB200組成。
在這場AI爭霸賽中,各大科技公司們卯足勁加大對GPU的投資,似乎在暗示著擁有更多、更強大的GPU,就能讓自己立于不敗之地。
然而,這種對高端GPU的狂熱追求,并非在所有情況下,都是完美無缺的解決方案。
Pytorch之父表示,技術(shù)報告中暗藏了很多基礎(chǔ)設(shè)施的有趣細節(jié),包括如何并行化,如何讓系統(tǒng)更可靠等等
就拿穩(wěn)定性來說,在Llama3.1訓練的54天里,Meta的1.6萬塊H100集群總共遇到了419次意外中斷,相當于平均每3小時發(fā)生一次。
而在這之中,有148次(30.1%)是由于各種GPU故障引起的。
相比之下,由CPU故障引發(fā)的中斷,只有2次。
另一方面,想要把Llama3.1405B跑起來,還得搭配2臺8×H100的DGX工作站才行——即1280GB的顯存。
曾經(jīng)有位勇士嘗試用一張4090運行,結(jié)果等了30分鐘,模型才緩緩吐出一個「The」。
完整的回復,花了整整20個小時
熟悉模型的訓練和推理的朋友都知道,這些事情一點都不奇怪。
集群搭建(GPU配置、網(wǎng)絡(luò)設(shè)計、軌道優(yōu)化等)、集群管理(實時監(jiān)控、故障排除等)……個個都是「攔路虎」。
對于缺乏相關(guān)經(jīng)驗和資金的公司來說,該怎么辦?
最近,LC信息的研發(fā)工程師,僅靠4顆CPU,就讓千億參數(shù)的「源2.0」在通用服務器上跑起來了!
面對用Java編寫程序的代碼任務,「源2.0」非常迅速地給出了結(jié)果。
再給它上一道推理題——船邊掛著軟梯,離海面2米,海水每小時漲半米,幾小時海水能淹沒軟梯?
同樣,AI幾乎0延遲給出了詳細的解題步驟和答案。
用通用服務器運行千億參數(shù)大模型,可謂是前無古人,這一領(lǐng)域的積累完全是空白,沒有任何經(jīng)驗可借鑒。
LC信息,究竟是怎么做到的?
用4顆CPU,撬動千億參數(shù)大模型
若要在單臺服務器中,實現(xiàn)千億參數(shù)大模型的推理,包含了2個主要階段,均對計算能力提出了硬性需求。
首先,是預填充階段,也叫做前向傳播階段。
這一階段涉及到輸入數(shù)據(jù)的處理、模型參數(shù)第一次讀取。
比如,當你輸入「給我寫一篇有關(guān)AI的文章」提示,預填充階段便會將問題中所有token、模型參數(shù),一次性輸入計算。
有時,這一輸入可能是幾個字,也可能是幾千個字,或者是一本著作。
第一階段的計算需求有多大,主要取決于我們輸入的長度。
而在計算第一個token過程中,由于模型首次加載,會在內(nèi)存中存放全部的權(quán)重參數(shù),以及KV Cache等數(shù)據(jù)。
這是模型參數(shù)本身所占內(nèi)存空間的2-3倍。
對于千億參數(shù)模型來說,大量的參數(shù)和數(shù)據(jù)輸入,需要在強大計算單元中處理。對此,它需要支持向量化指令集、矩陣計算指令集,來實現(xiàn)大量的矩陣乘法和張量運算。
其次,是解碼階段,即在問題全部輸入之后,模型開始輸出結(jié)果的階段。
在這個階段,對大模型唯一要求便是,輸出盡可能快。同時,挑戰(zhàn)不再是算力挑戰(zhàn),轉(zhuǎn)而為「數(shù)據(jù)搬運」的挑戰(zhàn)。
它包含了兩部分「數(shù)據(jù)搬運」:
預填充階段生成的大量KV Cache,需要從顯存/內(nèi)存,搬運到計算單元中(工作量非常大)
模型參數(shù)本身的搬運
這些搬運對大模型的計算和推理速度,起到了一個決定性的作用。數(shù)據(jù)搬運很快,LLM吐字的速度也會快。
LLM輸出主要通過KV Catch,逐一生成token,并在每步生成后存儲新詞塊的鍵值向量。
因此,千億大模型的實時推理,服務器需要具備較高的計算能力,以及較高的存儲單元到計算單元的數(shù)據(jù)搬運效率。
總而言之,在大模型推理的兩階段中,有著截然不同的計算特征,需要在軟硬件方面去做協(xié)同優(yōu)化。
GPU不是萬能的
傳統(tǒng)上,GPU因其具備優(yōu)越的并行處理能力,一舉成為了AI訓練和推理的首選。
成本
然而,高端GPU服務器在市場中經(jīng)常出現(xiàn)供不應求,極難獲取的現(xiàn)象。
僅有資金雄厚的科技巨頭們,諸如微軟、谷歌,才能夠承擔起這筆費用。
另一方面,不僅買不起,更是用不起。
基于GPU的云服務租用,在推理任務中的代價卻是高昂的。對于科研人員和應用廠商來說,需要實現(xiàn)更高的成本效益,就得另謀他路。
顯存
此外,GPU最大的劣勢之一在于,顯存容量受限。
當前業(yè)界LLM的網(wǎng)絡(luò)架構(gòu),已從GPT逐漸走向MoE。通向AGI的大模型參數(shù)規(guī)模,只會呈指數(shù)級增長。
這意味著,閉源/開源主流模型的尺寸只會越來越大,千億參數(shù),甚至萬億參數(shù)模型將會成為主流。
對于百億參數(shù)模型,20-30GB顯存就夠了。然而,若想跑千億參數(shù),大約需要200-300GB的顯存空間。
目前主流的AI芯片,顯存通常只有幾十GB,顯然放不下這么大的模型。(目前最強的AI芯片也沒還沒達到200GB)
被低估的通用服務器
GPU不行,那就從CPU入手。
雖然目前還搞不定模型的大規(guī)模訓練,但通用服務器在推理任務上,卻意外有著不小的優(yōu)勢。
在具體實踐的過程中,LC信息的工程師們分別從硬件資源和算法層面入手,攻克了一個個「攔路虎」。
超大內(nèi)存+高速帶寬
算力方面,目前領(lǐng)先的服務器CPU都已經(jīng)具備了AI加速功能。
類似于GPU的Tensor core,AMX高級矩陣擴展可以將低精度的計算做加速,編成指令集給CPU的核,利用專用的核做加速。
算法方面,LC信息的通用服務器可同時支持PyTorch、TensorFlow等主流AI框架,以及DeepSpeed等流行開發(fā)工具,滿足了用戶更成熟、易部署、更便捷的開放生態(tài)需求。
通信方面,全鏈路UPI(Ultra Path Interconnect)總線互連的設(shè)計,則實現(xiàn)了CPU之間高效的數(shù)據(jù)傳輸:
允許任意兩個CPU之間直接進行數(shù)據(jù)傳輸,減少了通信延遲
提供了高傳輸速率,高達16GT/s(Giga Transfers per second)
此外,LC信息的研發(fā)工程師還優(yōu)化了CPU之間、CPU和內(nèi)存之間的走線路徑和阻抗連續(xù)性。
依據(jù)三維仿真結(jié)果,他們調(diào)整了過孔排列方式,將信號串擾降低到-60dB以下,較上一代降低了50%。
并且,通過DOE矩陣式有源仿真,找到了通道所有corner的組合最優(yōu)解,讓算力性能可以得到充分發(fā)揮。
內(nèi)存方面,可以說是通用服務器的最大優(yōu)勢了。
容量
對于4路服務器來說,只需給每顆CPU插上8根32GB內(nèi)存,就能輕松達到1TB。插滿之后甚至可以擴展到16TB,最大可支持萬億參數(shù)的模型。
帶寬
搭配DDR5的內(nèi)存,則可以實現(xiàn)4800MHz ×8bit ×8通道 ×4顆 ÷1024=1200GB/s的理論上帶寬。
實測結(jié)果顯示,讀帶寬為995GB/s、寫帶寬為423GB/s,以及讀寫帶寬為437GB/s。
這個數(shù)據(jù),對于一些搭載GDDR顯存的GPU或加速卡,可以說是毫不遜色。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。
2024年的Adobe MAX 2024發(fā)布會上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標識解析專題論壇在沈陽成功舉辦。