僅僅不到30天,一些企業(yè)就已走過DeepSeek嘗鮮階段,從一體機(jī),急速轉(zhuǎn)向推理集群。
DeepSeek爆火之后,進(jìn)展之快,讓業(yè)界應(yīng)接不暇。
春節(jié)開工后首月,政務(wù)、金融、教育、醫(yī)療等千行百業(yè)掀起嘗鮮浪潮。根據(jù)愛分析的統(tǒng)計(jì),截止2月21日,已有約45%的央國企部署了DeepSeek模型。不少企業(yè)都是快速買一兩臺一體機(jī),來體驗(yàn)DeepSeek的效果。這讓一體機(jī)商機(jī)幾乎是以往的百倍,呈現(xiàn)井噴。
但僅僅不到30天,一些企業(yè)就已走過嘗鮮階段,從開箱即用的DeepSeek一體機(jī),急速轉(zhuǎn)向可支撐高并發(fā)、低時(shí)延的大規(guī)模專家并行(EP)推理集群。
在這場算力迭代角逐中,昇騰大規(guī)?绻(jié)點(diǎn)專家并行(大EP)方案,因?qū)eepSeek模型的支持及在技術(shù)思路上的契合,成為國內(nèi)企業(yè)的主要選擇。英偉達(dá)H20因算力短板和出口管制等不確定因素,面臨挑戰(zhàn)。
01
企業(yè)推理需求激增,算力擴(kuò)容
隨著DeepSeek引發(fā)的人工智能熱潮,中國企業(yè)正加速AI部署。
開年不到一個(gè)月,一些企業(yè)就已走過試用階段,開始探討算力擴(kuò)容問題。比如,一些企業(yè)先接入DeepSeek,嘗鮮通用能力,之后開始將業(yè)務(wù)系統(tǒng)對接DeepSeek,結(jié)果用戶增長快速,并發(fā)量越來越大。在這種情況下,一臺一臺增加一體機(jī)的線性擴(kuò)展方式,已經(jīng)不滿足他們的需求。
DeepSeek推動(dòng)產(chǎn)業(yè)進(jìn)入一個(gè)新階段——當(dāng)企業(yè)應(yīng)用開始上量后,對推理部署提出了在高并發(fā)、低時(shí)延場景下,要實(shí)現(xiàn)高性價(jià)比、穩(wěn)定的要求。
隨著應(yīng)用上量,目前市場上用戶推理算力的規(guī)模,從早期一兩臺一體機(jī),即8卡、16卡規(guī)模,正在快速擴(kuò)展到大幾十卡、一兩百卡以及千卡。而隨著應(yīng)用范圍的擴(kuò)大,推理算力的規(guī)模還在持續(xù)擴(kuò)大中。
為什么這輪企業(yè)推理需求會(huì)持續(xù)急劇擴(kuò)大?
非常重要的一點(diǎn)是,DeepSeek給千行百業(yè)帶來了信心——哪怕算力受限,依然能夠做出一流的模型。DeepSeek也開源了模型,很多企業(yè)有信心在強(qiáng)大的基礎(chǔ)大模型之上,實(shí)現(xiàn)人工智能的真正落地,這帶來了新一輪的百模千態(tài)。
DeepSeek借助MoE(混合專家模型)技術(shù),通過大EP并行(大規(guī)模跨節(jié)點(diǎn)專家并行)和超集群互聯(lián)技術(shù),成功降低了對高算力單卡的依賴。
DeepSeek也開辟了新的訓(xùn)練模式,讓企業(yè)應(yīng)用大模型的路徑縮短了。以前搭建一個(gè)智能化平臺,架構(gòu)復(fù)雜、成本高昂。DeepSeek讓大家發(fā)現(xiàn),原來二次訓(xùn)練沒有那么復(fù)雜。從一些社區(qū)熱議的外掛知識庫,到先將模型蒸餾,再通過強(qiáng)化學(xué)習(xí)而不是之前的微調(diào)和RAG,也能將自身數(shù)據(jù)訓(xùn)練到模型上去,這些過程比原來要快很多,所需的行業(yè)數(shù)據(jù)也至少少一個(gè)數(shù)量級,從而帶動(dòng)企業(yè)快速做出場景。
客戶對AI的認(rèn)知也發(fā)生了徹頭徹尾的變化。以前是大模型企業(yè)到客戶那里去“拿著錘子找釘子”,現(xiàn)在是客戶一下子拿出好多場景,主動(dòng)要求做更多。
由于上述因素,千行百業(yè)以更快速度擁抱DeepSeek,企業(yè)進(jìn)入DeepSeek與業(yè)務(wù)結(jié)合的階段。接下去,越來越多的智能體也將涌現(xiàn),甚至業(yè)務(wù)系統(tǒng)與DeepSeek的對接,以及智能體的推廣是并行的。未來三個(gè)月,我們將看到不斷變革的過程。而這都要求智算市場做出及時(shí)反應(yīng),快速支撐。
02
DeepSeek開源周后,推理集群怎么選
就在業(yè)界對推理算力提出更高要求的時(shí)候,DeepSeek于2025年2月底舉辦了“開源周”活動(dòng),連續(xù)五天每天發(fā)布一個(gè)開源項(xiàng)目。
這些開源項(xiàng)目涉及大模型全流程。在推理加速上,DeepSeek也開源了不少技術(shù)。而人們發(fā)現(xiàn),這些實(shí)踐都是在200多臺服務(wù)器集群環(huán)境下做出的,規(guī)模遠(yuǎn)比企業(yè)目前一兩臺一體機(jī)要大得了。這也與當(dāng)下企業(yè)推理擴(kuò)容的方向一致。
值得關(guān)注的是,DeepSeek模型采用的MoE架構(gòu),有大專家和小專家模式之分。大專家類似全科大夫,管的事情多,因此每個(gè)token激活的參數(shù)量多,計(jì)算量大,成本也高,走性能摸高之路。
DeepSeek則采用了小專家模式,如V2有160個(gè)專家,V3有256個(gè)專家,每次激活的參數(shù)量小,成本降低,在性能提升的同時(shí),更有利于快速普及,而這兩種方案將共存。
DeepSeek的推理集群,也貼合了小專家MoE架構(gòu),是一種大規(guī)?绻(jié)點(diǎn)專家并行(簡稱大EP并行)的方式。
它將眾多小專家分布到更多的卡上,如DeepSeek-R1推理集群,每卡部署 1~2個(gè)專家,每張卡占用的資源減少了,大量資源可用來支持更多并發(fā)用戶,也降低了對高算力單卡的依賴。通過各類技術(shù)創(chuàng)新,實(shí)現(xiàn)了高效并行計(jì)算,這為AI推理提供了參考之路。
在DeepSeek開源周之后,由于技術(shù)思路上的高度契合,昇騰和科大訊飛聯(lián)合團(tuán)隊(duì),率先實(shí)現(xiàn)了8機(jī)64卡的跨節(jié)點(diǎn)專家并行推理集群,這是繼DeepSeek公布其MoE模型訓(xùn)練推理方案后,業(yè)界首個(gè)基于自研算力的解決方案。
在大EP方案中,因?yàn)橛懈鄬<,帶來了?fù)載均衡、卡間通信的挑戰(zhàn)。昇騰大EP方案采用了MoE負(fù)載均衡、PD分離部署、雙流/多維混合并行、MLAPO融合算子、MTP(多token預(yù)測)等技術(shù),來實(shí)現(xiàn)集群的高效性。
這些優(yōu)化技術(shù),核心圍繞兩大方向:一是提高推理集群的吞吐,如MoE負(fù)載均衡,來服務(wù)更多用戶;另一是降低時(shí)延,如MLAPO融合算子等,這與用戶體驗(yàn)息息相關(guān)。
具體而言,MoE負(fù)載均衡如何實(shí)現(xiàn)高吞吐?通俗說是要避免有的專家特別忙,有的則特別閑,還要解決專家之間交換意見占用了處理問題的時(shí)間等問題。通過自動(dòng)尋優(yōu)、自動(dòng)配比、自動(dòng)預(yù)測、自動(dòng)降解等創(chuàng)新,昇騰大EP方案實(shí)現(xiàn)了負(fù)載均衡,極大提高了集群的吞吐量。
MLAPO融合算子有如何降低時(shí)延?為了優(yōu)化模型的推理效率和顯存占用,DeepSeek采用了MLA(多頭潛在注意力機(jī)制)。在MLA的預(yù)處理階段,傳統(tǒng)方案是多算子串行,頻繁占用內(nèi)存、通信等資源;昇騰則將各種小算子融合成單一算子,把上述頻繁操作并行處理,降低計(jì)算耗時(shí)70%,也就降低了時(shí)延。
這些技術(shù)中,還值得關(guān)注的是PD分離部署,這其實(shí)是業(yè)界一個(gè)公開的推理優(yōu)化技術(shù)。生成式人工智能過程分為兩個(gè)階段,一是理解用戶問題,稱為預(yù)填充階段(Prefill),需要大量計(jì)算。另一是生成回復(fù),稱為解碼(Decode),對計(jì)算要求降低、訪存要求提升。
之前兩階段由同一個(gè)節(jié)點(diǎn)完成,有資源競爭、推理延遲問題。業(yè)界目前將兩者分開部署,成為提升推理效率的關(guān)鍵技術(shù)。傳統(tǒng)的PD靜態(tài)分離方案不夠靈活,昇騰大EP提供了autoPD分離部署方案,適應(yīng)動(dòng)態(tài)調(diào)整的場景,系統(tǒng)有效吞吐提升50%以上。
經(jīng)過多點(diǎn)技術(shù)的優(yōu)化,目前昇騰大EP方案推理吞吐提升3.2倍,端到端時(shí)延降低50%,并在持續(xù)提升中。
在這里,要提到不少企業(yè)關(guān)注的英偉達(dá)H20,它被視為是替代***的熱門之選。H20是***的閹割版,其AI算力僅為***的15%,因此在大模型預(yù)訓(xùn)練上很難發(fā)揮作用。
在推理上,H20因?yàn)樗懔χ萍s,只適應(yīng)特定模型架構(gòu),如稠密模型的長序列推理任務(wù)場景。
針對DeepSeek采用的MoE,以上述PD場景為例,在預(yù)填充階段(Prefill),需要較強(qiáng)算力,H20性能不占優(yōu)。在解碼(Decode)階段,在大EP的大批量(batch size)場景下,H20算力也極易觸及瓶頸,時(shí)延大幅增加,無法充分發(fā)揮DeepSeek專家并行機(jī)制帶來的高吞吐優(yōu)勢,因此,DeepSeek在推理服務(wù)上,也未采用H20。
H20目前被作為特定場景下的過渡性產(chǎn)品。
數(shù)智前線獲悉,在此前一體機(jī)市場上,昇騰份額已達(dá)到70%以上。而根據(jù)用戶的需求,昇騰大EP方案可支持從幾十卡到幾千卡甚至更大規(guī)模的推理集群。企業(yè)之前采購的一體機(jī),可通過軟件升級,擴(kuò)展為大EP推理方案,實(shí)現(xiàn)平滑遷移,支撐企業(yè)加速AI部署帶來的智算市場爆發(fā)。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
根據(jù)2月底內(nèi)部溝通會(huì)上的消息,在美團(tuán)發(fā)展的第二個(gè)十年,“科技”成了公司創(chuàng)始人兼CEO王興會(huì)更多關(guān)注的方向之一。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。