中國企業(yè)加速AI部署昇騰大EP方案成首選，H20遇挑戰(zhàn)

2025年03月17日 11:10:06 文|�；� 來源：數(shù)智前線

　　僅僅不到30天，一些企業(yè)就已走過DeepSeek嘗鮮階段，從一體機(jī)，急速轉(zhuǎn)向推理集群。

　　DeepSeek爆火之后，進(jìn)展之快，讓業(yè)界應(yīng)接不暇。

　　春節(jié)開工后首月，政務(wù)、金融、教育、醫(yī)療等千行百業(yè)掀起嘗鮮浪潮。根據(jù)愛分析的統(tǒng)計(jì)，截止2月21日，已有約45%的央國企部署了DeepSeek模型。不少企業(yè)都是快速買一兩臺一體機(jī)，來體驗(yàn)DeepSeek的效果。這讓一體機(jī)商機(jī)幾乎是以往的百倍，呈現(xiàn)井噴。

　　但僅僅不到30天，一些企業(yè)就已走過嘗鮮階段，從開箱即用的DeepSeek一體機(jī)，急速轉(zhuǎn)向可支撐高并發(fā)、低時(shí)延的大規(guī)模專家并行(EP)推理集群。

　　在這場算力迭代角逐中，昇騰大規(guī)�？绻�(jié)點(diǎn)專家并行(大EP)方案，因?qū)eepSeek模型的支持及在技術(shù)思路上的契合，成為國內(nèi)企業(yè)的主要選擇。英偉達(dá)H20因算力短板和出口管制等不確定因素，面臨挑戰(zhàn)。

　　企業(yè)推理需求激增，算力擴(kuò)容

　　隨著DeepSeek引發(fā)的人工智能熱潮，中國企業(yè)正加速AI部署。

　　開年不到一個(gè)月，一些企業(yè)就已走過試用階段，開始探討算力擴(kuò)容問題。比如，一些企業(yè)先接入DeepSeek，嘗鮮通用能力，之后開始將業(yè)務(wù)系統(tǒng)對接DeepSeek，結(jié)果用戶增長快速，并發(fā)量越來越大。在這種情況下，一臺一臺增加一體機(jī)的線性擴(kuò)展方式，已經(jīng)不滿足他們的需求。

　　DeepSeek推動(dòng)產(chǎn)業(yè)進(jìn)入一個(gè)新階段——當(dāng)企業(yè)應(yīng)用開始上量后，對推理部署提出了在高并發(fā)、低時(shí)延場景下，要實(shí)現(xiàn)高性價(jià)比、穩(wěn)定的要求。

　　隨著應(yīng)用上量，目前市場上用戶推理算力的規(guī)模，從早期一兩臺一體機(jī)，即8卡、16卡規(guī)模，正在快速擴(kuò)展到大幾十卡、一兩百卡以及千卡。而隨著應(yīng)用范圍的擴(kuò)大，推理算力的規(guī)模還在持續(xù)擴(kuò)大中。

　　為什么這輪企業(yè)推理需求會(huì)持續(xù)急劇擴(kuò)大?

　　非常重要的一點(diǎn)是，DeepSeek給千行百業(yè)帶來了信心——哪怕算力受限，依然能夠做出一流的模型。DeepSeek也開源了模型，很多企業(yè)有信心在強(qiáng)大的基礎(chǔ)大模型之上，實(shí)現(xiàn)人工智能的真正落地，這帶來了新一輪的百模千態(tài)。

　　DeepSeek借助MoE(混合專家模型)技術(shù)，通過大EP并行(大規(guī)模跨節(jié)點(diǎn)專家并行)和超集群互聯(lián)技術(shù)，成功降低了對高算力單卡的依賴。

　　DeepSeek也開辟了新的訓(xùn)練模式，讓企業(yè)應(yīng)用大模型的路徑縮短了。以前搭建一個(gè)智能化平臺，架構(gòu)復(fù)雜、成本高昂。DeepSeek讓大家發(fā)現(xiàn)，原來二次訓(xùn)練沒有那么復(fù)雜。從一些社區(qū)熱議的外掛知識庫，到先將模型蒸餾，再通過強(qiáng)化學(xué)習(xí)而不是之前的微調(diào)和RAG，也能將自身數(shù)據(jù)訓(xùn)練到模型上去，這些過程比原來要快很多，所需的行業(yè)數(shù)據(jù)也至少少一個(gè)數(shù)量級，從而帶動(dòng)企業(yè)快速做出場景。

　　客戶對AI的認(rèn)知也發(fā)生了徹頭徹尾的變化。以前是大模型企業(yè)到客戶那里去“拿著錘子找釘子”，現(xiàn)在是客戶一下子拿出好多場景，主動(dòng)要求做更多。

　　由于上述因素，千行百業(yè)以更快速度擁抱DeepSeek，企業(yè)進(jìn)入DeepSeek與業(yè)務(wù)結(jié)合的階段。接下去，越來越多的智能體也將涌現(xiàn)，甚至業(yè)務(wù)系統(tǒng)與DeepSeek的對接，以及智能體的推廣是并行的。未來三個(gè)月，我們將看到不斷變革的過程。而這都要求智算市場做出及時(shí)反應(yīng)，快速支撐。

　　DeepSeek開源周后，推理集群怎么選

　　就在業(yè)界對推理算力提出更高要求的時(shí)候，DeepSeek于2025年2月底舉辦了“開源周”活動(dòng)，連續(xù)五天每天發(fā)布一個(gè)開源項(xiàng)目。

　　這些開源項(xiàng)目涉及大模型全流程。在推理加速上，DeepSeek也開源了不少技術(shù)。而人們發(fā)現(xiàn)，這些實(shí)踐都是在200多臺服務(wù)器集群環(huán)境下做出的，規(guī)模遠(yuǎn)比企業(yè)目前一兩臺一體機(jī)要大得了。這也與當(dāng)下企業(yè)推理擴(kuò)容的方向一致。

　　值得關(guān)注的是，DeepSeek模型采用的MoE架構(gòu)，有大專家和小專家模式之分。大專家類似全科大夫，管的事情多，因此每個(gè)token激活的參數(shù)量多，計(jì)算量大，成本也高，走性能摸高之路。

　　DeepSeek則采用了小專家模式，如V2有160個(gè)專家，V3有256個(gè)專家，每次激活的參數(shù)量小，成本降低，在性能提升的同時(shí)，更有利于快速普及，而這兩種方案將共存。

　　DeepSeek的推理集群，也貼合了小專家MoE架構(gòu)，是一種大規(guī)�？绻�(jié)點(diǎn)專家并行(簡稱大EP并行)的方式。

　　它將眾多小專家分布到更多的卡上，如DeepSeek-R1推理集群，每卡部署 1～2個(gè)專家，每張卡占用的資源減少了，大量資源可用來支持更多并發(fā)用戶，也降低了對高算力單卡的依賴。通過各類技術(shù)創(chuàng)新，實(shí)現(xiàn)了高效并行計(jì)算，這為AI推理提供了參考之路。

　　在DeepSeek開源周之后，由于技術(shù)思路上的高度契合，昇騰和科大訊飛聯(lián)合團(tuán)隊(duì)，率先實(shí)現(xiàn)了8機(jī)64卡的跨節(jié)點(diǎn)專家并行推理集群，這是繼DeepSeek公布其MoE模型訓(xùn)練推理方案后，業(yè)界首個(gè)基于自研算力的解決方案。

　　在大EP方案中，因?yàn)橛懈鄬＜�，帶來了�?fù)載均衡、卡間通信的挑戰(zhàn)。昇騰大EP方案采用了MoE負(fù)載均衡、PD分離部署、雙流/多維混合并行、MLAPO融合算子、MTP(多token預(yù)測)等技術(shù)，來實(shí)現(xiàn)集群的高效性。

　　這些優(yōu)化技術(shù)，核心圍繞兩大方向：一是提高推理集群的吞吐，如MoE負(fù)載均衡，來服務(wù)更多用戶;另一是降低時(shí)延，如MLAPO融合算子等，這與用戶體驗(yàn)息息相關(guān)。

　　具體而言，MoE負(fù)載均衡如何實(shí)現(xiàn)高吞吐?通俗說是要避免有的專家特別忙，有的則特別閑，還要解決專家之間交換意見占用了處理問題的時(shí)間等問題。通過自動(dòng)尋優(yōu)、自動(dòng)配比、自動(dòng)預(yù)測、自動(dòng)降解等創(chuàng)新，昇騰大EP方案實(shí)現(xiàn)了負(fù)載均衡，極大提高了集群的吞吐量。

　　MLAPO融合算子有如何降低時(shí)延?為了優(yōu)化模型的推理效率和顯存占用，DeepSeek采用了MLA(多頭潛在注意力機(jī)制)。在MLA的預(yù)處理階段，傳統(tǒng)方案是多算子串行，頻繁占用內(nèi)存、通信等資源;昇騰則將各種小算子融合成單一算子，把上述頻繁操作并行處理，降低計(jì)算耗時(shí)70%，也就降低了時(shí)延。

　　這些技術(shù)中，還值得關(guān)注的是PD分離部署，這其實(shí)是業(yè)界一個(gè)公開的推理優(yōu)化技術(shù)。生成式人工智能過程分為兩個(gè)階段，一是理解用戶問題，稱為預(yù)填充階段(Prefill)，需要大量計(jì)算。另一是生成回復(fù)，稱為解碼(Decode)，對計(jì)算要求降低、訪存要求提升。

　　之前兩階段由同一個(gè)節(jié)點(diǎn)完成，有資源競爭、推理延遲問題。業(yè)界目前將兩者分開部署，成為提升推理效率的關(guān)鍵技術(shù)。傳統(tǒng)的PD靜態(tài)分離方案不夠靈活，昇騰大EP提供了autoPD分離部署方案，適應(yīng)動(dòng)態(tài)調(diào)整的場景，系統(tǒng)有效吞吐提升50%以上。

　　經(jīng)過多點(diǎn)技術(shù)的優(yōu)化，目前昇騰大EP方案推理吞吐提升3.2倍，端到端時(shí)延降低50%，并在持續(xù)提升中。

　　在這里，要提到不少企業(yè)關(guān)注的英偉達(dá)H20，它被視為是替代***的熱門之選。H20是***的閹割版，其AI算力僅為***的15%，因此在大模型預(yù)訓(xùn)練上很難發(fā)揮作用。

　　在推理上，H20因?yàn)樗懔χ萍s，只適應(yīng)特定模型架構(gòu)，如稠密模型的長序列推理任務(wù)場景。

　　針對DeepSeek采用的MoE，以上述PD場景為例，在預(yù)填充階段(Prefill)，需要較強(qiáng)算力，H20性能不占優(yōu)。在解碼(Decode)階段，在大EP的大批量(batch size)場景下，H20算力也極易觸及瓶頸，時(shí)延大幅增加，無法充分發(fā)揮DeepSeek專家并行機(jī)制帶來的高吞吐優(yōu)勢，因此，DeepSeek在推理服務(wù)上，也未采用H20。

　　H20目前被作為特定場景下的過渡性產(chǎn)品。

　　數(shù)智前線獲悉，在此前一體機(jī)市場上，昇騰份額已達(dá)到70%以上。而根據(jù)用戶的需求，昇騰大EP方案可支持從幾十卡到幾千卡甚至更大規(guī)模的推理集群。企業(yè)之前采購的一體機(jī)，可通過軟件升級，擴(kuò)展為大EP推理方案，實(shí)現(xiàn)平滑遷移，支撐企業(yè)加速AI部署帶來的智算市場爆發(fā)。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信