2025年99%代碼AI生成!OpenAI高管宣告沒有退路,人類將被全面超越美的推出全面風(fēng)空調(diào)QM1新品亞洲數(shù)據(jù)中心峰會(huì)宣布2025年市場擴(kuò)展計(jì)劃,增設(shè)馬來西亞和印尼站點(diǎn)1688平臺買家數(shù)突破1億,新業(yè)務(wù)“源選”正式上線掌閱預(yù)熱全新Ocean 4 Turbo 2025墨水屏閱讀器,屏幕升級至Carta1300寶馬改款5系明年首發(fā),設(shè)計(jì)與動(dòng)力全面升級網(wǎng)易云音樂打擊“聽歌外掛”:找“代練”自動(dòng)刷歌的 1 萬 + 賬號被治理繼 iPhone 后第二個(gè)產(chǎn)品類別:消息稱蘋果計(jì)劃四月起在印度生產(chǎn) AirPods 耳機(jī)追覓科技進(jìn)軍大家電領(lǐng)域 將亮相AWE 2025中國鐵塔2024年凈利潤107.29億元中手游《仙劍世界》工作室回應(yīng)裁員消息:對部分研發(fā)工作職能和模塊進(jìn)行優(yōu)化調(diào)整美國娛樂公司將推《西游記》動(dòng)畫電影三部曲:《八戒》《美猴王》《哪吒》郭明錤:英偉達(dá) B300 發(fā)布為 GTC 2025 重點(diǎn),預(yù)計(jì)第三季度量產(chǎn)國鐵集團(tuán)推出老年常旅客會(huì)員積分優(yōu)惠措施,可換火車票世界互聯(lián)網(wǎng)大會(huì)亞太峰會(huì)宣布 4 月 14 日至 15 日首度在香港召開病人帶著DeepSeek來看病,AI+醫(yī)療路在何方智己汽車發(fā)布會(huì)開啟智能座艙新時(shí)代英特爾Panther Lake處理器計(jì)劃2026年大規(guī)模量產(chǎn)一文剖析固德威王牌產(chǎn)品的硬核『品智』尼康Z5Ⅱ或提前至4月發(fā)布:搭載Expeed 7處理器及雙SD卡槽
  • 首頁 > 產(chǎn)經(jīng)新聞?lì)l道 > 業(yè)界新聞

    中國企業(yè)加速AI部署 昇騰大EP方案成首選,H20遇挑戰(zhàn)

    2025年03月17日 11:10:06   來源:數(shù)智前線

      僅僅不到30天,一些企業(yè)就已走過DeepSeek嘗鮮階段,從一體機(jī),急速轉(zhuǎn)向推理集群。

      DeepSeek爆火之后,進(jìn)展之快,讓業(yè)界應(yīng)接不暇。

      春節(jié)開工后首月,政務(wù)、金融、教育、醫(yī)療等千行百業(yè)掀起嘗鮮浪潮。根據(jù)愛分析的統(tǒng)計(jì),截止2月21日,已有約45%的央國企部署了DeepSeek模型。不少企業(yè)都是快速買一兩臺一體機(jī),來體驗(yàn)DeepSeek的效果。這讓一體機(jī)商機(jī)幾乎是以往的百倍,呈現(xiàn)井噴。

      但僅僅不到30天,一些企業(yè)就已走過嘗鮮階段,從開箱即用的DeepSeek一體機(jī),急速轉(zhuǎn)向可支撐高并發(fā)、低時(shí)延的大規(guī)模專家并行(EP)推理集群。

      在這場算力迭代角逐中,昇騰大規(guī)?绻(jié)點(diǎn)專家并行(大EP)方案,因?qū)eepSeek模型的支持及在技術(shù)思路上的契合,成為國內(nèi)企業(yè)的主要選擇。英偉達(dá)H20因算力短板和出口管制等不確定因素,面臨挑戰(zhàn)。

      01

      企業(yè)推理需求激增,算力擴(kuò)容

      隨著DeepSeek引發(fā)的人工智能熱潮,中國企業(yè)正加速AI部署。

      開年不到一個(gè)月,一些企業(yè)就已走過試用階段,開始探討算力擴(kuò)容問題。比如,一些企業(yè)先接入DeepSeek,嘗鮮通用能力,之后開始將業(yè)務(wù)系統(tǒng)對接DeepSeek,結(jié)果用戶增長快速,并發(fā)量越來越大。在這種情況下,一臺一臺增加一體機(jī)的線性擴(kuò)展方式,已經(jīng)不滿足他們的需求。

      DeepSeek推動(dòng)產(chǎn)業(yè)進(jìn)入一個(gè)新階段——當(dāng)企業(yè)應(yīng)用開始上量后,對推理部署提出了在高并發(fā)、低時(shí)延場景下,要實(shí)現(xiàn)高性價(jià)比、穩(wěn)定的要求。

      隨著應(yīng)用上量,目前市場上用戶推理算力的規(guī)模,從早期一兩臺一體機(jī),即8卡、16卡規(guī)模,正在快速擴(kuò)展到大幾十卡、一兩百卡以及千卡。而隨著應(yīng)用范圍的擴(kuò)大,推理算力的規(guī)模還在持續(xù)擴(kuò)大中。

      為什么這輪企業(yè)推理需求會(huì)持續(xù)急劇擴(kuò)大?

      非常重要的一點(diǎn)是,DeepSeek給千行百業(yè)帶來了信心——哪怕算力受限,依然能夠做出一流的模型。DeepSeek也開源了模型,很多企業(yè)有信心在強(qiáng)大的基礎(chǔ)大模型之上,實(shí)現(xiàn)人工智能的真正落地,這帶來了新一輪的百模千態(tài)。

      DeepSeek借助MoE(混合專家模型)技術(shù),通過大EP并行(大規(guī)模跨節(jié)點(diǎn)專家并行)和超集群互聯(lián)技術(shù),成功降低了對高算力單卡的依賴。

      DeepSeek也開辟了新的訓(xùn)練模式,讓企業(yè)應(yīng)用大模型的路徑縮短了。以前搭建一個(gè)智能化平臺,架構(gòu)復(fù)雜、成本高昂。DeepSeek讓大家發(fā)現(xiàn),原來二次訓(xùn)練沒有那么復(fù)雜。從一些社區(qū)熱議的外掛知識庫,到先將模型蒸餾,再通過強(qiáng)化學(xué)習(xí)而不是之前的微調(diào)和RAG,也能將自身數(shù)據(jù)訓(xùn)練到模型上去,這些過程比原來要快很多,所需的行業(yè)數(shù)據(jù)也至少少一個(gè)數(shù)量級,從而帶動(dòng)企業(yè)快速做出場景。

      客戶對AI的認(rèn)知也發(fā)生了徹頭徹尾的變化。以前是大模型企業(yè)到客戶那里去“拿著錘子找釘子”,現(xiàn)在是客戶一下子拿出好多場景,主動(dòng)要求做更多。

      由于上述因素,千行百業(yè)以更快速度擁抱DeepSeek,企業(yè)進(jìn)入DeepSeek與業(yè)務(wù)結(jié)合的階段。接下去,越來越多的智能體也將涌現(xiàn),甚至業(yè)務(wù)系統(tǒng)與DeepSeek的對接,以及智能體的推廣是并行的。未來三個(gè)月,我們將看到不斷變革的過程。而這都要求智算市場做出及時(shí)反應(yīng),快速支撐。

      02

      DeepSeek開源周后,推理集群怎么選

      就在業(yè)界對推理算力提出更高要求的時(shí)候,DeepSeek于2025年2月底舉辦了“開源周”活動(dòng),連續(xù)五天每天發(fā)布一個(gè)開源項(xiàng)目。

      這些開源項(xiàng)目涉及大模型全流程。在推理加速上,DeepSeek也開源了不少技術(shù)。而人們發(fā)現(xiàn),這些實(shí)踐都是在200多臺服務(wù)器集群環(huán)境下做出的,規(guī)模遠(yuǎn)比企業(yè)目前一兩臺一體機(jī)要大得了。這也與當(dāng)下企業(yè)推理擴(kuò)容的方向一致。

      值得關(guān)注的是,DeepSeek模型采用的MoE架構(gòu),有大專家和小專家模式之分。大專家類似全科大夫,管的事情多,因此每個(gè)token激活的參數(shù)量多,計(jì)算量大,成本也高,走性能摸高之路。

      DeepSeek則采用了小專家模式,如V2有160個(gè)專家,V3有256個(gè)專家,每次激活的參數(shù)量小,成本降低,在性能提升的同時(shí),更有利于快速普及,而這兩種方案將共存。

      DeepSeek的推理集群,也貼合了小專家MoE架構(gòu),是一種大規(guī)?绻(jié)點(diǎn)專家并行(簡稱大EP并行)的方式。

      它將眾多小專家分布到更多的卡上,如DeepSeek-R1推理集群,每卡部署 1~2個(gè)專家,每張卡占用的資源減少了,大量資源可用來支持更多并發(fā)用戶,也降低了對高算力單卡的依賴。通過各類技術(shù)創(chuàng)新,實(shí)現(xiàn)了高效并行計(jì)算,這為AI推理提供了參考之路。

      在DeepSeek開源周之后,由于技術(shù)思路上的高度契合,昇騰和科大訊飛聯(lián)合團(tuán)隊(duì),率先實(shí)現(xiàn)了8機(jī)64卡的跨節(jié)點(diǎn)專家并行推理集群,這是繼DeepSeek公布其MoE模型訓(xùn)練推理方案后,業(yè)界首個(gè)基于自研算力的解決方案。

      在大EP方案中,因?yàn)橛懈鄬<,帶來了?fù)載均衡、卡間通信的挑戰(zhàn)。昇騰大EP方案采用了MoE負(fù)載均衡、PD分離部署、雙流/多維混合并行、MLAPO融合算子、MTP(多token預(yù)測)等技術(shù),來實(shí)現(xiàn)集群的高效性。

      這些優(yōu)化技術(shù),核心圍繞兩大方向:一是提高推理集群的吞吐,如MoE負(fù)載均衡,來服務(wù)更多用戶;另一是降低時(shí)延,如MLAPO融合算子等,這與用戶體驗(yàn)息息相關(guān)。

      具體而言,MoE負(fù)載均衡如何實(shí)現(xiàn)高吞吐?通俗說是要避免有的專家特別忙,有的則特別閑,還要解決專家之間交換意見占用了處理問題的時(shí)間等問題。通過自動(dòng)尋優(yōu)、自動(dòng)配比、自動(dòng)預(yù)測、自動(dòng)降解等創(chuàng)新,昇騰大EP方案實(shí)現(xiàn)了負(fù)載均衡,極大提高了集群的吞吐量。

      MLAPO融合算子有如何降低時(shí)延?為了優(yōu)化模型的推理效率和顯存占用,DeepSeek采用了MLA(多頭潛在注意力機(jī)制)。在MLA的預(yù)處理階段,傳統(tǒng)方案是多算子串行,頻繁占用內(nèi)存、通信等資源;昇騰則將各種小算子融合成單一算子,把上述頻繁操作并行處理,降低計(jì)算耗時(shí)70%,也就降低了時(shí)延。

      這些技術(shù)中,還值得關(guān)注的是PD分離部署,這其實(shí)是業(yè)界一個(gè)公開的推理優(yōu)化技術(shù)。生成式人工智能過程分為兩個(gè)階段,一是理解用戶問題,稱為預(yù)填充階段(Prefill),需要大量計(jì)算。另一是生成回復(fù),稱為解碼(Decode),對計(jì)算要求降低、訪存要求提升。

      之前兩階段由同一個(gè)節(jié)點(diǎn)完成,有資源競爭、推理延遲問題。業(yè)界目前將兩者分開部署,成為提升推理效率的關(guān)鍵技術(shù)。傳統(tǒng)的PD靜態(tài)分離方案不夠靈活,昇騰大EP提供了autoPD分離部署方案,適應(yīng)動(dòng)態(tài)調(diào)整的場景,系統(tǒng)有效吞吐提升50%以上。

      經(jīng)過多點(diǎn)技術(shù)的優(yōu)化,目前昇騰大EP方案推理吞吐提升3.2倍,端到端時(shí)延降低50%,并在持續(xù)提升中。

      在這里,要提到不少企業(yè)關(guān)注的英偉達(dá)H20,它被視為是替代***的熱門之選。H20是***的閹割版,其AI算力僅為***的15%,因此在大模型預(yù)訓(xùn)練上很難發(fā)揮作用。

      在推理上,H20因?yàn)樗懔χ萍s,只適應(yīng)特定模型架構(gòu),如稠密模型的長序列推理任務(wù)場景。

      針對DeepSeek采用的MoE,以上述PD場景為例,在預(yù)填充階段(Prefill),需要較強(qiáng)算力,H20性能不占優(yōu)。在解碼(Decode)階段,在大EP的大批量(batch size)場景下,H20算力也極易觸及瓶頸,時(shí)延大幅增加,無法充分發(fā)揮DeepSeek專家并行機(jī)制帶來的高吞吐優(yōu)勢,因此,DeepSeek在推理服務(wù)上,也未采用H20。

      H20目前被作為特定場景下的過渡性產(chǎn)品。

      數(shù)智前線獲悉,在此前一體機(jī)市場上,昇騰份額已達(dá)到70%以上。而根據(jù)用戶的需求,昇騰大EP方案可支持從幾十卡到幾千卡甚至更大規(guī)模的推理集群。企業(yè)之前采購的一體機(jī),可通過軟件升級,擴(kuò)展為大EP推理方案,實(shí)現(xiàn)平滑遷移,支撐企業(yè)加速AI部署帶來的智算市場爆發(fā)。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實(shí)力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。