DeepSeek讓英偉達(dá)H20都被瘋搶，但AI推理爆發(fā)不只靠囤卡

2025年03月19日 17:31:12 來源：量子位公眾號(hào)

　　什么?H20都變搶手貨，漲價(jià)10萬那種?!

　　最近有市場(chǎng)消息稱，原本不受青睞的英偉達(dá)H20咨詢量暴漲幾十倍，8卡H20機(jī)器的價(jià)格也較年前漲價(jià)十萬(單價(jià)110萬左右)，有從業(yè)者預(yù)測(cè)“價(jià)格不會(huì)下來了”。

　　要知道，H20是中國特供版，顯存帶寬等方面明顯受限，性能及性價(jià)比都遠(yuǎn)不如***。

　　如今市場(chǎng)風(fēng)向有了變化，業(yè)內(nèi)人士爆料某互聯(lián)網(wǎng)大廠已經(jīng)下單10-20萬卡，整體市場(chǎng)H20的訂單量都大幅增加。

　　背后原因，直觀來看是DeepSeek熱潮。更深入則是——

　　AI推理需求爆了。

　　H20盡管性能只有***的1/10，但是做推理綽綽有余，顯存夠、適合跑大規(guī)模參數(shù)模型，價(jià)格還便宜更多。

　　AI Infra廠商PPIO派歐云聯(lián)合創(chuàng)始人兼CEO姚欣向量子位透露，去年年底H20還沒有這么搶手，但是到了春節(jié)后又是另一番景象，AI算力供需正在極速變化。

　　與之相對(duì)應(yīng)，英偉達(dá)CEO黃仁勛在最新一季財(cái)報(bào)發(fā)布后也表示，當(dāng)前AI模型所需的算力是此前模型的100倍，帶動(dòng)算力需求增加的關(guān)鍵是AI推理。

　　見微知著，AI算力行業(yè)風(fēng)向已經(jīng)發(fā)生變化，新的機(jī)遇也已經(jīng)在醞釀。

　　DeepSeek重構(gòu)算力邏輯，推理需求面臨爆發(fā)

　　先一句話總結(jié)，DeepSeek以算法創(chuàng)新重構(gòu)AI算力邏輯，推動(dòng)AI計(jì)算從“訓(xùn)練為主”向“推理為主”范式轉(zhuǎn)變，AI推理需求因此迎來全面爆發(fā)。

　　首先來看DeepSeek做了什么?

　　它今年開源的兩款模型，在架構(gòu)和算法上實(shí)現(xiàn)了訓(xùn)練推理效率提升。

　　第一，DeepSeek-V3采用MoE(混合專家模型)架構(gòu)，在AI Infra層面提出大規(guī)�？绻�(jié)點(diǎn)專家并行(Expert Parallelism/EP)。

　　EP使得batch size大大增加，從而提高GPU矩陣乘法的效率，提高吞吐。專家模型分散在不同的GPU上，每個(gè)GPU只需要計(jì)算很少的專家(因此更少的訪存需求)，從而降低延遲。

　　同時(shí)，DeepSeek-V3的專家模型數(shù)量從上一版的160個(gè)增加到256個(gè)。“大量小專家”模型架構(gòu)能進(jìn)一步降低單次推理時(shí)激活的參數(shù)量。

　　第二，DeepSeek-R1-Zero邁出利用強(qiáng)化學(xué)習(xí)提升語言模型推理能力第一步。在沒有任何監(jiān)督數(shù)據(jù)的情況下，通過純強(qiáng)化學(xué)習(xí)過程進(jìn)行自我進(jìn)化，從而獲得推理能力。DeepSeek-R1采用FP8混合精度訓(xùn)練框架和動(dòng)態(tài)學(xué)習(xí)率調(diào)度器等技術(shù)，將訓(xùn)練成本降低到560萬美元，遠(yuǎn)低于OpenAI。同時(shí)還能將模型能力蒸餾到更小的密集模型中。

　　這種低成本模式使得模型能夠更廣泛應(yīng)用于AI推理場(chǎng)景。

　　其次，為啥DeepSeek可以成為推動(dòng)算力趨勢(shì)轉(zhuǎn)變的導(dǎo)火索?

　　從大模型整體發(fā)展進(jìn)程來看，預(yù)訓(xùn)練Scaling Law已經(jīng)放緩，推理Scaling Law成為新方向。

　　推理Scaling Law的核心是通過增加推理時(shí)計(jì)算資源(如推理時(shí)間、算力)來提升模型性能。以o1為代表的推理模型都是通過在推理階段引入多步驟的思維鏈和強(qiáng)化學(xué)習(xí)，顯著提升了推理能力，這導(dǎo)致推理計(jì)算需求的大幅增加。

　　o1模型固然好用，但是卻不開源。DeepSeek正是為此而來，它們?yōu)槿袠I(yè)提供了一個(gè)性能優(yōu)秀的開源可替代方案，瞬間改變整體局面。

　　憑借低成本、高性能的特點(diǎn)，DeepSeek引發(fā)全社會(huì)范圍熱潮。不僅是普通人能夠免費(fèi)用，大中小企業(yè)也能將DeepSeek系列模型與自身業(yè)務(wù)融合。

　　尤其是ToB領(lǐng)域，優(yōu)質(zhì)開源模型解決了企業(yè)在數(shù)據(jù)維度的顧慮——沒有人愿意將自己或用戶的數(shù)據(jù)免費(fèi)貢獻(xiàn)給閉源模型做訓(xùn)練。同時(shí)DeepSeek暫時(shí)沒有將模型商業(yè)化的考慮，更接近真正意義上的開源。這也點(diǎn)燃了企業(yè)擁抱AI的熱情，更加速了AI落地進(jìn)程，推理需求空前爆發(fā)。

　　由此，量變引發(fā)質(zhì)變，AI計(jì)算的需求以及底層邏輯發(fā)生變化。

　　相較于預(yù)訓(xùn)練，推理計(jì)算在硬件門檻、集群建設(shè)等方面要求都更低。

　　超大規(guī)模集群不再是必需，小集群甚至單機(jī)，將是未來AI Infra的主要特性。

　　PPIO姚欣結(jié)合DeepSeek一系列動(dòng)向以及行業(yè)現(xiàn)狀給出分析，DeepSeek提出的跨節(jié)點(diǎn)專家并行系統(tǒng)，已經(jīng)一定程度上體現(xiàn)出了分布式的思想，它把不常用的專家模型集中到一臺(tái)機(jī)器上，常用的專家模型分配更多算力。由此形成調(diào)度上的平衡。

　　這進(jìn)一步扭轉(zhuǎn)了算力行業(yè)的深層邏輯。原本大家都在期待英偉達(dá)如何從硬件層面帶來更好的推理性能，如今通過EP的方式，可以用H800跑出***的性能。

　　也解釋了為何DeepSeek可以影響英偉達(dá)的股價(jià)。因?yàn)橥ㄟ^系統(tǒng)優(yōu)化，底層硬件的護(hù)城河沒有那么深了。

　　由此看到，H20這樣原本不被大廠推崇的推理計(jì)算卡開始搶手。甚至更進(jìn)一步，英偉達(dá)本身的地位也會(huì)受到影響。

　　姚欣判斷，未來，英偉達(dá)一家獨(dú)大的情況也會(huì)有所改變，推理時(shí)代，推理芯片將百花齊放。比如根據(jù)DeepSeek研究人員的測(cè)試結(jié)果，推理任務(wù)中昇騰***性能可達(dá)***的60%。

　　這進(jìn)一步影響算力供給側(cè)的結(jié)構(gòu)和邏輯。再具體一點(diǎn)，就是AI Infra架構(gòu)的轉(zhuǎn)變。

　　該朝著哪個(gè)方向做?即將爆發(fā)的AI應(yīng)用落地浪潮已經(jīng)給出指引——優(yōu)化與降本。

　　AI Infra扛起推理時(shí)代成本優(yōu)化重任

　　相較于預(yù)訓(xùn)練時(shí)代，推理時(shí)代對(duì)云計(jì)算、AI Infra有著全新需求。

　　預(yù)訓(xùn)練時(shí)代，云廠商提供的服務(wù)更傾向于一個(gè)裸金屬的訓(xùn)練環(huán)境。因?yàn)槭羌惺郊�，每一臺(tái)機(jī)器幾乎都是跑滿的，云廠商能優(yōu)化的空間有限。推理時(shí)代，每個(gè)企業(yè)更傾向于選擇公有云服務(wù)部署模型。

　　這意味著云廠商接下來的競(jìng)爭(zhēng)點(diǎn)應(yīng)該是從不同卡型到模型層的全棧優(yōu)化。

　　不過為啥由AI Infra/云廠商來做?

　　從技術(shù)底層到實(shí)際成本優(yōu)化上，AI Infra/云廠商有自己的生態(tài)位優(yōu)勢(shì)。

　　從技術(shù)角度出發(fā)，并不是所有AI廠商都具備處理高并發(fā)、高流量、高彈性的互聯(lián)網(wǎng)服務(wù)經(jīng)驗(yàn)。

　　比如前不久DeepSeek突然公布成本利潤率理論值可達(dá)545%，引發(fā)諸多業(yè)內(nèi)爭(zhēng)議。

　　PPIO姚欣表示:

　　作為作為一個(gè)真正服務(wù)過4.5億用戶的創(chuàng)始人來說，在真實(shí)情況下，所有互聯(lián)網(wǎng)用戶請(qǐng)求都一定有波峰、波谷，一天的用戶請(qǐng)求變化應(yīng)該是一條曲線。如果在最高峰的時(shí)候，突然變成一條直線了，這意味著，在那個(gè)時(shí)間段用戶請(qǐng)求進(jìn)不來。

　　所以總結(jié)來說，春節(jié)期間DeepSeek的服務(wù)崩潰，滿足不了用戶、企業(yè)服務(wù)。

　　換言之，DeepSeek的服務(wù)和技術(shù)架構(gòu)更進(jìn)一步需要“彈性”算力，才可能解決這樣的問題。PPIO派歐云在春節(jié)期間第一時(shí)間接入DeepSeek，利用分布式推理和大規(guī)模算力調(diào)度，從而實(shí)現(xiàn)了更大彈性的負(fù)載均衡，保證客戶的服務(wù)質(zhì)量、穩(wěn)定性。

　　另外，在基礎(chǔ)設(shè)施建設(shè)上，AI Infra廠商更有先天優(yōu)勢(shì)。

　　其中一部分玩家通過自建IDC提供多種算力服務(wù)，代表玩家有阿里云等;還有一部分玩家選擇通過分布式網(wǎng)絡(luò)提供算力服務(wù)，它們不自建IDC、不購入GPU，而是通過獨(dú)特的算力共享調(diào)度的方式，代表玩家有PPIO派歐云。

　　二者比較，前者能提供的綜合性服務(wù)更多，后者在性價(jià)比和資源調(diào)度上更有優(yōu)勢(shì)。

　　如PPIO的分布式架構(gòu)，打破了傳統(tǒng)集中式架構(gòu)的瓶頸，不僅為企業(yè)大幅降低了運(yùn)維壓力，還將系統(tǒng)的處理效率提升到了一個(gè)全新的高度。通過PPIO提供的AI推理平臺(tái)，企業(yè)可以免去自行部署后臺(tái)服務(wù)的繁冗過程，直接調(diào)用API服務(wù)即可，不再需要自行運(yùn)維，成本直接減少了40%。

　　速度方面，得益于PPIO遍布全球的分布式云服務(wù)網(wǎng)絡(luò)，無論用戶身處何地，都能找到近距離的算力節(jié)點(diǎn)，獲得20毫秒級(jí)的低延遲體驗(yàn)。PPIO通過獨(dú)特方式調(diào)用全國范圍的算力節(jié)點(diǎn)，能為企業(yè)用戶帶來更彈性、更穩(wěn)定、更劃算的AI推理服務(wù)。

　　據(jù)了解，PPIO在整個(gè)春節(jié)期間ToB方向的DeepSeek服務(wù)可用性做到了99.9%，無TPM限制。其中關(guān)鍵就在于底層足夠彈性�，F(xiàn)階段，PPIO平臺(tái)的日均tokens消耗量已經(jīng)突破了1300億，與“六小龍”日均tokens消耗量不相上下。

　　此外，在算法層面，PPIO還提出KV Cache稀疏化壓縮算法、Hydra Sampling投機(jī)采樣技術(shù)以及端到端FP8推理三大核心技術(shù)，進(jìn)一步突破顯存、算力和帶寬對(duì)大模型推理性能的限制。由此，PPIO能夠迅速適配和優(yōu)化各種開源大模型。比如，PPIO算力云產(chǎn)品已為百川智能提供大規(guī)模AI推理服務(wù)。

　　“只有當(dāng)AI Infra公司能提供足夠高性能和低成本的基礎(chǔ)建設(shè)，讓大量AI 應(yīng)用的收入足以覆蓋所有的推理成本，才會(huì)迎來AI應(yīng)用落地的大爆發(fā)，用戶也會(huì)迎來AI 應(yīng)用的免費(fèi)時(shí)代。”姚欣表示。

　　DeepSeek振臂一揮之后，還需要全產(chǎn)業(yè)上下游通力合作，才能進(jìn)一步加速大規(guī)模應(yīng)用落地。

　　如今，值得關(guān)注的玩家紛紛站出來，承接流量的同時(shí)，更進(jìn)一步推進(jìn)新浪潮發(fā)生。AI Infra玩家們的動(dòng)作，還只是表現(xiàn)之一。

　　而隨著越來越多產(chǎn)業(yè)伙伴加入，更龐大的需求和市場(chǎng)還在醞釀之中。

　　趨勢(shì)轉(zhuǎn)變之后，又是一個(gè)新開始。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信