AI戰(zhàn)略驅(qū)動(dòng)與新芽長青共振,騰訊2024年Q4營收同比增長11%vivo大模型,回歸地面速讀騰訊2024年報(bào):AI資本開支激增221%至767.6億,再啟超800億港元回購計(jì)劃冠宇集團(tuán)再獲9億融資 資本加碼彰顯發(fā)展?jié)摿?/a>三星盧泰文:要努力“攻陷”中國市場(chǎng) —— 目前份額不足1%DeepSeek讓英偉達(dá)H20都被瘋搶,但AI推理爆發(fā)不只靠囤卡S系列重磅回歸!小米15S Pro外觀揭曉奧迪計(jì)劃2029年前裁員7500人,聚焦電動(dòng)化轉(zhuǎn)型OPPO Find X8s全方面超越iPhone 16 Pro:更輕更薄 相機(jī)凸起更小董明珠自用美容儀后又一重磅產(chǎn)品!格力電器遮光美容面罩專利公布中國信通院發(fā)起大模型幻覺測(cè)試,助力AI安全應(yīng)用50系顯卡出貨量暴增200%!首批搭載5080的宏碁影騎士·擎7系列即將開搶!SK海力士推出全球首款12層HBM4樣品,助力AI技術(shù)發(fā)展Meta Llama模型下載量突破10億,開源AI生態(tài)系統(tǒng)加速擴(kuò)張馬自達(dá)發(fā)布“精益資產(chǎn)戰(zhàn)略”加速電氣化轉(zhuǎn)型科技云報(bào)到:AI Agent打了個(gè)響指,商業(yè)齒輪加速轉(zhuǎn)動(dòng)315點(diǎn)名:電子簽如何走出信任危機(jī)?蔚來第三品牌firefly螢火蟲首款車型4月19日上市Nvidia推新Dynamo軟件,計(jì)劃將DeepSeek的AI速度提升30倍Stability AI 發(fā)布新模型Stable Virtual Camera,2D 照片輕松轉(zhuǎn)3D 視頻
  • DeepSeek讓英偉達(dá)H20都被瘋搶,但AI推理爆發(fā)不只靠囤卡

    2025年03月19日 17:31:12   來源:量子位公眾號(hào)

      什么?H20都變搶手貨,漲價(jià)10萬那種?!

      最近有市場(chǎng)消息稱,原本不受青睞的英偉達(dá)H20咨詢量暴漲幾十倍,8卡H20機(jī)器的價(jià)格也較年前漲價(jià)十萬(單價(jià)110萬左右),有從業(yè)者預(yù)測(cè)“價(jià)格不會(huì)下來了”。

      要知道,H20是中國特供版,顯存帶寬等方面明顯受限,性能及性價(jià)比都遠(yuǎn)不如***。

      如今市場(chǎng)風(fēng)向有了變化,業(yè)內(nèi)人士爆料某互聯(lián)網(wǎng)大廠已經(jīng)下單10-20萬卡,整體市場(chǎng)H20的訂單量都大幅增加。

      背后原因,直觀來看是DeepSeek熱潮。更深入則是——

      AI推理需求爆了。

      H20盡管性能只有***的1/10,但是做推理綽綽有余,顯存夠、適合跑大規(guī)模參數(shù)模型,價(jià)格還便宜更多。

      AI Infra廠商PPIO派歐云聯(lián)合創(chuàng)始人兼CEO姚欣向量子位透露,去年年底H20還沒有這么搶手,但是到了春節(jié)后又是另一番景象,AI算力供需正在極速變化。

      與之相對(duì)應(yīng),英偉達(dá)CEO黃仁勛在最新一季財(cái)報(bào)發(fā)布后也表示,當(dāng)前AI模型所需的算力是此前模型的100倍,帶動(dòng)算力需求增加的關(guān)鍵是AI推理。

      見微知著,AI算力行業(yè)風(fēng)向已經(jīng)發(fā)生變化,新的機(jī)遇也已經(jīng)在醞釀。

      DeepSeek重構(gòu)算力邏輯,推理需求面臨爆發(fā)

      先一句話總結(jié),DeepSeek以算法創(chuàng)新重構(gòu)AI算力邏輯,推動(dòng)AI計(jì)算從“訓(xùn)練為主”向“推理為主”范式轉(zhuǎn)變,AI推理需求因此迎來全面爆發(fā)。

      首先來看DeepSeek做了什么?

      它今年開源的兩款模型,在架構(gòu)和算法上實(shí)現(xiàn)了訓(xùn)練推理效率提升。

      第一,DeepSeek-V3采用MoE(混合專家模型)架構(gòu),在AI Infra層面提出大規(guī)?绻(jié)點(diǎn)專家并行(Expert Parallelism/EP)。

      EP使得batch size大大增加,從而提高GPU矩陣乘法的效率,提高吞吐。專家模型分散在不同的GPU上,每個(gè)GPU只需要計(jì)算很少的專家(因此更少的訪存需求),從而降低延遲。

      同時(shí),DeepSeek-V3的專家模型數(shù)量從上一版的160個(gè)增加到256個(gè)。“大量小專家”模型架構(gòu)能進(jìn)一步降低單次推理時(shí)激活的參數(shù)量。

      第二,DeepSeek-R1-Zero邁出利用強(qiáng)化學(xué)習(xí)提升語言模型推理能力第一步。在沒有任何監(jiān)督數(shù)據(jù)的情況下,通過純強(qiáng)化學(xué)習(xí)過程進(jìn)行自我進(jìn)化,從而獲得推理能力。DeepSeek-R1采用FP8混合精度訓(xùn)練框架和動(dòng)態(tài)學(xué)習(xí)率調(diào)度器等技術(shù),將訓(xùn)練成本降低到560萬美元,遠(yuǎn)低于OpenAI。同時(shí)還能將模型能力蒸餾到更小的密集模型中。

      這種低成本模式使得模型能夠更廣泛應(yīng)用于AI推理場(chǎng)景。

      其次,為啥DeepSeek可以成為推動(dòng)算力趨勢(shì)轉(zhuǎn)變的導(dǎo)火索?

      從大模型整體發(fā)展進(jìn)程來看,預(yù)訓(xùn)練Scaling Law已經(jīng)放緩,推理Scaling Law成為新方向。

      推理Scaling Law的核心是通過增加推理時(shí)計(jì)算資源(如推理時(shí)間、算力)來提升模型性能。以o1為代表的推理模型都是通過在推理階段引入多步驟的思維鏈和強(qiáng)化學(xué)習(xí),顯著提升了推理能力,這導(dǎo)致推理計(jì)算需求的大幅增加。

      o1模型固然好用,但是卻不開源。DeepSeek正是為此而來,它們?yōu)槿袠I(yè)提供了一個(gè)性能優(yōu)秀的開源可替代方案,瞬間改變整體局面。

      憑借低成本、高性能的特點(diǎn),DeepSeek引發(fā)全社會(huì)范圍熱潮。不僅是普通人能夠免費(fèi)用,大中小企業(yè)也能將DeepSeek系列模型與自身業(yè)務(wù)融合。

      尤其是ToB領(lǐng)域,優(yōu)質(zhì)開源模型解決了企業(yè)在數(shù)據(jù)維度的顧慮——沒有人愿意將自己或用戶的數(shù)據(jù)免費(fèi)貢獻(xiàn)給閉源模型做訓(xùn)練。同時(shí)DeepSeek暫時(shí)沒有將模型商業(yè)化的考慮,更接近真正意義上的開源。這也點(diǎn)燃了企業(yè)擁抱AI的熱情,更加速了AI落地進(jìn)程,推理需求空前爆發(fā)。

      由此,量變引發(fā)質(zhì)變,AI計(jì)算的需求以及底層邏輯發(fā)生變化。

      相較于預(yù)訓(xùn)練,推理計(jì)算在硬件門檻、集群建設(shè)等方面要求都更低。

      超大規(guī)模集群不再是必需,小集群甚至單機(jī),將是未來AI Infra的主要特性。

      PPIO姚欣結(jié)合DeepSeek一系列動(dòng)向以及行業(yè)現(xiàn)狀給出分析,DeepSeek提出的跨節(jié)點(diǎn)專家并行系統(tǒng),已經(jīng)一定程度上體現(xiàn)出了分布式的思想,它把不常用的專家模型集中到一臺(tái)機(jī)器上,常用的專家模型分配更多算力。由此形成調(diào)度上的平衡。

      這進(jìn)一步扭轉(zhuǎn)了算力行業(yè)的深層邏輯。原本大家都在期待英偉達(dá)如何從硬件層面帶來更好的推理性能,如今通過EP的方式,可以用H800跑出***的性能。

      也解釋了為何DeepSeek可以影響英偉達(dá)的股價(jià)。因?yàn)橥ㄟ^系統(tǒng)優(yōu)化,底層硬件的護(hù)城河沒有那么深了。

      由此看到,H20這樣原本不被大廠推崇的推理計(jì)算卡開始搶手。甚至更進(jìn)一步,英偉達(dá)本身的地位也會(huì)受到影響。

      姚欣判斷,未來,英偉達(dá)一家獨(dú)大的情況也會(huì)有所改變,理時(shí)代,推理芯片將百花齊放。比如根據(jù)DeepSeek研究人員的測(cè)試結(jié)果,推理任務(wù)中昇騰***性能可達(dá)***的60%。

      這進(jìn)一步影響算力供給側(cè)的結(jié)構(gòu)和邏輯。再具體一點(diǎn),就是AI Infra架構(gòu)的轉(zhuǎn)變。

      該朝著哪個(gè)方向做?即將爆發(fā)的AI應(yīng)用落地浪潮已經(jīng)給出指引——優(yōu)化與降本。

      AI Infra扛起推理時(shí)代成本優(yōu)化重任

      相較于預(yù)訓(xùn)練時(shí)代,推理時(shí)代對(duì)云計(jì)算、AI Infra有著全新需求。

      預(yù)訓(xùn)練時(shí)代,云廠商提供的服務(wù)更傾向于一個(gè)裸金屬的訓(xùn)練環(huán)境。因?yàn)槭羌惺郊,每一臺(tái)機(jī)器幾乎都是跑滿的,云廠商能優(yōu)化的空間有限。推理時(shí)代,每個(gè)企業(yè)更傾向于選擇公有云服務(wù)部署模型。

      這意味著云廠商接下來的競(jìng)爭(zhēng)點(diǎn)應(yīng)該是從不同卡型到模型層的全棧優(yōu)化。

      不過為啥由AI Infra/云廠商來做?

      從技術(shù)底層到實(shí)際成本優(yōu)化上,AI Infra/云廠商有自己的生態(tài)位優(yōu)勢(shì)。

      從技術(shù)角度出發(fā),并不是所有AI廠商都具備處理高并發(fā)、高流量、高彈性的互聯(lián)網(wǎng)服務(wù)經(jīng)驗(yàn)。

      比如前不久DeepSeek突然公布成本利潤率理論值可達(dá)545%,引發(fā)諸多業(yè)內(nèi)爭(zhēng)議。

      PPIO姚欣表示:

      作為作為一個(gè)真正服務(wù)過4.5億用戶的創(chuàng)始人來說,在真實(shí)情況下,所有互聯(lián)網(wǎng)用戶請(qǐng)求都一定有波峰、波谷,一天的用戶請(qǐng)求變化應(yīng)該是一條曲線。如果在最高峰的時(shí)候,突然變成一條直線了,這意味著,在那個(gè)時(shí)間段用戶請(qǐng)求進(jìn)不來。

      所以總結(jié)來說,春節(jié)期間DeepSeek的服務(wù)崩潰,滿足不了用戶、企業(yè)服務(wù)。

      換言之,DeepSeek的服務(wù)和技術(shù)架構(gòu)更進(jìn)一步需要“彈性”算力,才可能解決這樣的問題。PPIO派歐云在春節(jié)期間第一時(shí)間接入DeepSeek,利用分布式推理和大規(guī)模算力調(diào)度,從而實(shí)現(xiàn)了更大彈性的負(fù)載均衡,保證客戶的服務(wù)質(zhì)量、穩(wěn)定性。

      另外,在基礎(chǔ)設(shè)施建設(shè)上,AI Infra廠商更有先天優(yōu)勢(shì)。

      其中一部分玩家通過自建IDC提供多種算力服務(wù),代表玩家有阿里云等;還有一部分玩家選擇通過分布式網(wǎng)絡(luò)提供算力服務(wù),它們不自建IDC、不購入GPU,而是通過獨(dú)特的算力共享調(diào)度的方式,代表玩家有PPIO派歐云。

      二者比較,前者能提供的綜合性服務(wù)更多,后者在性價(jià)比和資源調(diào)度上更有優(yōu)勢(shì)。

      如PPIO的分布式架構(gòu),打破了傳統(tǒng)集中式架構(gòu)的瓶頸,不僅為企業(yè)大幅降低了運(yùn)維壓力,還將系統(tǒng)的處理效率提升到了一個(gè)全新的高度。通過PPIO提供的AI推理平臺(tái),企業(yè)可以免去自行部署后臺(tái)服務(wù)的繁冗過程,直接調(diào)用API服務(wù)即可,不再需要自行運(yùn)維,成本直接減少了40%。

      速度方面,得益于PPIO遍布全球的分布式云服務(wù)網(wǎng)絡(luò),無論用戶身處何地,都能找到近距離的算力節(jié)點(diǎn),獲得20毫秒級(jí)的低延遲體驗(yàn)。PPIO通過獨(dú)特方式調(diào)用全國范圍的算力節(jié)點(diǎn),能為企業(yè)用戶帶來更彈性、更穩(wěn)定、更劃算的AI推理服務(wù)。

      據(jù)了解,PPIO在整個(gè)春節(jié)期間ToB方向的DeepSeek服務(wù)可用性做到了99.9%,無TPM限制。其中關(guān)鍵就在于底層足夠彈性,F(xiàn)階段,PPIO平臺(tái)的日均tokens消耗量已經(jīng)突破了1300億,與“六小龍”日均tokens消耗量不相上下。

      此外,在算法層面,PPIO還提出KV Cache稀疏化壓縮算法、Hydra Sampling投機(jī)采樣技術(shù)以及端到端FP8推理三大核心技術(shù),進(jìn)一步突破顯存、算力和帶寬對(duì)大模型推理性能的限制。由此,PPIO能夠迅速適配和優(yōu)化各種開源大模型。比如,PPIO算力云產(chǎn)品已為百川智能提供大規(guī)模AI推理服務(wù)

      “只有當(dāng)AI Infra公司能提供足夠高性能和低成本的基礎(chǔ)建設(shè),讓大量AI 應(yīng)用的收入足以覆蓋所有的推理成本,才會(huì)迎來AI應(yīng)用落地的大爆發(fā),用戶也會(huì)迎來AI 應(yīng)用的免費(fèi)時(shí)代。”姚欣表示。

      DeepSeek振臂一揮之后,還需要全產(chǎn)業(yè)上下游通力合作,才能進(jìn)一步加速大規(guī)模應(yīng)用落地。

      如今,值得關(guān)注的玩家紛紛站出來,承接流量的同時(shí),更進(jìn)一步推進(jìn)新浪潮發(fā)生。AI Infra玩家們的動(dòng)作,還只是表現(xiàn)之一。

      而隨著越來越多產(chǎn)業(yè)伙伴加入,更龐大的需求和市場(chǎng)還在醞釀之中。

      趨勢(shì)轉(zhuǎn)變之后,又是一個(gè)新開始。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    新聞

    明火炊具市場(chǎng):三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實(shí)力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專題論壇在沈陽成功舉辦。