什么?H20都變搶手貨,漲價(jià)10萬那種?!
最近有市場(chǎng)消息稱,原本不受青睞的英偉達(dá)H20咨詢量暴漲幾十倍,8卡H20機(jī)器的價(jià)格也較年前漲價(jià)十萬(單價(jià)110萬左右),有從業(yè)者預(yù)測(cè)“價(jià)格不會(huì)下來了”。
要知道,H20是中國特供版,顯存帶寬等方面明顯受限,性能及性價(jià)比都遠(yuǎn)不如***。
如今市場(chǎng)風(fēng)向有了變化,業(yè)內(nèi)人士爆料某互聯(lián)網(wǎng)大廠已經(jīng)下單10-20萬卡,整體市場(chǎng)H20的訂單量都大幅增加。
背后原因,直觀來看是DeepSeek熱潮。更深入則是——
AI推理需求爆了。
H20盡管性能只有***的1/10,但是做推理綽綽有余,顯存夠、適合跑大規(guī)模參數(shù)模型,價(jià)格還便宜更多。
AI Infra廠商PPIO派歐云聯(lián)合創(chuàng)始人兼CEO姚欣向量子位透露,去年年底H20還沒有這么搶手,但是到了春節(jié)后又是另一番景象,AI算力供需正在極速變化。
與之相對(duì)應(yīng),英偉達(dá)CEO黃仁勛在最新一季財(cái)報(bào)發(fā)布后也表示,當(dāng)前AI模型所需的算力是此前模型的100倍,帶動(dòng)算力需求增加的關(guān)鍵是AI推理。
見微知著,AI算力行業(yè)風(fēng)向已經(jīng)發(fā)生變化,新的機(jī)遇也已經(jīng)在醞釀。
DeepSeek重構(gòu)算力邏輯,推理需求面臨爆發(fā)
先一句話總結(jié),DeepSeek以算法創(chuàng)新重構(gòu)AI算力邏輯,推動(dòng)AI計(jì)算從“訓(xùn)練為主”向“推理為主”范式轉(zhuǎn)變,AI推理需求因此迎來全面爆發(fā)。
首先來看DeepSeek做了什么?
它今年開源的兩款模型,在架構(gòu)和算法上實(shí)現(xiàn)了訓(xùn)練推理效率提升。
第一,DeepSeek-V3采用MoE(混合專家模型)架構(gòu),在AI Infra層面提出大規(guī)?绻(jié)點(diǎn)專家并行(Expert Parallelism/EP)。
EP使得batch size大大增加,從而提高GPU矩陣乘法的效率,提高吞吐。專家模型分散在不同的GPU上,每個(gè)GPU只需要計(jì)算很少的專家(因此更少的訪存需求),從而降低延遲。
同時(shí),DeepSeek-V3的專家模型數(shù)量從上一版的160個(gè)增加到256個(gè)。“大量小專家”模型架構(gòu)能進(jìn)一步降低單次推理時(shí)激活的參數(shù)量。
第二,DeepSeek-R1-Zero邁出利用強(qiáng)化學(xué)習(xí)提升語言模型推理能力第一步。在沒有任何監(jiān)督數(shù)據(jù)的情況下,通過純強(qiáng)化學(xué)習(xí)過程進(jìn)行自我進(jìn)化,從而獲得推理能力。DeepSeek-R1采用FP8混合精度訓(xùn)練框架和動(dòng)態(tài)學(xué)習(xí)率調(diào)度器等技術(shù),將訓(xùn)練成本降低到560萬美元,遠(yuǎn)低于OpenAI。同時(shí)還能將模型能力蒸餾到更小的密集模型中。
這種低成本模式使得模型能夠更廣泛應(yīng)用于AI推理場(chǎng)景。
其次,為啥DeepSeek可以成為推動(dòng)算力趨勢(shì)轉(zhuǎn)變的導(dǎo)火索?
從大模型整體發(fā)展進(jìn)程來看,預(yù)訓(xùn)練Scaling Law已經(jīng)放緩,推理Scaling Law成為新方向。
推理Scaling Law的核心是通過增加推理時(shí)計(jì)算資源(如推理時(shí)間、算力)來提升模型性能。以o1為代表的推理模型都是通過在推理階段引入多步驟的思維鏈和強(qiáng)化學(xué)習(xí),顯著提升了推理能力,這導(dǎo)致推理計(jì)算需求的大幅增加。
o1模型固然好用,但是卻不開源。DeepSeek正是為此而來,它們?yōu)槿袠I(yè)提供了一個(gè)性能優(yōu)秀的開源可替代方案,瞬間改變整體局面。
憑借低成本、高性能的特點(diǎn),DeepSeek引發(fā)全社會(huì)范圍熱潮。不僅是普通人能夠免費(fèi)用,大中小企業(yè)也能將DeepSeek系列模型與自身業(yè)務(wù)融合。
尤其是ToB領(lǐng)域,優(yōu)質(zhì)開源模型解決了企業(yè)在數(shù)據(jù)維度的顧慮——沒有人愿意將自己或用戶的數(shù)據(jù)免費(fèi)貢獻(xiàn)給閉源模型做訓(xùn)練。同時(shí)DeepSeek暫時(shí)沒有將模型商業(yè)化的考慮,更接近真正意義上的開源。這也點(diǎn)燃了企業(yè)擁抱AI的熱情,更加速了AI落地進(jìn)程,推理需求空前爆發(fā)。
由此,量變引發(fā)質(zhì)變,AI計(jì)算的需求以及底層邏輯發(fā)生變化。
相較于預(yù)訓(xùn)練,推理計(jì)算在硬件門檻、集群建設(shè)等方面要求都更低。
超大規(guī)模集群不再是必需,小集群甚至單機(jī),將是未來AI Infra的主要特性。
PPIO姚欣結(jié)合DeepSeek一系列動(dòng)向以及行業(yè)現(xiàn)狀給出分析,DeepSeek提出的跨節(jié)點(diǎn)專家并行系統(tǒng),已經(jīng)一定程度上體現(xiàn)出了分布式的思想,它把不常用的專家模型集中到一臺(tái)機(jī)器上,常用的專家模型分配更多算力。由此形成調(diào)度上的平衡。
這進(jìn)一步扭轉(zhuǎn)了算力行業(yè)的深層邏輯。原本大家都在期待英偉達(dá)如何從硬件層面帶來更好的推理性能,如今通過EP的方式,可以用H800跑出***的性能。
也解釋了為何DeepSeek可以影響英偉達(dá)的股價(jià)。因?yàn)橥ㄟ^系統(tǒng)優(yōu)化,底層硬件的護(hù)城河沒有那么深了。
由此看到,H20這樣原本不被大廠推崇的推理計(jì)算卡開始搶手。甚至更進(jìn)一步,英偉達(dá)本身的地位也會(huì)受到影響。
姚欣判斷,未來,英偉達(dá)一家獨(dú)大的情況也會(huì)有所改變,推理時(shí)代,推理芯片將百花齊放。比如根據(jù)DeepSeek研究人員的測(cè)試結(jié)果,推理任務(wù)中昇騰***性能可達(dá)***的60%。
這進(jìn)一步影響算力供給側(cè)的結(jié)構(gòu)和邏輯。再具體一點(diǎn),就是AI Infra架構(gòu)的轉(zhuǎn)變。
該朝著哪個(gè)方向做?即將爆發(fā)的AI應(yīng)用落地浪潮已經(jīng)給出指引——優(yōu)化與降本。
AI Infra扛起推理時(shí)代成本優(yōu)化重任
相較于預(yù)訓(xùn)練時(shí)代,推理時(shí)代對(duì)云計(jì)算、AI Infra有著全新需求。
預(yù)訓(xùn)練時(shí)代,云廠商提供的服務(wù)更傾向于一個(gè)裸金屬的訓(xùn)練環(huán)境。因?yàn)槭羌惺郊,每一臺(tái)機(jī)器幾乎都是跑滿的,云廠商能優(yōu)化的空間有限。推理時(shí)代,每個(gè)企業(yè)更傾向于選擇公有云服務(wù)部署模型。
這意味著云廠商接下來的競(jìng)爭(zhēng)點(diǎn)應(yīng)該是從不同卡型到模型層的全棧優(yōu)化。
不過為啥由AI Infra/云廠商來做?
從技術(shù)底層到實(shí)際成本優(yōu)化上,AI Infra/云廠商有自己的生態(tài)位優(yōu)勢(shì)。
從技術(shù)角度出發(fā),并不是所有AI廠商都具備處理高并發(fā)、高流量、高彈性的互聯(lián)網(wǎng)服務(wù)經(jīng)驗(yàn)。
比如前不久DeepSeek突然公布成本利潤率理論值可達(dá)545%,引發(fā)諸多業(yè)內(nèi)爭(zhēng)議。
PPIO姚欣表示:
作為作為一個(gè)真正服務(wù)過4.5億用戶的創(chuàng)始人來說,在真實(shí)情況下,所有互聯(lián)網(wǎng)用戶請(qǐng)求都一定有波峰、波谷,一天的用戶請(qǐng)求變化應(yīng)該是一條曲線。如果在最高峰的時(shí)候,突然變成一條直線了,這意味著,在那個(gè)時(shí)間段用戶請(qǐng)求進(jìn)不來。
所以總結(jié)來說,春節(jié)期間DeepSeek的服務(wù)崩潰,滿足不了用戶、企業(yè)服務(wù)。
換言之,DeepSeek的服務(wù)和技術(shù)架構(gòu)更進(jìn)一步需要“彈性”算力,才可能解決這樣的問題。PPIO派歐云在春節(jié)期間第一時(shí)間接入DeepSeek,利用分布式推理和大規(guī)模算力調(diào)度,從而實(shí)現(xiàn)了更大彈性的負(fù)載均衡,保證客戶的服務(wù)質(zhì)量、穩(wěn)定性。
另外,在基礎(chǔ)設(shè)施建設(shè)上,AI Infra廠商更有先天優(yōu)勢(shì)。
其中一部分玩家通過自建IDC提供多種算力服務(wù),代表玩家有阿里云等;還有一部分玩家選擇通過分布式網(wǎng)絡(luò)提供算力服務(wù),它們不自建IDC、不購入GPU,而是通過獨(dú)特的算力共享調(diào)度的方式,代表玩家有PPIO派歐云。
二者比較,前者能提供的綜合性服務(wù)更多,后者在性價(jià)比和資源調(diào)度上更有優(yōu)勢(shì)。
如PPIO的分布式架構(gòu),打破了傳統(tǒng)集中式架構(gòu)的瓶頸,不僅為企業(yè)大幅降低了運(yùn)維壓力,還將系統(tǒng)的處理效率提升到了一個(gè)全新的高度。通過PPIO提供的AI推理平臺(tái),企業(yè)可以免去自行部署后臺(tái)服務(wù)的繁冗過程,直接調(diào)用API服務(wù)即可,不再需要自行運(yùn)維,成本直接減少了40%。
速度方面,得益于PPIO遍布全球的分布式云服務(wù)網(wǎng)絡(luò),無論用戶身處何地,都能找到近距離的算力節(jié)點(diǎn),獲得20毫秒級(jí)的低延遲體驗(yàn)。PPIO通過獨(dú)特方式調(diào)用全國范圍的算力節(jié)點(diǎn),能為企業(yè)用戶帶來更彈性、更穩(wěn)定、更劃算的AI推理服務(wù)。
據(jù)了解,PPIO在整個(gè)春節(jié)期間ToB方向的DeepSeek服務(wù)可用性做到了99.9%,無TPM限制。其中關(guān)鍵就在于底層足夠彈性,F(xiàn)階段,PPIO平臺(tái)的日均tokens消耗量已經(jīng)突破了1300億,與“六小龍”日均tokens消耗量不相上下。
此外,在算法層面,PPIO還提出KV Cache稀疏化壓縮算法、Hydra Sampling投機(jī)采樣技術(shù)以及端到端FP8推理三大核心技術(shù),進(jìn)一步突破顯存、算力和帶寬對(duì)大模型推理性能的限制。由此,PPIO能夠迅速適配和優(yōu)化各種開源大模型。比如,PPIO算力云產(chǎn)品已為百川智能提供大規(guī)模AI推理服務(wù)。
“只有當(dāng)AI Infra公司能提供足夠高性能和低成本的基礎(chǔ)建設(shè),讓大量AI 應(yīng)用的收入足以覆蓋所有的推理成本,才會(huì)迎來AI應(yīng)用落地的大爆發(fā),用戶也會(huì)迎來AI 應(yīng)用的免費(fèi)時(shí)代。”姚欣表示。
DeepSeek振臂一揮之后,還需要全產(chǎn)業(yè)上下游通力合作,才能進(jìn)一步加速大規(guī)模應(yīng)用落地。
如今,值得關(guān)注的玩家紛紛站出來,承接流量的同時(shí),更進(jìn)一步推進(jìn)新浪潮發(fā)生。AI Infra玩家們的動(dòng)作,還只是表現(xiàn)之一。
而隨著越來越多產(chǎn)業(yè)伙伴加入,更龐大的需求和市場(chǎng)還在醞釀之中。
趨勢(shì)轉(zhuǎn)變之后,又是一個(gè)新開始。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
根據(jù)2月底內(nèi)部溝通會(huì)上的消息,在美團(tuán)發(fā)展的第二個(gè)十年,“科技”成了公司創(chuàng)始人兼CEO王興會(huì)更多關(guān)注的方向之一。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專題論壇在沈陽成功舉辦。