近期,國內(nèi)多個大模型企業(yè)陸續(xù)下調(diào)相關(guān)產(chǎn)品價格。
五月初開始,9家發(fā)布新內(nèi)容的國內(nèi)大模型企業(yè)中,有7家宣布降價。其中包括:深度求索、智譜AI、字節(jié)跳動、阿里云、百度、科大訊飛、騰訊云這7家企業(yè),共涉及21款模型。甚至于有大廠打出“免費模式”的旗號。
01
大模型價格戰(zhàn)愈演愈烈
5月6日,知名私募巨頭幻方量化創(chuàng)立的深度求索對外發(fā)布第二代MoE模型DeepSeek-V2。MoE模型即混合專家模型,將復(fù)雜任務(wù)拆解為子任務(wù),分別交由合適的“專家”模型處理,提高準(zhǔn)確性和推理效率。模型迭代的同時,深度求索把API調(diào)用的定價降到每百萬tokens輸入1元、輸出2元,價格僅為GPT-4-Turbo的近百分之一。
5 月 11 日,智譜 AI 跟進(jìn),宣布將其 GLM-3 Turbo 模型的調(diào)用價格下調(diào) 80%。從 5 元/百萬 tokens 降至 1 元/百萬 tokens。1 元可以購買 100 萬 tokens。
5 月 15 日,字節(jié)的豆包大模型正式對外開放,放出了較業(yè)內(nèi)極低的價格,價格單位直接從“元”變?yōu)?ldquo;厘”。豆包大模型家族包含豆包通用模型 PRO 版和 lite 版兩款通用模型,其中,豆包通用模型 pro-32k 版,推理輸入價格 0.0008 元/千 tokens,較行業(yè)價格低 99.3%。lite 版為 0.0003 元/千 tokens。
隨后在5月21日,阿里云也發(fā)布降價通知,通義9款主力大模型大幅降價。其中,通義千問GPT-4級主力模型Qwen-Long 的 API輸入價格直降97%至0.0005元/千tokens,1塊錢可以買200萬tokens,相當(dāng)于5本《新華字典》的文字量。
當(dāng)日,百度甚至宣布文心大模型的兩款主力模型ENIRE Speed、ENIRE Lite全面免費?拼笥嶏w也在22日宣布訊飛星火 Lite 版 API *免費開放,訊飛星火 Pro/Max API 價格降至 0.21 元/萬 tokens。此外,22日騰訊也公布了全新的大模型升級方案。騰訊的主力模型之一混元-lite 模型,API 輸入輸出總長度計劃從目前的 4k 升級到 256k,價格從 0.008 元/千 tokens 調(diào)整為全面免費。
在AI領(lǐng)域的激烈角逐中,大模型正逐步走向價格戰(zhàn)的漩渦。那么,推動這一變革的深層原因是什么?而它又將如何深遠(yuǎn)地影響整個行業(yè)生態(tài)?
02
降價的本質(zhì)為何?
價格戰(zhàn)有利于巨頭搶占市場
當(dāng)前的行業(yè)價格戰(zhàn),可以看做是“百模大戰(zhàn)”帶來的一個衍生結(jié)果。大模型狂熱之時,幾乎每隔一天就有一個大模型“蹦出來”。截至2023年11月30日,國內(nèi)已經(jīng)有至少200家大模型廠商推出了各自的大模型。
當(dāng)下的大模型競爭早已超過了技術(shù)的范疇,更多是一種生態(tài)層面的比拼,具體表現(xiàn)在有多少應(yīng)用、有多少插件、有多少開發(fā)者以及用戶等。
要知道,當(dāng)前的大模型市場,空間相當(dāng)有限,大部分的大模型APP都已經(jīng)開始面臨用戶增長乏力的困境,包括備受矚目的OpenAI。因此降價便是這些大廠獲得更多市場的方式之一。
此外,從價格角度來看,一些初創(chuàng)公司的價格本身就較低。因此,針對當(dāng)下的科技巨頭紛紛降價,那些AI創(chuàng)業(yè)公司大都沒有選擇跟進(jìn)。一些參與AI大模型投資的投資人表示,“這波降價對一些創(chuàng)業(yè)公司TO B模式影響較大。”因為過去很多公司,之所以選擇跟初創(chuàng)公司合作,主要就是看重初創(chuàng)公司的API比大廠要便宜,但現(xiàn)在基本上沒有任何比大廠便宜的可能性了,這意味著創(chuàng)業(yè)公司的B端商業(yè)化模式不復(fù)存在了。
對于這些初創(chuàng)公司來說,倘若找不到新的出路,或許就會面臨生死考驗。
入門級、輕量級的文本大模型的能力差距不顯著
半導(dǎo)體產(chǎn)業(yè)縱橫觀察發(fā)現(xiàn),在這波降價潮中降價的模型主要為入門級、輕量級的文本大模型,而高性能及圖像識別、語音識別等垂類的多模態(tài)模型并沒有調(diào)整價格。
而這些入門級、輕量級的文本大模型技術(shù)和能力等各方面已經(jīng)趨同,各廠商之間的技術(shù)壁壘并不顯著,因此價格競爭成為了它們之間主要的競爭手段。
根據(jù)上海人工智能實驗室發(fā)布的大模型開源開放評測體系司南(OpenCompass2.0)顯示,復(fù)雜推理相關(guān)能力是大模型普遍面臨的難題,國內(nèi)大模型相比于GPT-4還存在差距,這是大模型在金融、工業(yè)等要求可靠的場景落地需要的關(guān)鍵能力。不過,在中文場景下國內(nèi)最新的大模型已展現(xiàn)出獨特優(yōu)勢,尤其在語言、知識維度上接近GPT-4 Turbo的水平。
大模型的邊際收益正在持續(xù)走低
Gary Marcus 博士在“Evidence that LLMs are reaching a point of diminishing returns — and what that might mean”《LLMs正達(dá)到收益遞減的證據(jù)——及其可能意味著什么》一文中提到,從GPT-2到GPT-4甚至GPT-4 Turbo的性能變化,已經(jīng)出現(xiàn)了性能遞減的跡象。
Gary Marcus 博士表示:“自GPT-4發(fā)布以來,多個模型在GPT-4水平性能上都有著巨大的收斂,然而并沒有明顯*的模型。”
在收益遞減的背景下,意味著處理相同的任務(wù),開發(fā)者的實際成本是在上升的。在AI創(chuàng)新商業(yè)化前景還不明朗的市場環(huán)境下,為了保住現(xiàn)有用戶,大模型廠商必須給出有吸引力的對策。包括提供更小的模型,比如谷歌推出的Gemini 1.5 Flash。另一個手段就是直接降價。
03
投入高昂,多芯混合或有助力
人工智能的核心是算力,算力需求主要分為兩部分,包括訓(xùn)練算力和推理算力。
目前來說對訓(xùn)練算力需求非常高,根據(jù)去年的一則數(shù)據(jù)顯示,ChatGPT的公開數(shù)據(jù)顯示它的整個訓(xùn)練算力消耗非常大,達(dá)到了3640PF-days。換算成英偉達(dá)A100芯片,它單卡算力相當(dāng)于0.6P的算力,理想情況下總共需要大概6000張,在考慮互聯(lián)損失的情況下,需要一萬張A100作為算力基礎(chǔ)。在A100芯片10萬人民幣/張的情況下,算力的硬件投資規(guī)模達(dá)到10億人民幣。推理算力主要是英偉達(dá)T4卡,推理成本大約相當(dāng)于訓(xùn)練成本的三分之一。
除了算力的成本,還有隨之而來的存儲、推理、運維、應(yīng)用等一系列成本。
那么如何解決絕大多數(shù)企業(yè)當(dāng)下最關(guān)心的“降本增效”問題?除了對模型的優(yōu)化,硬件層面的創(chuàng)新思路亦不容忽視。近期,業(yè)界不少專家和技術(shù)人員開始聚焦于多芯混合的概念,嘗試通過這一策略來為企業(yè)帶來更高的性能和更低的成本。
那么到底什么是多芯混合?它又如何在AI大模型算力緊缺的當(dāng)下提供更優(yōu)的解決方案。
多芯混合主要涉及在硬件設(shè)計或應(yīng)用中,結(jié)合使用不同類型、不同功能或不同制程架構(gòu)的芯片,以形成一個混合的計算系統(tǒng)或解決方案。上文提到當(dāng)前基礎(chǔ)大模型訓(xùn)練所需要的* AI 算力集群規(guī)模,已經(jīng)從單一集群千卡逐步提升至萬卡量級。同時,很多智算中心已經(jīng)部署的 GPU 集群,通常是十幾臺至數(shù)百臺服務(wù)器不等,難以滿足未來行業(yè)大模型訓(xùn)練的需求。
所以,在已有 AI 算力集群的基礎(chǔ)上,構(gòu)建由昆侖芯、昇騰等不同芯片混合組成的單一集群,為大模型訓(xùn)練提供更大 AI 算力,成為了一個自然的選擇。
多芯混合有哪些優(yōu)勢?
*,通過將計算任務(wù)分配到多個GPU上,可以顯著加速模型的訓(xùn)練速度。多GPU并行訓(xùn)練還可以減少單GPU訓(xùn)練中由于計算瓶頸導(dǎo)致的時間浪費,從而提高了訓(xùn)練效率。
第二,多GPU訓(xùn)練可以同時處理更多的數(shù)據(jù),從而提高了內(nèi)存利用率。
第三,這種混合集群的構(gòu)建能夠有效降低成本。畢竟,與英偉達(dá)的A100/H100系列GPU相比,其他品牌的GPU價格更為親民。
然而,若此方案真如我們想象中那般易于實施,那么它早已被業(yè)界的諸多巨頭所采納。具體看看,這一方案的實施都存在哪些難點?
04
多芯混合要解決哪些問題?
為了建設(shè)一個能夠高效訓(xùn)練大模型的集群,需要在卡間和機(jī)間建立高效的互聯(lián)互通,將大模型訓(xùn)練任務(wù)按照合適的并行策略拆分到GPU卡中,最后通過各種優(yōu)化方法,加速GPU對算子的計算效率,完成大模型訓(xùn)練。
然而,不同芯片之間很難互聯(lián)互通,因為英偉達(dá)GPU、昆侖芯、昇騰 910B 的物理連接方式,并行策略以及AI加速套件上都不一樣。
首先,在互聯(lián)互通上,單臺服務(wù)器內(nèi)的 8 塊 GPU 卡通過 NVLink 連接。不同服務(wù)器之間的 GPU 卡通過 RDMA 網(wǎng)絡(luò)連接。
過去,我們看到了很多有關(guān)英偉達(dá)GPU和CUDA護(hù)城河的介紹。誠然,經(jīng)過多年的投入,他們已經(jīng)建立起了難以逾越的優(yōu)勢。但除此以外,如上所述,英偉達(dá)還有很多隱形護(hù)城河,NVLink就是其中的一個,一個為GPU到GPU互聯(lián)提供高速連接的技術(shù)。
在摩爾定律逐漸失效,但對算力要求越來越高的當(dāng)下,這種互聯(lián)顯得尤為必要。
英偉達(dá)官網(wǎng)表示,NVLink 是全球首創(chuàng)的高速GPU 互連技術(shù),為多GPU 系統(tǒng)提供另一種選擇,與傳統(tǒng)的PCI-E 解決方案相比,速度方面擁有顯著提升。使用NVLink 連接兩張英偉達(dá)GPU,即可彈性調(diào)整存儲器與效能,滿足專業(yè)視覺運算最高工作負(fù)載的需求。
而昆侖芯服務(wù)器內(nèi)部通過 XPU Link 進(jìn)行連接,服務(wù)器之間通過標(biāo)準(zhǔn)的 RDMA 網(wǎng)卡進(jìn)行連接,卡和卡之間使用 XCCL 通信庫進(jìn)行相互通信。昇騰 910B 服務(wù)器內(nèi)部通過 HCCS 進(jìn)行連接,服務(wù)器之間通過華為自研的內(nèi)置 RDMA 進(jìn)行連接,卡和卡之間使用 HCCL 通信庫進(jìn)行相互通信。
其次,在并行策略上,英偉達(dá)GPU 和昆侖芯采用單機(jī) 8 卡的部署方式,昇騰 910B 則是機(jī)內(nèi) 16 卡分為 2 個 8 卡通信組 。這意味著在 AI 框架下形成不同的集群拓?fù),需要有針對性地制定分布式并行策略?/p>
最后,在 AI 加速套件上,由于昆侖芯、昇騰等芯片在計算能力,顯存大小,I/O 吞吐,通信庫等均存在差異,故需要面向具體芯片進(jìn)行特定優(yōu)化。最后的結(jié)果,就是每一種芯片,有一個各自對應(yīng)的算子庫,以及相應(yīng)的加速策略。
05
哪些廠商開始試水?
值得注意的是,近日,AMD、博通、思科、谷歌、惠普企業(yè) (HPE)、英特爾、Meta 和微軟等*科技公司組成的聯(lián)盟宣布成立超級加速器鏈路 (UALink) 促進(jìn)會。該計劃旨在制定一項開放的行業(yè)標(biāo)準(zhǔn),以促進(jìn)數(shù)據(jù)中心 AI 系統(tǒng)的高速、低延遲通信。
面對日益增長的 AI 工作負(fù)載,這些科技巨頭均迫切需要超高性能互連。
百度也在打造多芯混合訓(xùn)練AI集群。百度百舸的多芯混合訓(xùn)練方案,屏蔽了底層復(fù)雜的異構(gòu)環(huán)境,將各類芯片融合成為了一個大集群,可以實現(xiàn)存量不同算力的統(tǒng)一,整合發(fā)揮這些算力的*效能,支持更大模型訓(xùn)練任務(wù)。同時,支持新增資源的快速融入,滿足未來業(yè)務(wù)增長的需要。該方案不僅通過百度智能云的公有云提供服務(wù),同時還可以通過ABC Stack專有云進(jìn)行交付。
此前,百度集團(tuán)執(zhí)行副總裁、百度智能云事業(yè)群總裁沈抖表示,在“一云多芯”方面,百度百舸兼容昆侖芯、昇騰、海光DCU、英偉達(dá)、英特爾等國內(nèi)外主流AI芯片,支持同一智算集群中混合使用不同廠商芯片,*程度上屏蔽硬件之間差異,幫助企業(yè)擺脫單一芯片依賴,打造更有性價比、更安全、更具彈性的供應(yīng)鏈體系。在多芯混合訓(xùn)練任務(wù)中,百舸能夠?qū)涡酒寐、芯片間通信效率、集群整體效能發(fā)揮到*,百卡規(guī)模性能損失不超過3%,千卡規(guī)模性能損失不超過5%,均為國內(nèi)最高水平。
近日,F(xiàn)lagScale 開源大模型并行訓(xùn)練框架全面升級。智源團(tuán)隊與天數(shù)智芯團(tuán)隊合作,實現(xiàn)了“英偉達(dá)芯片+其它AI芯片”集群上單一大模型任務(wù)的異構(gòu)混合訓(xùn)練,并在70B大模型上驗證了不同架構(gòu)芯片上進(jìn)行異構(gòu)混合訓(xùn)練的有效性。同時,為了加速多種AI芯片在大模型訓(xùn)練場景的使用,智源積極探索高效靈活的芯片適配方案,通過與硬件廠商的深入合作,F(xiàn)lagScale 已在6家不同廠商的多款A(yù)I芯片上適配Aquila2系列大模型的大規(guī)模訓(xùn)練。
由于不同廠商的卡間互聯(lián)協(xié)議不同,為了實現(xiàn)“英偉達(dá)芯片+其它AI芯片”高速互聯(lián),智源團(tuán)隊與天數(shù)智芯協(xié)作,優(yōu)化天數(shù)智芯的iXCCL通信庫,使其在通信原語操作上以及API接口上兼容英偉達(dá)NCCL,然后將框架編譯鏈接到同一iXCCL通信庫上,從而在用戶和AI框架無感知的情況下實現(xiàn)異構(gòu)算力芯片間高效通信,進(jìn)而實現(xiàn)不同架構(gòu)芯片混合訓(xùn)練。同時,雙方還協(xié)作優(yōu)化了流水線并行的分配方式,并針對不同芯片算力、內(nèi)存帶寬、內(nèi)存容量的差異來為不同芯片配置不同的流水線并行策略,以使得訓(xùn)練過程中能充分發(fā)揮不同芯片的性能,最終率先實現(xiàn)了通用GPU異構(gòu)大模型高效訓(xùn)練方案。
06
國產(chǎn)GPU廠商的機(jī)遇
多芯混合技術(shù)允許將不同架構(gòu)、不同功能的芯片集成在一個系統(tǒng)中,這為國產(chǎn)廠商提供了技術(shù)創(chuàng)新的機(jī)會。通過整合和優(yōu)化不同芯片的性能,可以開發(fā)出更高效、更靈活的解決方案。
多芯混合技術(shù)為國產(chǎn)廠商帶來了綜合性的發(fā)展機(jī)遇。這一技術(shù)不僅推動了技術(shù)創(chuàng)新,滿足了市場對高性能、低功耗芯片的日益增長需求,還促進(jìn)了產(chǎn)業(yè)鏈上下游的協(xié)同合作,加強(qiáng)了產(chǎn)業(yè)整體競爭力。同時,國家政策的支持也為國產(chǎn)廠商在多芯混合技術(shù)領(lǐng)域的發(fā)展提供了有力保障。國產(chǎn)廠商應(yīng)抓住這一機(jī)遇,加大研發(fā)力度,推動多芯混合技術(shù)的突破與應(yīng)用,以提升國產(chǎn)芯片的技術(shù)水平和市場競爭力。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。
2024年的Adobe MAX 2024發(fā)布會上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。