鴻蒙智行泊車代駕VPD正式開啟全量推送!升級自動泊車/接駕等多項功能華為官方翻新手機最高降價4000元曝蘋果研發(fā)帶Face ID的智能家居門鈴:內(nèi)置自研W-Fi芯片李斌回應螢火蟲外觀設計:看過實車的人都喜歡這個設計林杰:未來 A 級、A0 級、A00 級車型都將是領克純電的“主場”豐巢存包柜亮相南寧地鐵站,助力城市韌性建設與智慧出行萬象分區(qū)、絢彩XDR、量子點Pro 2025齊出手,TCL引領觀影體驗新變革!QQ音樂年度聽歌報告發(fā)布:誰是你最喜歡的歌手?OpenAI正式發(fā)布o3 - 通往AGI的路上,已經(jīng)沒有了任何阻礙「送禮物」難撬動社交電商,微信小店缺的是供給微軟Phi-4封神,14B小模型數(shù)學擊敗GPT-4o,合成數(shù)據(jù)占比40%,36頁技術報告出爐2024年結束,哪里是原創(chuàng)動畫的應許之地?深扒一個正被游戲行業(yè)「搶占」的流量帝國百思買重新進軍跨境電商領域視頻生成大模型賽道,只是看上去擁擠GGII:預計2024年中國工業(yè)機器人全年銷量約30萬臺,同比下滑5%左右冰雪大世界盛大開園,美的空調(diào)橫跨50℃打造“東北夏威夷”臺灣小土豆勇闖冰雪大世界,美的空調(diào)真暖快車成為最熱打卡點京東iPhone 16系列年底大放價!至高補貼1200元價格低過11.11新一季圓滿假期結伴大使出發(fā)在即 LG電子十年相伴助力溫暖傳遞
  • 首頁 > 云計算頻道 > 大模型

    國產(chǎn)大模型第一梯隊玩家,為什么pick了CPU?

    2024年07月11日 10:22:02   來源:量子位公眾號

      AI一天,人間一年。

      現(xiàn)在不論是大模型本身,亦或是AI應用的更新速度簡直令人直呼跟不上——

      Sora、Suno、Udio、Luma……重磅應用一個接一個問世。

      也正如來自InfoQ的調(diào)查數(shù)據(jù)顯示的那般,雖然AIGC目前還處于起步階段,但市場規(guī)模已初具雛形:

      預計到2030年將達4500億人民幣。AIGC應用正呈現(xiàn)多點開花之勢,逐步從通用場景向行業(yè)縱深滲透。

      行業(yè)整體迅速發(fā)展固然是好事,但具體到每個的應用或者大模型的落地來說,面臨的競爭也越發(fā)激烈了。

      例如前不久各個大模型廠商之間展開的非常激烈的“價格戰(zhàn)”,主打一個比誰更便宜,甚至直接把大模型價格推向“厘時代”。

      加上最近OpenAI的“斷供”事件,更是讓國內(nèi)廠商們在打出“輕松搬家”計劃的同時,再加碼Tokens送送送的力度。

      究其原因,也是與當下應用為王,尤其是以盡量低的成本把業(yè)務快速落地的這一大趨勢緊密相關。

      那么問題來了,大模型玩家們何以在又快又好又省之間做到平衡?

      這就回到了那個避不開,同時又是成本里占絕對大頭的因素——算力。

      現(xiàn)在提及大模型的訓練和推理,很多人的第一反應或許就是想到了GPU。

      誠然GPU在高性能上占據(jù)著一定的優(yōu)勢,但它所存在“硬傷”也是比較明顯,那便是供應不足、價格昂貴。

      何以破局?國產(chǎn)大模型第一梯隊玩家百度智能云千帆大模型平臺,就給出了自己的一個更具“效價比”的解法:

      除了少數(shù)大客戶對大型模型追求卓越的性能表現(xiàn)外,大多數(shù)企業(yè)和機構在采用大型模型時,需要全面評估其使用效果、性能表現(xiàn)以及成本效益,也就是所謂的”性價比”。

      具體到算力的部署上,百度智能云AI與大模型平臺總經(jīng)理忻舟認為:

      跑AI這件事,其實早期一直是CPU在發(fā)揮作用;GPU的火爆也是近幾年的事情。

      很多場景之下,GPU雖然有高密度的計算能力,但實測表明,現(xiàn)在的高端CPU同樣也可以完全勝任。

      而且整個AI業(yè)務流中不止是有大模型需要做計算,同樣涉及前期的數(shù)據(jù)清洗等環(huán)節(jié),這些環(huán)節(jié)中CPU起到了非常重要的作用。

      一言蔽之,在大模型時代,CPU甚至比以往更加重要了,而且是能讓大模型和應用做到“快好省”落地的關鍵因素之一。

      那么具體“上崗”效果又是如何,我們繼續(xù)往下看。

      國產(chǎn)頭部大模型玩家,pick了CPU

      國內(nèi)AIGC應用爆發(fā),這其中,百度智能云千帆大模型平臺功不可沒。

      作為企業(yè)使用大模型的”一站式”服務平臺,千帆大模型平臺自去年3月發(fā)布以來已有超12萬客戶使用,累計調(diào)優(yōu)模型2萬個,孵化應用4.2萬個。

      這些應用覆蓋教育、金融、辦公、醫(yī)療等眾多場景,為行業(yè)數(shù)字化轉(zhuǎn)型提供了有力支撐。

      在教育領域,千帆大模型平臺賦能了試題生成、在線批改、題目解析等應用,大大提升了教學和備考效率。

      例如用戶可以提供參考材料,設定題型和難度,平臺就能自動生成高質(zhì)量的試題。而交互式的題目解析,則可以針對每位學生的薄弱環(huán)節(jié),提供個性化的學習指導。

      在辦公場景,千帆大模型平臺與業(yè)內(nèi)頭部企業(yè)合作,共同打造了智能寫作助手等創(chuàng)新應用,能夠根據(jù)用戶輸入的關鍵詞,快速生成招聘文案、營銷方案、數(shù)據(jù)報告等專業(yè)文檔。

      還可以專注于各類寫作場景,可以智能生成論文大綱、項目匯報、品牌宣傳稿等,大大提升了行政和營銷人員的工作效率。

      醫(yī)療健康是千帆大模型平臺的另一大應用賽道。基于醫(yī)療知識庫訓練的模型,可以自動生成體檢報告解讀,用通俗易懂的語言向用戶解釋各項指標,并給出個性化的健康指導。

      這讓普通大眾也能更好地了解自己的身體狀況,實現(xiàn)”健康自主管理”。

      可以看到,千帆大模型平臺在多個領域?qū)崿F(xiàn)了AI模型的”最后一公里”落地。

      那么千帆大模型平臺是怎么支撐如此多AI應用的呢?

      答案是:讓CPU成為客戶的選擇之一,讓“效價比”的紅利普惠千行百業(yè)。

    國產(chǎn)大模型第一梯隊玩家 為什么pick了CPU?

      之所以如此,百度智能云所給出的解釋是:

      目前,行業(yè)還存在大量離線的LLM應用需求,如生成文章總結、摘要、數(shù)據(jù)分析等,與在線場景相比,離線場景通常會利用平臺的閑時算力資源,對于推理的時延要求不高,而對于推理的成本較為敏感,因此用戶更加傾向采用低成本、易獲得的CPU來進行推理。

      百度智能云等云平臺中部署著大量基于CPU的云服務器,釋放這些CPU的AI算力潛力將有助于提升資源利用率,滿足用戶快速部署 LLM 模型的需求。

    國產(chǎn)大模型第一梯隊玩家 為什么pick了CPU?

      至于效果,以Llama-2-7B為例,在第四代英特爾至強可擴展處理器上輸出 Token 吞吐可達 100 TPS 以上,相比第三代提升了60%。

    國產(chǎn)大模型第一梯隊玩家 為什么pick了CPU?

      △Llama-2-7b模型輸出Token吞吐

      在低延遲的場景,同等并發(fā)下,第四代至強可擴展處理器的首Token時延比第三代至強可降低50%以上。

      在將處理器升級為第五代至強可擴展處理器之后,較上代的吞吐可提升45%左右,首 Token 時延下降50%左右。

    國產(chǎn)大模型第一梯隊玩家 為什么pick了CPU?

      △Llama-2-7b模型首Token時延

      并且千帆大模型平臺團隊根據(jù)實踐經(jīng)驗還表示:

      針對30B以下規(guī)模的LLM模型,皆可采用英特爾至強?可擴展處理器來獲得良好性能體驗。

      不僅如此,利用充足的CPU資源,降低對于AI加速卡的需求,從而降低 LLM 推理服務的總體擁有成本 (TCO),特別是在離線的 LLM 推理場景中表現(xiàn)出色。

      而且在千帆大模型平臺上,可不止是有自家的ERNIE,還有很多主流的大模型都集成于此。

      這也在一定程度上從側面印證了第五代英特爾? 至強? 可擴展處理器在性能上的過關。

    國產(chǎn)大模型第一梯隊玩家 為什么pick了CPU?

      英特爾第五代至強,如何讓性能和效率變得Pro Max?

      百度智能云千帆大模型平臺,不止需要大模型推理一種工作負載,它其實是一個覆蓋大模型全生命周期的平臺。

      具體來說,千帆大模型平臺提供數(shù)據(jù)標注,模型訓練與評估,推理服務與應用集成的全面功能服務,以及快速應用編排與插件集成,助力大模型多場景落地應用。這樣一來,比起專為大模型推理部署專用加速器,充分利用平臺已廣泛部署的CPU資源,就是更劃算的選擇了。

      對于千帆大模型平臺上存在的大量離線大模型應用需求來說,如生成文章總結、摘要、評估多個模型的效果等,這類需求對推理的時延要求其實不高,但內(nèi)存容易成為瓶頸。

      采用CPU來做,擴展內(nèi)存更方便,還可以利用起平臺閑時的算力資源,進一步提高資源利用率,起到降低總擁有成本的作用。

      在這個大背景下,第五代英特爾至強可擴展處理器中的性能密集型通用計算應用負載(類似P Core性能核)的設計就尤為關鍵了。

      與E Core(能效核)相比,P Core采用了追求性能最大化的設計,能承載非常重的負載,同時還兼顧了AI推理加速。

      采用此設計的第五代至強可擴展處理器,在兼顧AI推理加速這一點上可不是說說而已,而是軟硬件協(xié)同優(yōu)化,各方面都考慮到位了。

      硬件方面,英特爾AMX(高級矩陣擴展)技術,正是為大模型推理重深度學習中大量的矩陣乘法運算專門優(yōu)化的,可以理解成”CPU 里的 Tensor Core”。

      有了英特爾AMX,處理器每個時鐘周期可完成高達2048個INT8運算,比上一代AVX512_VNNI指令提升8倍之多。

      更重要的是,英特爾AMX加速器是內(nèi)置在CPU核心里的,讓矩陣存儲和運算更近,這一特性應用在大模型推理上,能夠降低處理下一個Token的時延,讓終端用戶的體驗更好。

    國產(chǎn)大模型第一梯隊玩家 為什么pick了CPU?

      △英特爾AMX 可以更高效的實現(xiàn) AI 加速

      軟件方面,百度智能云千帆大模型平臺已經(jīng)引入了針對英特爾至強可擴展平臺深度優(yōu)化的大模型推理軟件解決方案xFasterTransformer (xFT),并將其作為后端推理引擎。主要優(yōu)化策略如下:

      -充分利用 AMX/AVX512 等指令集,高效實現(xiàn)核心算子如Flash Attention等

      -采用低精度量化,降低數(shù)據(jù)訪存量,發(fā)揮 INT8/BF16 運算的優(yōu)勢

      -支持超大規(guī)模模型的多機多卡并行推理

    國產(chǎn)大模型第一梯隊玩家 為什么pick了CPU?

      △英特爾至強可擴展處理器 LLM 推理軟件解決方案

      最后還要補充的一點是,要知道選擇一種硬件平臺,不止關乎于設備本身的采購價格,還會影響到后續(xù)的維護成本,甚至人才儲備成本。

      所以正如百度智能云所言,高性價比的算力基礎設施,與先進的大模型算法和平臺軟件相輔相成,讓上層的開發(fā)者們能夠更加平滑地應用,構建他們的業(yè)務,才能最大化云計算平臺的商業(yè)價值。

      大模型時代,CPU大有可為

      縱觀當下,大模型正從實驗室走向產(chǎn)業(yè),從少數(shù)人的“玩具”變?yōu)榇蟊娍捎玫?ldquo;工具”。

      這意味著,大模型服務不僅要有優(yōu)秀的性能表現(xiàn),還要做到價格親民、部署便捷。一言以蔽之,“快好省”成了大模型商業(yè)化的關鍵一環(huán)。

      而要實現(xiàn)“快好省”,算力基礎設施的選擇至關重要。

      傳統(tǒng)觀點認為,專用加速器才是AI的“標配”。但在供應緊張、成本高企的背景下,專用加速器的優(yōu)勢正在減弱。

      相比之下,優(yōu)化良好的高端 CPU 不僅能提供足夠應對大模型推理的算力,而且具有更廣泛的部署基礎和更成熟的軟件生態(tài)、以及更好的安全保障,開始受到越來越多業(yè)界玩家的青睞。

      以英特爾至強系列為代表的x86架構CPU,擁有成熟完善的軟件生態(tài)和廣泛的應用基礎。數(shù)以百萬計的開發(fā)者可以利用現(xiàn)有工具和框架,快速構建和優(yōu)化AI應用,而無需額外學習專門的加速器軟件棧,大大降低了開發(fā)難度和遷移成本。

      同時,企業(yè)級用戶還可以利用CPU內(nèi)置的多層次安全技術,實現(xiàn)從硬件到軟件的全棧保護,充分保障數(shù)據(jù)安全和隱私。這些優(yōu)勢,是當前專用加速器難以比擬的。

      由此可見,充分利用CPU進行推理,讓AI從“燒錢游戲”變?yōu)?ldquo;普惠科技”,正是AIGC產(chǎn)業(yè)應對算力門檻,推動規(guī);瘧寐涞氐年P鍵一招。未來,隨著技術創(chuàng)新和生態(tài)完善,這一模式還將為更多企業(yè)創(chuàng)造價值,為產(chǎn)業(yè)發(fā)展注入新的動力。

      除了直接加速推理任務外,CPU在完整的端到端AI管線中還能高效完成數(shù)據(jù)預處理、特征工程等AI全流程中的關鍵步驟。而支持機器學習和圖分析的各類數(shù)據(jù)庫,也主要是構建在CPU之上的。以至強可擴展處理器為例,除了英特爾AMX之外,還有諸如英特爾數(shù)據(jù)保護與壓縮加速技術(英特爾QAT)、英特爾存內(nèi)分析加速器(英特爾? IAA)等一系列數(shù)據(jù)分析引擎內(nèi)置于處理器中,通過卸載特定任務使CPU得到更好的利用,從而提升工作負載整體性能,實現(xiàn)數(shù)據(jù)分析加速。

      由此可見,構建“快、準、穩(wěn)”的 AI 應用,既要靠專用加速器強大的算力,也離不開CPU超強的通用計算能力去釋放整個系統(tǒng)的潛力。

      文章內(nèi)容僅供閱讀,不構成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。

    [No. S013]
    分享到微信

    即時

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應用,“區(qū)塊鏈+政務服務”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標識解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標識解析專題論壇在沈陽成功舉辦。