宏景智駕完成數(shù)億元C輪融資植物生長好幫手:廣明源金線蓮組培燈照亮生長每一步ROG純白系列DIY好物:簡約不失高雅,買它準沒錯!穩(wěn)扎穩(wěn)打,中影光峰4K 14米 VLED LED電影屏通過DCI認證并投入市場安吉爾空間大師亮相IFA 斬獲年度創(chuàng)新產品成果大獎電動自行車強制性“國標”再修訂,綠源電動車以創(chuàng)新技術引領產業(yè)高質量發(fā)展輕松籌:十年深耕大健康領域,打造全方位健康保障生態(tài)面對承壓的小家電市場,小熊、蘇泊爾上半年為何一降一增?研發(fā)投入高增、占營收比超5%,科沃斯、石頭科技升高技術壁壘激光顯示全面“向新”發(fā)展,未來激光電視主機僅有iPad大小2024年冷年空調市場總結:規(guī)模下探,結構降級,空調行業(yè)邁入新周OpenAI o1全方位SOTA登頂lmsys推薦榜!數(shù)學能力碾壓Claude和谷歌模型,o1-mini并列第一iPhone16系列新品正式發(fā)售 新品爆發(fā)就在抖音電商廣告燒錢過億,70%用戶靠投流,大模型算不過成本賬?PS1經典配色!索尼發(fā)布30周年紀念版PS5、PS5 Pro:限量賣泰順:聚智聚力數(shù)字創(chuàng)客激發(fā)鄉(xiāng)村振興新動能電商12年 ,ALL IN 小紅書,開店3月賣出1100萬Mate 70最受期待!華為三款重磅機型蓄勢待發(fā)云天勵飛“算力積木”架構:引領邊緣AI芯片新變革徹底告別3999元!小米15入網 支持90W快充
  • 首頁 > 產經新聞頻道 > 業(yè)界新聞

    黑馬Groq單挑英偉達,AI芯片要變天?

    2024年02月27日 17:00:28   來源:科技云報道

      近一周來,大模型領域重磅產品接連推出:OpenAI發(fā)布“文字生視頻”大模型Sora;Meta發(fā)布視頻預測大模型 V-JEPA;谷歌發(fā)布大模型 Gemini 1.5 Pro,更毫無預兆地發(fā)布了開源模型Gemma......

      難怪網友們感嘆:“一開年AI發(fā)展的節(jié)奏已經如此炸裂了么!”

      但更令人意想不到的是,AI芯片領域處于絕對霸主地位的英偉達,竟然也遇到了挑戰(zhàn),而且挑戰(zhàn)者還是一家初創(chuàng)公司。

      在這家名叫Groq的初創(chuàng)芯片及模型公司官網上,它號稱是世界最快大模型,比GPT-4快18倍,測試中最快達到破紀錄的每秒吞吐500 tokens。

      這閃電般的速度,來源于Groq自研的LPU(語言處理單元),是一種名為張量流處理器(TSP)的新型處理單元,自然語言處理速度是英偉達GPU 10倍,做到了推理的最低延遲。

      “快”字當頭,Groq可謂賺足眼球。Groq還喊話各大公司,揚言在三年內超越英偉達。

      事實上,在這一波AI熱潮中,“天下苦英偉達久矣”。英偉達GPU芯片價格一再被炒高,而Groq的LPU架構能“彎道超車”,顯然是眾望所歸。

      因此,不少輿論驚呼Groq要顛覆英偉達,也有業(yè)內人士認為Groq想要“平替”英偉達還有很長的路要走。

      但無論持哪種觀點,Groq的出現(xiàn)不僅是對現(xiàn)有芯片架構和市場格局的挑戰(zhàn),也預示著AI芯片及其支撐的大模型發(fā)展方向正在發(fā)生變化——聚焦AI推理。

      Groq LPU:快字當頭

      據(jù)介紹,Groq的芯片采用14nm制程,搭載了230MB大靜態(tài)隨機存儲器(SRAM)以保證內存帶寬,片上內存帶寬達80TB/s。在算力方面,該芯片的整型(8位)運算速度為750TOPs,浮點(16位)運算速度為188TFLOPs。

      Anyscale的LLMPerf排行顯示,在Groq LPU推理引擎上運行的Llama 2 70B,輸出tokens吞吐量快了18倍,優(yōu)于其他所有云推理供應商。

      據(jù)網友測試,面對300多個單詞的“巨型”prompt(AI模型提示詞),Groq在不到一秒鐘的時間里,就為一篇期刊論文創(chuàng)建了初步大綱和寫作計劃。此外,Groq還完全實現(xiàn)了遠程實時的AI對話。

      電子郵件初創(chuàng)企業(yè)Otherside AI的首席執(zhí)行官兼聯(lián)合創(chuàng)始人馬特·舒默(Matt Shumer)在體驗Groq后稱贊其快如閃電,能夠在不到一秒鐘的時間內生成數(shù)百個單詞的事實性、引用性答案。

      更令人驚訝的是,其超過3/4的時間用于搜索信息,而生成答案的時間卻短到只有幾分之一秒。

      Groq之所以“快如閃電”,其創(chuàng)新的核心在于LPU。

      據(jù)官方信息顯示,LPU推理引擎是一種新型的端到端處理單元系統(tǒng),它為計算密集型應用提供最快的推理能力,這些應用具有序列組件,例如AI語言應用程序(LLM)。

      LPU旨在克服LLM的兩個瓶頸:計算密度和內存帶寬。

      就LLM而言,LPU比GPU和CPU具有更大的計算能力。這減少了每個單詞的計算時間,從而可以更快地生成文本序列。

      同時,與利用高帶寬內存(HBM)的GPU不同,Groq的LPU利用SRAM進行數(shù)據(jù)處理,比HBM快約20倍,從而顯著降低能耗并提高效率。

      GroqChip的獨特架構與其時間指令集相結合,可實現(xiàn)自然語言和其他順序數(shù)據(jù)的理想順序處理。

      消除外部內存瓶頸,不僅使LPU推理引擎能夠在LLM上提供比GPU高幾個數(shù)量級的性能。

      而且由于LPU只進行推理計算,需要的數(shù)據(jù)量遠小于模型訓練,從外部內存讀取的數(shù)據(jù)更少,消耗的電量也低于GPU。

      此外,LPU芯片設計實現(xiàn)了多個TSP的無縫連接,避免了GPU集群中的瓶頸問題,顯著地提高了可擴展性。

      因此,Groq公司宣稱,其LPU所帶來的AI推理計算是革命性的。

      在AI推理領域挑戰(zhàn)GPU

      盡管Groq高調喊話,但想要“平替”英偉達GPU并不容易。從各方觀點來看,Groq的芯片還無法與之分庭抗禮。

      原Facebook人工智能科學家、原阿里技術副總裁賈揚清算了一筆賬,因為Groq小得可憐的內存容量,在運行Llama 2 70B模型時,需要305張Groq卡才足夠,而用英偉達的H100則只需要8張卡。

      從目前的價格來看,這意味著在同等吞吐量下,Groq的硬件成本是H100的40倍,能耗成本是10倍。

      但跳出單純的價格對比,Groq LPU的解決方案依然展現(xiàn)出了不小的應用潛力。

      根據(jù)機器學習算法步驟,AI芯片可以劃分為訓練AI芯片和推理AI芯片。

      訓練芯片是用于構建神經網絡模型,需要高算力和通用性,追求的是高計算性能(高吞吐率)、低功耗。

      推理芯片是對訓練好的神經網絡模型進行運算,利用輸入的新數(shù)據(jù)來一次性獲得正確結論。

      因此完成推理過程的時間要盡可能短、低功耗,更關注用戶體驗方面的優(yōu)化。

      雖然現(xiàn)階段GPU利用并行計算的優(yōu)勢在AI領域大獲全勝,但由于英偉達GPU的獨有架構,英偉達H100等芯片在推理領域算力要求遠不及訓練端,這也就給Groq等競爭對手留下了機會。

      因此,專注于AI推理的Groq LPU,得以在推理這個特定領域挑戰(zhàn)英偉達GPU的地位。從測試結果上看,Groq能夠達到令人滿意的“秒回”效果。

      這也在一定程度上顯示了通用芯片與專用芯片的路徑分歧。

      隨著AI和深度學習的不斷發(fā)展,對專用芯片的需求也在增長。

      各種專用加速器如FPGA、ASIC以及其他初創(chuàng)公司的AI芯片已經不斷涌現(xiàn),它們在各自擅長的領域內展現(xiàn)出了挑戰(zhàn)GPU的可能性。

      相比于英偉達通用型AI芯片,自研AI芯片也被稱作ASIC,往往更適合科技公司本身的AI工作負載需求且成本較低。

      比如,云巨頭AWS就推出了為生成式AI和機器學習訓練而設計全新自研AI芯片AWS Trainium2,性能比上一代芯片提高到4倍,可提供65ExaFlops超算性能。

      微軟也推出第一款定制的自研CPU系列Azure Cobalt和AI加速芯片Azure Maia,后者是微軟首款AI芯片,主要針對大語言模型訓練,預計將于明年初開始在微軟Azure數(shù)據(jù)中心推出。

      谷歌云也推出了新版本的TPU芯片TPU v5p,旨在大幅縮減訓練大語言模型時間投入。

      無論是大廠自研的AI芯片,還是像Groq LPU這樣的專用芯片,都是為了優(yōu)化特定AI計算任務的性能和成本效率,同時減少對英偉達等外部供應商的依賴。

      作為GPU的一個重要補充,專用芯片讓面對緊缺昂貴的GPU芯片的企業(yè)有了一個新的選擇。

      AI芯片聚焦推理

      隨著AI大模型的快速發(fā)展,尤其是Sora以及即將推出的GPT-5,都需要更強大高效的算力。但GPU在推理方面的不夠高效,已經影響到了大模型業(yè)務的發(fā)展。

      從產業(yè)發(fā)展趨勢來看,AI算力負載大概率將逐步從訓練全面向推理端遷移。

      華爾街大行摩根士丹利在2024年十大投資策略主題中指出,隨著消費類邊緣設備在數(shù)據(jù)處理、存儲端和電池續(xù)航方面的大幅改進,2024年將有更多催化劑促使邊緣AI這一細分領域迎頭趕上,AI行業(yè)的發(fā)展重點也將從“訓練”全面轉向“推理”。

      高通CEO Amon也指出,芯片制造商們的主要戰(zhàn)場不久后將由“訓練”轉向“推理”。

      Amon在采訪時表示:“隨著AI大模型變得更精簡、能夠在設備上運行并專注于推理任務,芯片制造商的主要市場將轉向‘推理’,即模型應用。預計數(shù)據(jù)中心也將對專門用于已訓練模型推理任務的處理器產生興趣,一切都將助力推理市場規(guī)模超越訓練市場。”

      在最新的財報電話會上,英偉達CFO Colette Kress表示,大模型的推理場景已經占據(jù)英偉達數(shù)據(jù)中心40%的營收比例。這也是判斷大模型行業(yè)落地前景的重要信號。

      事實上,巨頭們的一舉一動也在印證這一趨勢的到來。

      據(jù)路透社報道,Meta將推新款自研AI推理芯片Artemis。預計Meta可于年內完成該芯片在自有數(shù)據(jù)中心的部署,與英偉達GPU協(xié)同提供算力。

      而英偉達也通過強化推理能力,鞏固自身通用GPU市占率。

      在下一代芯片H200中,英偉達在H100的基礎上將存儲器HBM進行了一次升級,為的也是提升芯片在推理環(huán)節(jié)中的效率。

      不僅如此,隨著各大科技巨頭、芯片設計獨角獸企業(yè)都在研發(fā)更具效率、部分替代GPU的芯片,英偉達也意識到這一點,建立起了定制芯片的業(yè)務部門。

      總的來說,以現(xiàn)在AI芯片供不應求的現(xiàn)狀,GPU的增長暫時還不會放緩。但隨著AI發(fā)展趨勢的快速變化,英偉達不可能是永遠的王者,而Groq也絕對不是唯一的挑戰(zhàn)者。

      文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。

    即時

    TCL實業(yè)榮獲IFA2024多項大獎,展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術、產品設計及應用方面的創(chuàng)新變革,全球領先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產品設計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強大影響力。

    新聞

    敢闖技術無人區(qū) TCL實業(yè)斬獲多項AWE 2024艾普蘭獎

    近日,中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術和新品亮相,以敢為精神勇闖技術無人區(qū),斬獲四項AWE 2024艾普蘭大獎。

    企業(yè)IT

    重慶創(chuàng)新公積金應用,“區(qū)塊鏈+政務服務”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    “純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

    2024年3月12日,由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會在上海盛大舉行。

    研究

    2024全球開發(fā)者先鋒大會即將開幕

    由世界人工智能大會組委會、上海市經信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導,由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經濟發(fā)展(集團)有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。