穩(wěn)扎穩(wěn)打,中影光峰4K 14米 VLED LED電影屏通過DCI認(rèn)證并投入市場安吉爾空間大師亮相IFA 斬獲年度創(chuàng)新產(chǎn)品成果大獎電動自行車強制性“國標(biāo)”再修訂,綠源電動車以創(chuàng)新技術(shù)引領(lǐng)產(chǎn)業(yè)高質(zhì)量發(fā)展輕松籌:十年深耕大健康領(lǐng)域,打造全方位健康保障生態(tài)面對承壓的小家電市場,小熊、蘇泊爾上半年為何一降一增?研發(fā)投入高增、占營收比超5%,科沃斯、石頭科技升高技術(shù)壁壘激光顯示全面“向新”發(fā)展,未來激光電視主機僅有iPad大小2024年冷年空調(diào)市場總結(jié):規(guī)模下探,結(jié)構(gòu)降級,空調(diào)行業(yè)邁入新周OpenAI o1全方位SOTA登頂lmsys推薦榜!數(shù)學(xué)能力碾壓Claude和谷歌模型,o1-mini并列第一iPhone16系列新品正式發(fā)售 新品爆發(fā)就在抖音電商廣告燒錢過億,70%用戶靠投流,大模型算不過成本賬?PS1經(jīng)典配色!索尼發(fā)布30周年紀(jì)念版PS5、PS5 Pro:限量賣泰順:聚智聚力數(shù)字創(chuàng)客激發(fā)鄉(xiāng)村振興新動能電商12年 ,ALL IN 小紅書,開店3月賣出1100萬Mate 70最受期待!華為三款重磅機型蓄勢待發(fā)云天勵飛“算力積木”架構(gòu):引領(lǐng)邊緣AI芯片新變革徹底告別3999元!小米15入網(wǎng) 支持90W快充FF發(fā)布第二品牌Faraday X:對標(biāo)豐田 專注增程式混動車型黑神話悟空總收入超67億:銷量已超2000萬份通快成立激光業(yè)務(wù)區(qū)域中心(中國),強勢布局中國市場
  • 首頁 > 產(chǎn)經(jīng)新聞頻道 > 科技資訊

    GPU之后,NPU再成標(biāo)配,手機、PC如何承載AI大模型?

    2024年03月12日 10:37:20   來源:中文科技資訊

      摘要:AI產(chǎn)品開發(fā)者需要先行一步,早一些讓用戶體驗自己的產(chǎn)品,和用戶建立連接,培養(yǎng)粘性,從而在競爭中占得先機。

      2024注定是AI行業(yè)熱鬧非凡的一年。雖然剛剛進入3月份,但是關(guān)于AI的新聞已經(jīng)多次占據(jù)了頭條。就在上個月,OpenAI發(fā)布了文字生成視頻的大模型Sora,其逼真的效果直接清空了在這個細(xì)分賽道苦苦耕耘的創(chuàng)業(yè)者。幾天后,英偉達市值站上2萬億美元,成為了歷史上最快實現(xiàn)從1萬億到2萬億美元市值的企業(yè)。正所謂“當(dāng)你發(fā)現(xiàn)金礦,最好的生意不是挖礦而是賣鏟子”,英偉達成為了AI時代“軍備競賽”的最大贏家。

      就在大家感嘆“世界上只有兩種AI,一種叫OpenAI,一種叫其他AI”的時候,沉寂了許久的Anthropic放出王炸,這家由OpenAI前研究副總裁創(chuàng)立的公司,發(fā)布了最新的Claude3模型,各項指標(biāo)已經(jīng)全面超越了GPT4。

      AI行業(yè)的風(fēng)起云涌,也昭示了這個行業(yè)還處在一個初級階段。技術(shù)迭代太快,暫時領(lǐng)先的企業(yè)可能在一夜之間就被新技術(shù)顛覆。一些眼花繚亂的新技術(shù),雖然已經(jīng)問世,但遲遲不公開或者沒有部署。比如上文提到的Sora,截至發(fā)文,還沒有正式向公眾開放。

      生成式AI的研發(fā)和本地部署之間存在鴻溝。目前,大眾使用的生成式AI產(chǎn)品往往是部署在云端而在本地訪問(比如ChatGPT網(wǎng)頁),但這無法滿足所有需求,并且會產(chǎn)生一些隱患。

      首先,隨著大模型越來越復(fù)雜,云端和本地之間的傳輸在有限帶寬下變得捉襟見肘,比如一架波音787飛機每秒鐘產(chǎn)生5G的數(shù)據(jù),如果上傳到云端、計算、輸出結(jié)果再返回,飛機可能已經(jīng)飛出去幾公里了(按照800公里/小時估算)。如果在飛機上使用AI功能但是在云端部署,這樣的傳輸速度是無法滿足要求的。

      此外,一些用戶敏感數(shù)據(jù)、隱私數(shù)據(jù),是否一定要上云?顯然放在本地比云端更讓用戶放心。

      不論生成式AI多么強大,如何部署到本地始終是一個無法繞開的問題。這是行業(yè)發(fā)展的趨勢,雖然目前面臨一些困難。

      困難在于,如何把“大模型”裝入“小設(shè)備”。注意,這里的“大小”是相對而言的。云端計算的背后可能是一個占地幾萬平方米的計算中心,而本地部署卻要讓生成式AI在你的手機上跑起來。手機沒有液氮冷卻,也沒有無窮無盡的電力,該如何部署AI呢?

      異構(gòu)計算,一種可能的解決方案?

      高通的異構(gòu)計算AI引擎(以下皆稱作高通AI引擎)為行業(yè)提供了一種可行的解決方案。即通過CPU、GPU、NPU以及高通傳感器中樞和內(nèi)存子系統(tǒng)的協(xié)作,實現(xiàn)了AI部署和大幅度提升AI體驗的目的。

    1710207019121032.png

      圖:專門的工業(yè)設(shè)計讓不同計算單元更緊湊 來源:高通

      不同類型的處理器所擅長的工作不同,異構(gòu)計算的原理就是讓“專業(yè)的人做專業(yè)的事”。CPU擅長順序控制,適用于需要低延時的應(yīng)用場景,同時,一些較小的傳統(tǒng)模型如卷積神經(jīng)網(wǎng)絡(luò)模型(CNN),或一些特定的大語言模型(LLM),CPU處理起來也能得心應(yīng)手。而GPU更擅長面向高精度格式的并行處理,比如對畫質(zhì)要求非常高的視頻、游戲。

      CPU和GPU出鏡率很高,大眾已經(jīng)相當(dāng)熟悉,而NPU相對而言更像一種新技術(shù)。NPU即神經(jīng)網(wǎng)絡(luò)處理器,專門為實現(xiàn)低功耗、加速AI推理而打造。當(dāng)我們在持續(xù)使用AI時,需要以低功耗穩(wěn)定輸出高峰值性能,NPU就可以發(fā)揮最大優(yōu)勢。

      舉個例子,當(dāng)用戶在玩一款重負(fù)載的游戲,此時GPU會被完全占用,或者用戶在瀏覽多個網(wǎng)頁,CPU又被完全占用。此時,NPU作為真正的AI專用引擎就會負(fù)擔(dān)起和AI有關(guān)的計算,保證用戶的AI體驗流暢。

      總結(jié)起來說就是,CPU和GPU是通用處理器,為靈活性而設(shè)計,易于編程,本職工作是負(fù)責(zé)操作系統(tǒng)、游戲和其他應(yīng)用。NPU則為AI而生,AI是它的本職工作,通過犧牲部分易編程特性而實現(xiàn)了更高的峰值性能和能效,一路為用戶的AI體驗護航。

      當(dāng)我們把 CPU、GPU、NPU 以及高通傳感器中樞和內(nèi)存子系統(tǒng)集成在一起,就是異構(gòu)計算架構(gòu)。

    1710207027131493.png

      圖:高通AI引擎包括Hexagon NPU、Adreno GPU、高通Oryon或 Kryo CPU、高通傳感器中樞和內(nèi)存子系統(tǒng) 來源:高通

      高通AI引擎整合了高通 Oryon 或 Kryo CPU、 Adreno GPU 、 Hexagon NPU 以及高通傳感器中樞和內(nèi)存子系統(tǒng)。Hexagon NPU作為其中的核心組件,經(jīng)過多年的升級迭代,目前已達到業(yè)界領(lǐng)先的AI處理水平。以手機平臺為例,集成高通 AI 引擎的第三代驍龍 8 支持行業(yè)領(lǐng)先的LPDDR5x內(nèi)存,頻率高達4.8GHz,使其能夠以非常高速的芯片內(nèi)存讀取速度運行大型語言模型,如百川、Llama 2等,從而實現(xiàn)非?斓膖oken生成速率,為用戶帶來全新的體驗。

    1710207035151743.png

      圖:NPU隨著不斷變化的AI用例和模型持續(xù)演進,實現(xiàn)高性能低功耗 來源:高通

      高通對NPU的研究,并不是近幾年才開始的。如果要追溯Hexagon NPU的起源,要回到2007年,也就是生成式AI走入公眾視野的15年前。高通發(fā)布的首款Hexagon DSP在驍龍平臺上亮相,DSP控制和標(biāo)量架構(gòu)成為了高通未來多代NPU的基礎(chǔ)。

      8年后,也就是2015年,驍龍820處理器集成了首個高通AI引擎;

      2018年,高通在驍龍855中為Hexagon NPU增加了張量加速器;

      2019年,高通在驍龍865上擴展了終端側(cè)AI用例,包括AI成像、AI視頻、AI語音等功能;

      2020年,Hexagon NPU迎來變革型架構(gòu)更新。標(biāo)量、向量、張量加速器融合,這為高通未來的NPU架構(gòu)奠定了基礎(chǔ);

      2022年,第二代驍龍8中的Hexagon NPU引入了一系列重大技術(shù)提升。微切片技術(shù)提升了內(nèi)存效率,功耗降低繼續(xù)降低并且實現(xiàn)了4.35倍的AI性能提升。

      2023年10月25日,高通正式發(fā)布第三代驍龍8。作為高通技術(shù)公司首個專為生成式AI而精心打造的移動平臺,其集成的Hexagon NPU是目前高通面向生成式AI最新、也是最好的設(shè)計。

      由于高通為AI開發(fā)者和下游廠商提供的是全套解決方案(這部分內(nèi)容會在第三部分詳細(xì)敘述),并非單獨提供芯片或者某個軟件應(yīng)用。這意味著在硬件設(shè)計上和優(yōu)化上,高通可以通盤考慮,找出目前AI開發(fā)的瓶頸,做有針對性地提升。

      比如,為何要特別在意內(nèi)存帶寬這個技術(shù)點?當(dāng)我們把視角從芯片上升到AI大模型開發(fā),就會發(fā)現(xiàn)內(nèi)存帶寬是大語言模型token生成的瓶頸。第三代驍龍8的NPU架構(gòu)之所以能幫助加速開發(fā)AI大模型,原因之一便在于專門提升了內(nèi)存帶寬的效率。

      這種效率的提升主要受益于兩項技術(shù)的應(yīng)用。

      第一是微切片推理。通過將神經(jīng)網(wǎng)絡(luò)分割成多個獨立執(zhí)行的微切片,消除了高達10余層的內(nèi)存占用,此舉最大化利用了Hexagon NPU中的標(biāo)量、向量和張量加速器并降低功耗。第二是本地4位整數(shù)(INT4)運算。它能將INT4層和神經(jīng)網(wǎng)絡(luò)和張量加速吞吐量提高一倍,同時提升了內(nèi)存帶寬效率。

    1710207042908590.png

      圖:第三代驍龍8的Hexagon NPU以低功耗實現(xiàn)更佳的AI性能

      2月26日,世界移動通信大會(MWC 2024)在巴塞羅那拉開帷幕;隍旪圶 Elite,高通向全世界展示了全球首個在終端側(cè)運行的超過70億參數(shù)的大型多模態(tài)語言模型(LMM)。該模型可接收文本和音頻輸入(如音樂、交通環(huán)境音頻等),并基于音頻內(nèi)容生成多輪對話。

      所以,在集成了Hexagon NPU的移動終端上,會有怎樣的AI體驗?以及它是如何做到的?高通詳細(xì)拆解了一個案例。

      借助移動終端的AI旅行助手,用戶可以直接對模型提出規(guī)劃旅游行程的需求。AI助手可以立刻給到航班行程建議,并且通過語音對話調(diào)整輸出結(jié)果,最后通過Skyscanner插件創(chuàng)建完整航班日程。

      這種一步到位的體驗是如何實現(xiàn)的?

      第一步,用戶的語音通過自動語音識別(ASR)模型Whisper轉(zhuǎn)化成文本。該模型有2.4億個參數(shù),主要在高通傳感器中樞上運行;

      第二步,利用Llama 2或百川大語言模型基于文本內(nèi)容生成文本回復(fù),這一模型在Hexagon NPU上運行;

      第三步,通過在CPU上運行的開源TTS(Text to Speech)模型將文本轉(zhuǎn)化為語音;

      最后一步,通過調(diào)制解調(diào)器技術(shù)進行網(wǎng)絡(luò)連接,使用Skyscanner插件完成訂票操作。

      行業(yè)井噴前夕,開發(fā)者需要搶占先機

      使用不同的工具測試驍龍和高通平臺的AI性能表現(xiàn),可以發(fā)現(xiàn)其得分比同類競品高出幾倍。從魯大師AIMark V4.3基準(zhǔn)測試結(jié)果來看,第三代驍龍8的總分相較競品B高出5.7倍,而相較競品C高出7.9倍。

      在安兔兔AITuTu基準(zhǔn)測試中,第三代驍龍8的總分比競品B高出6.3倍。針對MLCommon MLPerf推理的不同子項,包括圖像分類、語言理解以及超級分辨率等,也進行了詳盡的比較。

    1710207049795939.png

      進一步對比驍龍X Elite與其他X86架構(gòu)競品,在ResNet-50、DeeplabV3等測試中,驍龍X Elite表現(xiàn)出明顯的領(lǐng)先地位,其基準(zhǔn)測試總分分別是X86架構(gòu)競品A的3.4倍和競品B的8.6倍。因此,在PC端,無論是運行Microsoft Copilot,還是進行文檔摘要、文檔撰寫等生成式AI應(yīng)用,體驗都十分流暢。

    1710207057195443.png

      領(lǐng)先的AI性能不全是高通AI引擎的功勞,確切的說,高通對AI廠商的賦能是全方位的。

      首先是高通AI引擎。它包括Hexagon NPU、Adreno GPU、高通Oryon CPU(PC平臺)、高通傳感器中樞和內(nèi)存子系統(tǒng)。專門的工業(yè)設(shè)計、不同部件之間良好的協(xié)同,這款異構(gòu)計算架構(gòu)為終端側(cè)產(chǎn)品提供了低功耗、高能效的開發(fā)平臺。

      基于先進的硬件,高通又推出了AI軟件棧(高通AI Stack)。這款產(chǎn)品的誕生是為了解決AI開發(fā)中的頑疾——同一個功能,針對不同平臺要多次開發(fā),重復(fù)勞動。AI Stack支持目前所有的主流AI框架,OEM廠商和開發(fā)者可以在平臺上創(chuàng)建、優(yōu)化和部署AI應(yīng)用,并且能實現(xiàn)“一次開發(fā),全平臺部署”,大大減少了研發(fā)人員的重復(fù)勞動。

    1710207063156616.png

      圖:高通AI軟件棧幫助開發(fā)者“一次開發(fā),全平臺部署” 來源:高通

      此外,還有高通在MWC2024上剛剛發(fā)布的AI Hub。AI Hub是一個包含了近80個AI模型的模型庫,其中既有生成式AI模型,也有傳統(tǒng)AI模型,還包括圖像識別或面部識別模型,百川、Stable Diffusion、Whisper等模型。開發(fā)者可以從AI Hub中選取想要使用的模型生成二進制插件,做到AI 開發(fā)的“即插即用”。

    1710207070107739.png

      綜合來說,如果縱向看深度,高通在硬件(AI引擎)、軟件(AI Stack)和素材庫(AI Hub)三個維度全面加速廠商的AI開發(fā)進度。橫向看覆蓋廣度,高通的產(chǎn)品已經(jīng)覆蓋了幾乎所有的終端側(cè)設(shè)備(第三代驍龍8支持手機等終端,X Elite賦能AI PC產(chǎn)品)。

      AI應(yīng)用處于井噴前的醞釀期。

      在教育領(lǐng)域,AI能針對學(xué)生的學(xué)習(xí)能力和進度制定個性化的教學(xué)方案;在醫(yī)學(xué)領(lǐng)域, AI可以用來發(fā)掘全新的抗生素類型;在養(yǎng)老方面,未來在一些社會老齡化問題比較嚴(yán)重的地區(qū),可以利用AI終端收集老年人家中的所有個人數(shù)據(jù),從而幫助預(yù)防緊急醫(yī)療事故。

      之所以叫“井噴前”,正是因為還沒有大規(guī)模部署。另一方面,AI應(yīng)用,作為最容易讓用戶產(chǎn)生粘性的產(chǎn)品之一,具有很強的先發(fā)優(yōu)勢效應(yīng)。

      AI產(chǎn)品開發(fā)者需要先行一步,早一些讓用戶體驗自己的產(chǎn)品,和用戶建立連接,培養(yǎng)粘性,從而在競爭中占得先機。

      (文章轉(zhuǎn)載自DeepTech深科技)

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。

    [No. X026]
    分享到微信

    即時

    TCL實業(yè)榮獲IFA2024多項大獎,展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產(chǎn)品設(shè)計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強大影響力。

    新聞

    敢闖技術(shù)無人區(qū) TCL實業(yè)斬獲多項AWE 2024艾普蘭獎

    近日,中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項AWE 2024艾普蘭大獎。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    “純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

    2024年3月12日,由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會在上海盛大舉行。

    研究

    2024全球開發(fā)者先鋒大會即將開幕

    由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經(jīng)濟發(fā)展(集團)有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。