冰雪大世界盛大開園,美的空調(diào)橫跨50℃打造“東北夏威夷”臺灣小土豆勇闖冰雪大世界,美的空調(diào)真暖快車成為最熱打卡點京東iPhone 16系列年底大放價!至高補貼1200元價格低過11.11新一季圓滿假期結(jié)伴大使出發(fā)在即 LG電子十年相伴助力溫暖傳遞中國聯(lián)通組織“魅力亞冬,與智慧同行” 主題采訪活動“萬象分區(qū)”引領(lǐng)電視行業(yè)新潮流,TCL這步棋下得著實漂亮!百度職業(yè)院校專屬項目“大國智匠”引領(lǐng)職業(yè)教育新范式百度大模型助力2024年碼蹄杯程序設(shè)計大賽,全國高校學(xué)子展現(xiàn)卓越編程實力碼蹄杯人物特寫:四位編程少年的追夢之旅金倉數(shù)據(jù)庫四項成果入選2024星河案例亞信科技參加2024通信產(chǎn)業(yè)大會 CTO歐陽曄博士等做主題演講用專業(yè)贏得信賴 美好蘊育潤康引領(lǐng)孕產(chǎn)營養(yǎng)新風(fēng)尚解鎖新成就!愛企查“度秘書”粉絲突破10萬!英特爾終止x86S架構(gòu)計劃:純64位設(shè)計再度戛然而止豆包大模型全面升級,相關(guān)概念股瘋漲,字節(jié)發(fā)布緊急警示申通、圓通、韻達發(fā)布 11 月簡報:快遞業(yè)務(wù)量、收入均同比增長,單票收入均下降SensorTower發(fā)11月中國手游全球收入排行榜 庫洛入榜“YO!原”千里來相會 華為智能生活館·太原茂業(yè)重裝開業(yè)微軟承認并調(diào)查Microsoft 365 應(yīng)用出現(xiàn)“產(chǎn)品已停用”錯誤SK 海力士被曝贏得博通HBM訂單,預(yù)計明年 1b DRAM 月產(chǎn)能將擴大到 16~17 萬片
  • 首頁 > 云計算頻道 > 大模型

    大模型應(yīng)用新戰(zhàn)場:揭秘終端側(cè)AI競爭關(guān)鍵

    2024年09月02日 21:12:06   來源:量子位公眾號

      2024年過去2/3,大模型領(lǐng)域的一個共識開始愈加清晰:

      AI技術(shù)的真正價值在于其普惠性。沒有應(yīng)用,基礎(chǔ)模型將無法發(fā)揮其價值。

      于是乎,回顧這大半年,從互聯(lián)網(wǎng)大廠到手機廠商,各路人馬都在探索AI時代Killer APP的道路上狂奔。這股風(fēng)潮,也開始在頂級學(xué)術(shù)會議中顯露蹤跡。

      其中被行業(yè)、學(xué)術(shù)界都投以關(guān)注的一個核心問題就是:

      在大模型“力大磚飛”的背景之下,AIGC應(yīng)用要如何在手機等算力有限的終端設(shè)備上更絲滑地落地呢?

      這段時間以來,ICML(國際機器學(xué)習(xí)大會)、CVPR(IEEE國際計算機視覺與模式識別會議)等頂會上的最新技術(shù)分享和入選論文,正在揭開更多細節(jié)。

      是時候總結(jié)一下了。

      AI應(yīng)用背后,大家都在聚焦哪些研究?

      先來看看,AI應(yīng)用從云端邁向終端,現(xiàn)在進展到何種程度了。

      目前,在大模型/AIGC應(yīng)用方面,眾多安卓手機廠商都與高通保持著深度合作。

      在CVPR2024等頂會上,高通的技術(shù)Demo,吸引了不少眼球。

      比如,在安卓手機上,實現(xiàn)多模態(tài)大模型(LLaVA)的本地部署:

    圖片

      Qualcomm Research發(fā)布于YouTube

      這是一個70億參數(shù)級別的多模態(tài)大模型,支持多種類型的數(shù)據(jù)輸入,包括文本和圖像。也支持圍繞圖像的多輪對話。

      就像這樣,丟給它一張小狗的照片,它不僅能描述照片信息,還能接著和你聊狗狗適不適合家養(yǎng)之類的話題。

    圖片

      量子位在巴塞羅那MWC高通展臺拍攝的官方演示Demo

      高通還展示了在安卓手機上運行LoRA的實例。

      Qualcomm Research發(fā)布于YouTube

      以及音頻驅(qū)動的3D數(shù)字人版AI助手——同樣能在斷網(wǎng)的情況下本地運行。

      Demo原型既出,加之手機廠商們的魔改優(yōu)化,對于普通用戶而言,意味著其中展現(xiàn)的新玩法新可能,在咱們自個兒的終端設(shè)備上已經(jīng)指日可待。

      但在頂會上,更加受到關(guān)注的是,demo之外,高通的一系列最新論文們,還詳細地揭開了應(yīng)用背后需要重點布局的關(guān)鍵技術(shù)。

      量化

      其中之一,就是量化。

      在手機等終端設(shè)備上部署大模型/AIGC應(yīng)用,要解決的一大重點是如何實現(xiàn)高效能的推理

      而量化是提高計算性能和內(nèi)存效率最有效的方法之一。并且高通認為,使用低位數(shù)整型精度對高能效推理至關(guān)重要。

      高通的多項研究工作發(fā)現(xiàn),對于生成式AI來說,由于基于Transformer的大語言模型受到內(nèi)存的限制,在量化到8位(INT8)或4位(INT4)權(quán)重后往往能夠獲得大幅提升的效率優(yōu)勢。

      其中,4位權(quán)重量化不僅對大語言模型可行,在訓(xùn)練后量化(PTQ)中同樣可能,并能實現(xiàn)最優(yōu)表現(xiàn)。這一效率提升已經(jīng)超過了浮點模型。

      具體來說,高通的研究表明,借助量化感知訓(xùn)練(QAT)等量化研究,許多生成式AI模型可以量化至INT4模型。

      在不影響準確性和性能表現(xiàn)的情況下,INT4模型能節(jié)省更多功耗,與INT8相比實現(xiàn)90%的性能提升和60%的能效提升。

      今年,高通還提出了一種名為LR-QAT(低秩量化感知訓(xùn)練)的算法,能使大語言模型在計算和內(nèi)存使用上更高效。

      LR-QAT受LoRA啟發(fā),采用了低秩重參數(shù)化的方法,引入了低秩輔助權(quán)重,并將其放置在整數(shù)域中,在不損失精度的前提下實現(xiàn)了高效推理。

      在Llama2/3以及Mistral系列模型上的實驗結(jié)果顯示,在內(nèi)存使用遠低于全模型QAT的情況下,LR-QAT達到了相同的性能。

      另外,高通還重點布局了矢量量化(VQ)技術(shù),與傳統(tǒng)量化方法不同,VQ考慮了參數(shù)的聯(lián)合分布,能夠?qū)崿F(xiàn)更高效的壓縮和更少的信息丟失。

      編譯

      在AI模型被部署到硬件架構(gòu)的過程中,編譯器是保障其以最高性能和最低功耗高效運行的關(guān)鍵。

      編譯包括計算圖的切分、映射、排序和調(diào)度等步驟。

      高通在傳統(tǒng)編譯器技術(shù)、多面體AI編輯器和編輯器組合優(yōu)化AI方面都積累了不少技術(shù)成果。

      比如,高通AI引擎Direct框架基于高通Hexagon NPU的硬件架構(gòu)和內(nèi)存層級進行運算排序,在提高性能的同時,可以最大程度減少內(nèi)存溢出。

      硬件加速

      終端側(cè)的AI加速,離不開硬件的支持。

      在硬件方面,高通AI引擎采用異構(gòu)計算架構(gòu),包括Hexagon NPU、高通Adreno GPU、高通Kryo CPU或高通Oryon CPU。

      其中,Hexagon NPU在今天已經(jīng)成為高通AI引擎中的關(guān)鍵處理器。

      以第三代驍龍8移動平臺為例,Hexagon NPU在性能表現(xiàn)上,比前代產(chǎn)品快98%,同時功耗降低了40%。

      架構(gòu)方面,Hexagon NPU升級了全新的微架構(gòu)。與前代產(chǎn)品相比,更快的矢量加速器時鐘速度、更強的推理技術(shù)和對更多更快的Transformer網(wǎng)絡(luò)的支持等等,全面提升了Hexagon NPU對生成式AI的響應(yīng)能力,使得手機上的大模型“秒答”用戶提問成為可能。

      Hexagon NPU之外,第三代驍龍8在高通傳感器中樞上也下了更多功夫:增加下一代微型NPU,AI性能提高3.5倍,內(nèi)存增加30%。

      事實上,作為大模型/AIGC應(yīng)用向終端側(cè)遷移的潮流中最受關(guān)注的技術(shù)代表之一,以上重點之外,高通的AI研究布局早已延伸到更廣泛的領(lǐng)域之中。

      以CVPR2024入選論文為例,在生成式AI方面,高通提出了提高擴散模型效率的方法Clockwork Diffusion,在提高Stable Diffusion v1.5感知得分的同時,能使算力消耗最高降低32%,使得SD模型更適用于低功耗端側(cè)設(shè)備。

      并且不止于手機,針對XR和自動駕駛領(lǐng)域的實際需求,高通還研究了高效多視圖視頻壓縮方法(LLSS)等。

      在當(dāng)前的熱點研究領(lǐng)域,比如AI視頻生成方面,高通也有新動作:

      正在開發(fā)面向終端側(cè)AI的高效視頻架構(gòu)。例如,對視頻到視頻的生成式AI技術(shù)FAIRY進行優(yōu)化。在FAIRY第一階段,從錨定幀提取狀態(tài)。在第二階段,跨剩余幀編輯視頻。優(yōu)化示例包括:跨幀優(yōu)化、高效instructPix2Pix和圖像/文本引導(dǎo)調(diào)節(jié)。

      底層技術(shù)驅(qū)動AI創(chuàng)新

      大模型應(yīng)用是當(dāng)下的大勢所趨。而當(dāng)應(yīng)用發(fā)展的程度愈加深入,一個關(guān)鍵問題也愈加明朗:

      應(yīng)用創(chuàng)新的演進速度,取決于技術(shù)基座是否扎實牢固。

      這里的技術(shù)基座,指的不僅是基礎(chǔ)模型本身,也包括從模型量化壓縮到部署的全棧AI優(yōu)化。

      可以這樣理解,如果說基礎(chǔ)模型決定了大模型應(yīng)用效果的上限,那么一系列AI優(yōu)化技術(shù),就決定了終端側(cè)大模型應(yīng)用體驗的下限。

      作為普通消費者,值得期待的是,像高通這樣的技術(shù)廠商,不僅正在理論研究方面快馬加鞭,其為應(yīng)用、神經(jīng)網(wǎng)絡(luò)模型、算法、軟件和硬件的全棧AI研究和優(yōu)化,也已加速在實踐中部署。

      以高通AI軟件棧為例。這是一套容納了大量AI技術(shù)的工具包,全面支持各種主流AI框架、不同操作系統(tǒng)和各類編程語言,能提升各種AI軟件在智能終端上的兼容性。

      其中還包含高通AI Studio,相當(dāng)于將高通所有AI工具集成到了一起,包括AI模型增效工具包、模型分析器和神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索(NAS)等。

      更為關(guān)鍵的是,基于高通AI軟件棧,只需一次開發(fā),開發(fā)者就能跨不同設(shè)備隨時隨地部署相應(yīng)的AI模型。

      就是說,高通AI軟件棧像是一個“轉(zhuǎn)換器”,能夠解決大模型在種類繁多的智能終端中落地所面臨的一大難題——跨設(shè)備遷移。

      這樣一來,大模型應(yīng)用不僅能從云端走向手機端,還能被更快速地塞進汽車、XR、PC和物聯(lián)網(wǎng)設(shè)備中。

      站在現(xiàn)在的時間節(jié)點,人人都在期待改變世界的技術(shù)潮流翻騰出更洶涌的巨浪。

      而站立潮頭的弄潮兒們正在再次驗證技術(shù)史中一次次被探明的事實:引領(lǐng)技術(shù)之先的人和組織,無不具備重視基礎(chǔ)技術(shù)的“發(fā)明家文化”。

      不止是追趕最新的技術(shù)趨勢,更要提前布局,搶先攻克基本方案。

      高通在《讓AI觸手可及》白皮書中同樣提到了這一點:

      高通深耕AI研發(fā)超過15年,始終致力于讓感知、推理和行為等核心能力在終端上無處不在。

      這些AI研究和在此之上產(chǎn)出的論文,影響的不僅是高通的技術(shù)布局,也正在影響整個行業(yè)的AI發(fā)展。

      大模型時代,“發(fā)明家文化”仍在延續(xù)。

      也正是這樣的文化,持續(xù)促進著新技術(shù)的普及化,促進著市場的競爭和繁榮,帶動起更多的行業(yè)創(chuàng)新和發(fā)展。

      你覺得呢?

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。

    即時

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。