2024年過去2/3,大模型領(lǐng)域的一個共識開始愈加清晰:
AI技術(shù)的真正價值在于其普惠性。沒有應(yīng)用,基礎(chǔ)模型將無法發(fā)揮其價值。
于是乎,回顧這大半年,從互聯(lián)網(wǎng)大廠到手機廠商,各路人馬都在探索AI時代Killer APP的道路上狂奔。這股風(fēng)潮,也開始在頂級學(xué)術(shù)會議中顯露蹤跡。
其中被行業(yè)、學(xué)術(shù)界都投以關(guān)注的一個核心問題就是:
在大模型“力大磚飛”的背景之下,AIGC應(yīng)用要如何在手機等算力有限的終端設(shè)備上更絲滑地落地呢?
這段時間以來,ICML(國際機器學(xué)習(xí)大會)、CVPR(IEEE國際計算機視覺與模式識別會議)等頂會上的最新技術(shù)分享和入選論文,正在揭開更多細節(jié)。
是時候總結(jié)一下了。
AI應(yīng)用背后,大家都在聚焦哪些研究?
先來看看,AI應(yīng)用從云端邁向終端,現(xiàn)在進展到何種程度了。
目前,在大模型/AIGC應(yīng)用方面,眾多安卓手機廠商都與高通保持著深度合作。
在CVPR2024等頂會上,高通的技術(shù)Demo,吸引了不少眼球。
比如,在安卓手機上,實現(xiàn)多模態(tài)大模型(LLaVA)的本地部署:
△Qualcomm Research發(fā)布于YouTube
這是一個70億參數(shù)級別的多模態(tài)大模型,支持多種類型的數(shù)據(jù)輸入,包括文本和圖像。也支持圍繞圖像的多輪對話。
就像這樣,丟給它一張小狗的照片,它不僅能描述照片信息,還能接著和你聊狗狗適不適合家養(yǎng)之類的話題。
△量子位在巴塞羅那MWC高通展臺拍攝的官方演示Demo
高通還展示了在安卓手機上運行LoRA的實例。
△Qualcomm Research發(fā)布于YouTube
以及音頻驅(qū)動的3D數(shù)字人版AI助手——同樣能在斷網(wǎng)的情況下本地運行。
Demo原型既出,加之手機廠商們的魔改優(yōu)化,對于普通用戶而言,意味著其中展現(xiàn)的新玩法新可能,在咱們自個兒的終端設(shè)備上已經(jīng)指日可待。
但在頂會上,更加受到關(guān)注的是,demo之外,高通的一系列最新論文們,還詳細地揭開了應(yīng)用背后需要重點布局的關(guān)鍵技術(shù)。
量化
其中之一,就是量化。
在手機等終端設(shè)備上部署大模型/AIGC應(yīng)用,要解決的一大重點是如何實現(xiàn)高效能的推理。
而量化是提高計算性能和內(nèi)存效率最有效的方法之一。并且高通認為,使用低位數(shù)整型精度對高能效推理至關(guān)重要。
高通的多項研究工作發(fā)現(xiàn),對于生成式AI來說,由于基于Transformer的大語言模型受到內(nèi)存的限制,在量化到8位(INT8)或4位(INT4)權(quán)重后往往能夠獲得大幅提升的效率優(yōu)勢。
其中,4位權(quán)重量化不僅對大語言模型可行,在訓(xùn)練后量化(PTQ)中同樣可能,并能實現(xiàn)最優(yōu)表現(xiàn)。這一效率提升已經(jīng)超過了浮點模型。
具體來說,高通的研究表明,借助量化感知訓(xùn)練(QAT)等量化研究,許多生成式AI模型可以量化至INT4模型。
在不影響準確性和性能表現(xiàn)的情況下,INT4模型能節(jié)省更多功耗,與INT8相比實現(xiàn)90%的性能提升和60%的能效提升。
今年,高通還提出了一種名為LR-QAT(低秩量化感知訓(xùn)練)的算法,能使大語言模型在計算和內(nèi)存使用上更高效。
LR-QAT受LoRA啟發(fā),采用了低秩重參數(shù)化的方法,引入了低秩輔助權(quán)重,并將其放置在整數(shù)域中,在不損失精度的前提下實現(xiàn)了高效推理。
在Llama2/3以及Mistral系列模型上的實驗結(jié)果顯示,在內(nèi)存使用遠低于全模型QAT的情況下,LR-QAT達到了相同的性能。
另外,高通還重點布局了矢量量化(VQ)技術(shù),與傳統(tǒng)量化方法不同,VQ考慮了參數(shù)的聯(lián)合分布,能夠?qū)崿F(xiàn)更高效的壓縮和更少的信息丟失。
編譯
在AI模型被部署到硬件架構(gòu)的過程中,編譯器是保障其以最高性能和最低功耗高效運行的關(guān)鍵。
編譯包括計算圖的切分、映射、排序和調(diào)度等步驟。
高通在傳統(tǒng)編譯器技術(shù)、多面體AI編輯器和編輯器組合優(yōu)化AI方面都積累了不少技術(shù)成果。
比如,高通AI引擎Direct框架基于高通Hexagon NPU的硬件架構(gòu)和內(nèi)存層級進行運算排序,在提高性能的同時,可以最大程度減少內(nèi)存溢出。
硬件加速
終端側(cè)的AI加速,離不開硬件的支持。
在硬件方面,高通AI引擎采用異構(gòu)計算架構(gòu),包括Hexagon NPU、高通Adreno GPU、高通Kryo CPU或高通Oryon CPU。
其中,Hexagon NPU在今天已經(jīng)成為高通AI引擎中的關(guān)鍵處理器。
以第三代驍龍8移動平臺為例,Hexagon NPU在性能表現(xiàn)上,比前代產(chǎn)品快98%,同時功耗降低了40%。
架構(gòu)方面,Hexagon NPU升級了全新的微架構(gòu)。與前代產(chǎn)品相比,更快的矢量加速器時鐘速度、更強的推理技術(shù)和對更多更快的Transformer網(wǎng)絡(luò)的支持等等,全面提升了Hexagon NPU對生成式AI的響應(yīng)能力,使得手機上的大模型“秒答”用戶提問成為可能。
Hexagon NPU之外,第三代驍龍8在高通傳感器中樞上也下了更多功夫:增加下一代微型NPU,AI性能提高3.5倍,內(nèi)存增加30%。
事實上,作為大模型/AIGC應(yīng)用向終端側(cè)遷移的潮流中最受關(guān)注的技術(shù)代表之一,以上重點之外,高通的AI研究布局早已延伸到更廣泛的領(lǐng)域之中。
以CVPR2024入選論文為例,在生成式AI方面,高通提出了提高擴散模型效率的方法Clockwork Diffusion,在提高Stable Diffusion v1.5感知得分的同時,能使算力消耗最高降低32%,使得SD模型更適用于低功耗端側(cè)設(shè)備。
并且不止于手機,針對XR和自動駕駛領(lǐng)域的實際需求,高通還研究了高效多視圖視頻壓縮方法(LLSS)等。
在當(dāng)前的熱點研究領(lǐng)域,比如AI視頻生成方面,高通也有新動作:
正在開發(fā)面向終端側(cè)AI的高效視頻架構(gòu)。例如,對視頻到視頻的生成式AI技術(shù)FAIRY進行優(yōu)化。在FAIRY第一階段,從錨定幀提取狀態(tài)。在第二階段,跨剩余幀編輯視頻。優(yōu)化示例包括:跨幀優(yōu)化、高效instructPix2Pix和圖像/文本引導(dǎo)調(diào)節(jié)。
底層技術(shù)驅(qū)動AI創(chuàng)新
大模型應(yīng)用是當(dāng)下的大勢所趨。而當(dāng)應(yīng)用發(fā)展的程度愈加深入,一個關(guān)鍵問題也愈加明朗:
應(yīng)用創(chuàng)新的演進速度,取決于技術(shù)基座是否扎實牢固。
這里的技術(shù)基座,指的不僅是基礎(chǔ)模型本身,也包括從模型量化壓縮到部署的全棧AI優(yōu)化。
可以這樣理解,如果說基礎(chǔ)模型決定了大模型應(yīng)用效果的上限,那么一系列AI優(yōu)化技術(shù),就決定了終端側(cè)大模型應(yīng)用體驗的下限。
作為普通消費者,值得期待的是,像高通這樣的技術(shù)廠商,不僅正在理論研究方面快馬加鞭,其為應(yīng)用、神經(jīng)網(wǎng)絡(luò)模型、算法、軟件和硬件的全棧AI研究和優(yōu)化,也已加速在實踐中部署。
以高通AI軟件棧為例。這是一套容納了大量AI技術(shù)的工具包,全面支持各種主流AI框架、不同操作系統(tǒng)和各類編程語言,能提升各種AI軟件在智能終端上的兼容性。
其中還包含高通AI Studio,相當(dāng)于將高通所有AI工具集成到了一起,包括AI模型增效工具包、模型分析器和神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索(NAS)等。
更為關(guān)鍵的是,基于高通AI軟件棧,只需一次開發(fā),開發(fā)者就能跨不同設(shè)備隨時隨地部署相應(yīng)的AI模型。
就是說,高通AI軟件棧像是一個“轉(zhuǎn)換器”,能夠解決大模型在種類繁多的智能終端中落地所面臨的一大難題——跨設(shè)備遷移。
這樣一來,大模型應(yīng)用不僅能從云端走向手機端,還能被更快速地塞進汽車、XR、PC和物聯(lián)網(wǎng)設(shè)備中。
站在現(xiàn)在的時間節(jié)點,人人都在期待改變世界的技術(shù)潮流翻騰出更洶涌的巨浪。
而站立潮頭的弄潮兒們正在再次驗證技術(shù)史中一次次被探明的事實:引領(lǐng)技術(shù)之先的人和組織,無不具備重視基礎(chǔ)技術(shù)的“發(fā)明家文化”。
不止是追趕最新的技術(shù)趨勢,更要提前布局,搶先攻克基本方案。
高通在《讓AI觸手可及》白皮書中同樣提到了這一點:
高通深耕AI研發(fā)超過15年,始終致力于讓感知、推理和行為等核心能力在終端上無處不在。
這些AI研究和在此之上產(chǎn)出的論文,影響的不僅是高通的技術(shù)布局,也正在影響整個行業(yè)的AI發(fā)展。
大模型時代,“發(fā)明家文化”仍在延續(xù)。
也正是這樣的文化,持續(xù)促進著新技術(shù)的普及化,促進著市場的競爭和繁榮,帶動起更多的行業(yè)創(chuàng)新和發(fā)展。
你覺得呢?
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。
2024年的Adobe MAX 2024發(fā)布會上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。