首頁 > 云計算頻道 > 大模型

大模型應(yīng)用新戰(zhàn)場：揭秘終端側(cè)AI競爭關(guān)鍵

2024年09月02日 21:12:06 魚羊來源：量子位公眾號

　　2024年過去2/3，大模型領(lǐng)域的一個共識開始愈加清晰:

　　AI技術(shù)的真正價值在于其普惠性。沒有應(yīng)用，基礎(chǔ)模型將無法發(fā)揮其價值。

　　于是乎，回顧這大半年，從互聯(lián)網(wǎng)大廠到手機廠商，各路人馬都在探索AI時代Killer APP的道路上狂奔。這股風(fēng)潮，也開始在頂級學(xué)術(shù)會議中顯露蹤跡。

　　其中被行業(yè)、學(xué)術(shù)界都投以關(guān)注的一個核心問題就是:

　　在大模型“力大磚飛”的背景之下，AIGC應(yīng)用要如何在手機等算力有限的終端設(shè)備上更絲滑地落地呢?

　　這段時間以來，ICML(國際機器學(xué)習(xí)大會)、CVPR(IEEE國際計算機視覺與模式識別會議)等頂會上的最新技術(shù)分享和入選論文，正在揭開更多細節(jié)。

　　是時候總結(jié)一下了。

　　AI應(yīng)用背后，大家都在聚焦哪些研究?

　　先來看看，AI應(yīng)用從云端邁向終端，現(xiàn)在進展到何種程度了。

　　目前，在大模型/AIGC應(yīng)用方面，眾多安卓手機廠商都與高通保持著深度合作。

　　在CVPR2024等頂會上，高通的技術(shù)Demo，吸引了不少眼球。

　　比如，在安卓手機上，實現(xiàn)多模態(tài)大模型(LLaVA)的本地部署:

　　△Qualcomm Research發(fā)布于YouTube

　　這是一個70億參數(shù)級別的多模態(tài)大模型，支持多種類型的數(shù)據(jù)輸入，包括文本和圖像。也支持圍繞圖像的多輪對話。

　　就像這樣，丟給它一張小狗的照片，它不僅能描述照片信息，還能接著和你聊狗狗適不適合家養(yǎng)之類的話題。

　　△量子位在巴塞羅那MWC高通展臺拍攝的官方演示Demo

　　高通還展示了在安卓手機上運行LoRA的實例。

　　△Qualcomm Research發(fā)布于YouTube

　　以及音頻驅(qū)動的3D數(shù)字人版AI助手——同樣能在斷網(wǎng)的情況下本地運行。

　　Demo原型既出，加之手機廠商們的魔改優(yōu)化，對于普通用戶而言，意味著其中展現(xiàn)的新玩法新可能，在咱們自個兒的終端設(shè)備上已經(jīng)指日可待。

　　但在頂會上，更加受到關(guān)注的是，demo之外，高通的一系列最新論文們，還詳細地揭開了應(yīng)用背后需要重點布局的關(guān)鍵技術(shù)。

　　量化

　　其中之一，就是量化。

　　在手機等終端設(shè)備上部署大模型/AIGC應(yīng)用，要解決的一大重點是如何實現(xiàn)高效能的推理。

　　而量化是提高計算性能和內(nèi)存效率最有效的方法之一。并且高通認為，使用低位數(shù)整型精度對高能效推理至關(guān)重要。

　　高通的多項研究工作發(fā)現(xiàn)，對于生成式AI來說，由于基于Transformer的大語言模型受到內(nèi)存的限制，在量化到8位(INT8)或4位(INT4)權(quán)重后往往能夠獲得大幅提升的效率優(yōu)勢。

　　其中，4位權(quán)重量化不僅對大語言模型可行，在訓(xùn)練后量化(PTQ)中同樣可能，并能實現(xiàn)最優(yōu)表現(xiàn)。這一效率提升已經(jīng)超過了浮點模型。

　　具體來說，高通的研究表明，借助量化感知訓(xùn)練(QAT)等量化研究，許多生成式AI模型可以量化至INT4模型。

　　在不影響準確性和性能表現(xiàn)的情況下，INT4模型能節(jié)省更多功耗，與INT8相比實現(xiàn)90%的性能提升和60%的能效提升。

　　今年，高通還提出了一種名為LR-QAT(低秩量化感知訓(xùn)練)的算法，能使大語言模型在計算和內(nèi)存使用上更高效。

　　LR-QAT受LoRA啟發(fā)，采用了低秩重參數(shù)化的方法，引入了低秩輔助權(quán)重，并將其放置在整數(shù)域中，在不損失精度的前提下實現(xiàn)了高效推理。

　　在Llama2/3以及Mistral系列模型上的實驗結(jié)果顯示，在內(nèi)存使用遠低于全模型QAT的情況下，LR-QAT達到了相同的性能。

　　另外，高通還重點布局了矢量量化(VQ)技術(shù)，與傳統(tǒng)量化方法不同，VQ考慮了參數(shù)的聯(lián)合分布，能夠?qū)崿F(xiàn)更高效的壓縮和更少的信息丟失。

　　編譯

　　在AI模型被部署到硬件架構(gòu)的過程中，編譯器是保障其以最高性能和最低功耗高效運行的關(guān)鍵。

　　編譯包括計算圖的切分、映射、排序和調(diào)度等步驟。

　　高通在傳統(tǒng)編譯器技術(shù)、多面體AI編輯器和編輯器組合優(yōu)化AI方面都積累了不少技術(shù)成果。

　　比如，高通AI引擎Direct框架基于高通Hexagon NPU的硬件架構(gòu)和內(nèi)存層級進行運算排序，在提高性能的同時，可以最大程度減少內(nèi)存溢出。

　　硬件加速

　　終端側(cè)的AI加速，離不開硬件的支持。

　　在硬件方面，高通AI引擎采用異構(gòu)計算架構(gòu)，包括Hexagon NPU、高通Adreno GPU、高通Kryo CPU或高通Oryon CPU。

　　其中，Hexagon NPU在今天已經(jīng)成為高通AI引擎中的關(guān)鍵處理器。

　　以第三代驍龍8移動平臺為例，Hexagon NPU在性能表現(xiàn)上，比前代產(chǎn)品快98%，同時功耗降低了40%。

　　架構(gòu)方面，Hexagon NPU升級了全新的微架構(gòu)。與前代產(chǎn)品相比，更快的矢量加速器時鐘速度、更強的推理技術(shù)和對更多更快的Transformer網(wǎng)絡(luò)的支持等等，全面提升了Hexagon NPU對生成式AI的響應(yīng)能力，使得手機上的大模型“秒答”用戶提問成為可能。

　　Hexagon NPU之外，第三代驍龍8在高通傳感器中樞上也下了更多功夫:增加下一代微型NPU，AI性能提高3.5倍，內(nèi)存增加30%。

　　事實上，作為大模型/AIGC應(yīng)用向終端側(cè)遷移的潮流中最受關(guān)注的技術(shù)代表之一，以上重點之外，高通的AI研究布局早已延伸到更廣泛的領(lǐng)域之中。

　　以CVPR2024入選論文為例，在生成式AI方面，高通提出了提高擴散模型效率的方法Clockwork Diffusion，在提高Stable Diffusion v1.5感知得分的同時，能使算力消耗最高降低32%，使得SD模型更適用于低功耗端側(cè)設(shè)備。

　　并且不止于手機，針對XR和自動駕駛領(lǐng)域的實際需求，高通還研究了高效多視圖視頻壓縮方法(LLSS)等。

　　在當(dāng)前的熱點研究領(lǐng)域，比如AI視頻生成方面，高通也有新動作:

　　正在開發(fā)面向終端側(cè)AI的高效視頻架構(gòu)。例如，對視頻到視頻的生成式AI技術(shù)FAIRY進行優(yōu)化。在FAIRY第一階段，從錨定幀提取狀態(tài)。在第二階段，跨剩余幀編輯視頻。優(yōu)化示例包括:跨幀優(yōu)化、高效instructPix2Pix和圖像/文本引導(dǎo)調(diào)節(jié)。

　　底層技術(shù)驅(qū)動AI創(chuàng)新

　　大模型應(yīng)用是當(dāng)下的大勢所趨。而當(dāng)應(yīng)用發(fā)展的程度愈加深入，一個關(guān)鍵問題也愈加明朗:

　　應(yīng)用創(chuàng)新的演進速度，取決于技術(shù)基座是否扎實牢固。

　　這里的技術(shù)基座，指的不僅是基礎(chǔ)模型本身，也包括從模型量化壓縮到部署的全棧AI優(yōu)化。

　　可以這樣理解，如果說基礎(chǔ)模型決定了大模型應(yīng)用效果的上限，那么一系列AI優(yōu)化技術(shù)，就決定了終端側(cè)大模型應(yīng)用體驗的下限。

　　作為普通消費者，值得期待的是，像高通這樣的技術(shù)廠商，不僅正在理論研究方面快馬加鞭，其為應(yīng)用、神經(jīng)網(wǎng)絡(luò)模型、算法、軟件和硬件的全棧AI研究和優(yōu)化，也已加速在實踐中部署。

　　以高通AI軟件棧為例。這是一套容納了大量AI技術(shù)的工具包，全面支持各種主流AI框架、不同操作系統(tǒng)和各類編程語言，能提升各種AI軟件在智能終端上的兼容性。

　　其中還包含高通AI Studio，相當(dāng)于將高通所有AI工具集成到了一起，包括AI模型增效工具包、模型分析器和神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索(NAS)等。

　　更為關(guān)鍵的是，基于高通AI軟件棧，只需一次開發(fā)，開發(fā)者就能跨不同設(shè)備隨時隨地部署相應(yīng)的AI模型。

　　就是說，高通AI軟件棧像是一個“轉(zhuǎn)換器”，能夠解決大模型在種類繁多的智能終端中落地所面臨的一大難題——跨設(shè)備遷移。

　　這樣一來，大模型應(yīng)用不僅能從云端走向手機端，還能被更快速地塞進汽車、XR、PC和物聯(lián)網(wǎng)設(shè)備中。

　　站在現(xiàn)在的時間節(jié)點，人人都在期待改變世界的技術(shù)潮流翻騰出更洶涌的巨浪。