把大模型裝進手機分幾步？

2023年08月08日 10:04:05 來源：光錐智能

　　文 | 姚悅

　　編 | 王一粟

　　大模型“跑”進手機，AI的戰(zhàn)火已經從“云端”燒至“移動終端”。

　　“進入AI時代，華為盤古大模型將會來助力鴻蒙生態(tài)。”8月4日，華為常務董事、終端BG CEO、智能汽車解決方案BU CEO 余承東介紹，通過盤古大模型的底層技術，Harmony OS帶來了下一代智能終端操作系統(tǒng)。

　　在手機上使用大模型早已不是新鮮事，此前ChatGPT、文心一言、妙鴨等APP、小程序都是通過調用云端算力，滿足手機終端AI應用的需求。

　　下一步，則是讓大模型直接運行在手機上。

　　從今年四、五月開始，美國科技三巨頭——高通、微軟、英偉達，最受矚目的AI新星OpenAI，以及國內AI“頭部戰(zhàn)隊”的騰訊、百度等，都已經紛紛加速推進在移動終端的輕量化部署AI大模型。高通甚至宣布，正在逐漸轉型成一家智能邊緣計算(在移動終端等數據源頭提供計算服務)的公司。

　　巨頭的群力強推下，大模型從云到端邁進的產業(yè)趨勢已經十分明確。

　　大模型為什么

　　要“跑”在手機上？

　　大模型的最大特點就是“大”，動輒百億千億甚至萬億參數，且為了更好運行大模型，算力集群都已經升級到“萬卡”級別。如今，為什么又非要把大模型“塞”進巴掌大的小手機?

　　大模型確實會給手機用戶帶來一些體驗上的提升。例如，華為終端智能助手小藝不僅可以根據語音提示推薦餐廳，還可以進行摘要總結、信息檢索、多語種翻譯等信息處理，數千字的英文長文，具備大模型能力的手機智能助手就可以生成摘要，還可以翻譯成中文。尤其后一點，在信息爆炸時代，對于提高學習工作效率還是很有價值的。

　　華為終端BG AI與智能全場景業(yè)務部總裁賈永利解釋，一方面，大語言模型具備泛化能力，能夠幫助手機智能助手提升理解能力。另一方面，大模型Plug-in的插件能力，可以在手機內部打通各應用之間的壁壘，借助工具拓展能力。

　　此外，ChatGPT等AIGC應用一直以來都伴隨著強烈的隱私安全爭議，但如果完全在端側運行，就能夠完全避免這一問題。因為大模型在端側運行，數據也不會離開端側。而且，這樣響應的速度還會更快。

　　另一邊，大模型對于到手機等移動終端的需求也已經非常迫切。

　　大模型的洶涌之勢讓云端越來越無法獨自承載算力的需求。高通高級副總裁Alex Katouzian近期就直言，“隨著連接設備和數據流量加速增長，疊加數據中心成本攀升，(我們)不可能將所有內容都發(fā)送到云端。”

　　不算數據傳輸要消耗網絡帶寬、存儲，以及硬件等大量資源，光是云端算力現在已經讓相關廠商有些吃不消。ChatGPT僅在推理階段，保守估計每個月算力成本在1000萬美元左右。

　　最大的問題還不是“貴”，而是“缺”。

　　此前，就連OpenAI創(chuàng)始人Sam Altaman都自曝GPU很缺，甚至直言不希望太多人用ChatGPT。近期，也有業(yè)內人士推測，小型和大型云提供商的大規(guī)模H100集群容量即將耗盡，H100的需求趨勢至少會持續(xù)到2024年底。當前英偉達H100的產能還嚴重受制于供應鏈。

　　所以，云端和終端形成配合，手機等終端閑置算力資源被利用起來，解決“集中式”算力與“分布式”需求的錯配，已經成為大模型發(fā)展“降本增效”的確定趨勢。更重要的是，相比數量有限的中心節(jié)點，眾多的移動終端堪稱觸及萬千場景的“毛細血管”，也就決定了這一入口會是大模型加速應用滲透的關鍵。

　　如何把大模型“裝進口袋”？

　　“相比傳統(tǒng)的PC或者服務器，移動終端最大的挑戰(zhàn)就是如何平衡好體驗和能耗，這是鴻蒙內核設計最重要的核心點之一。”華為終端業(yè)務軟件部總裁龔體強調。

　　大模型需要大量的計算資源和存儲資源，尤其是基于現有的手機硬件配置，這就需要軟件系統(tǒng)做好協調，提升效率降低能耗。

　　現在手機為了提高性能，至少是8個芯片內核，就需要手機系統(tǒng)做協同，這個過程就會消耗大量算力。如果采用異構資源調度，就可以高效協調CPU、GPU、NPU。龔體表示，這樣調度效率可以提升60%以上。

　　手機系統(tǒng)能夠進行運算，調度的最小單位叫做線程，傳統(tǒng)的操作系統(tǒng)中往往上萬線程同時運行，其中就會存在大量無效線程。針對這點，就可以通過更輕量的并發(fā)模型來處理并發(fā)操作，降低無效線程切換對算力的消耗。據龔體說，并發(fā)模型可以讓任務切換開銷節(jié)省50%。

　　另外，在操作系統(tǒng)的任務調度方面，這也是影響流暢體驗的最基本要素，相比公平調度，動態(tài)優(yōu)先級調度會很大程度降低能耗。動態(tài)優(yōu)先級調度就類似于一個智能交通系統(tǒng)，可以根據道路狀況和交通流量，動態(tài)調整交通信號燈亮起狀態(tài)，如當某個方向的車流增加時，該方向的信號燈就提前變綠，就會減少擁堵和延遲。

　　不過，要想讓大模型部署到手機上，還能運轉起來，光是手機操作系統(tǒng)升級改進還遠遠不夠。

　　隨著大模型預測越來越準確，網絡越來越深，神經網絡消耗的內存容量已成為核心問題。同時，還涉及內存帶寬的問題，網路運行時，內存、CPU和電池都會飛速消耗，這絕對是現在的手機難以承受之重。

　　因此，在部署到手機之前，就必須對大模型進行壓縮，以降低對推理算力的需求。但是，一定要確保原有性能和精度基本不變。

　　量化就是一種常見且重要的壓縮操作，可以減少模型占用的內存空間，提高推理性能。本質上就是將浮點運算模型轉化為整數運算模型，因為整數運算比浮點運算精度更高，運算速度也更快。

　　當前，量化技術也已經在加速突破。服務器上訓練的模型一般采用32位浮點運算(FP32)，在手機端，高通已經將FP32模型量化壓縮到INT4模型，實現64內存和計算能效提升。高通的實現數據表明，在借助高通的量化感知訓練后，不少AIGC模型可以量化至INT4模型，與INT8相比，性能提升約90%，能效提升大約60%。

　　大模型壓縮技術，無疑是AI巨頭制勝移動終端戰(zhàn)場的關鍵因素。這也在一定程度上，解釋了英偉達在今年2月為什么“悄悄”收購了掌握壓縮大模型技術的人工智能初創(chuàng)公司OmniML。

　　大模型倒逼終端硬件升級

　　“本年度我們將能夠支持參數達100億的生成式AI模型在手機上運行。”高通產品管理高級副總裁兼AI負責人Ziad Asghar近期則對外表示，100億-150億參數的模型可以覆蓋絕大多數AIGC用例。如果終端已經可以支持這一參數級別，運算可全部在終端上進行，手機會成為真正的個人助理。

　　但是，當前新一代旗艦版手機芯片也就可以承載運行10億參數級大模型，高通在今年6月計算機視覺學術頂會 CVPR 上，成功演示的跑在安卓系統(tǒng)上的大模型，也不過15億參數。

　　參數躍升幾乎十倍，奔赴移動終端的大模型已踩下“油門”，那手機也就不得不加速升級才能應對。

　　手機硬件亟需在AI加速器和內存進行革新。

　　首先，更大參數的大模型，需要更大的內存和存儲空間來存儲模型參數和中間結果。這就要求移動終端內存芯片容量，以及內存接口帶寬都進行升級。

　　其次，更大的參數勢必需要更強大的計算和推理能力，處理輸入數據和輸出結果。

　　雖然，目前手機芯片上的AI加速器(例如各種NPU IP)幾乎已經是標配，但設計基本上是針對上一代卷積神經網絡設計，并不完全針對大模型。

　　為了適配大模型，AI加速器必須能有更大的內存訪問帶寬，并減少內存訪問延遲。這就需要AI加速器的接口上做出一些改變(例如分配更多的pin給內存接口)，同時也需要片上數據互聯做出相應的改變，來滿足AI加速器訪存的需求。

　　高通能喊出“年內100億參數跑手機”的重要原因之一，就是其手握搭載了高通史上最快速、最先進的AI引擎的第二代驍龍8處理器，相比第一代驍龍8處理器，AI性能提升了4.35倍，能效提升60%。

　　當然，超大規(guī)模參數大模型的訓練和推理，即便在云端也亟待突破五堵墻：內存墻+算力墻+通信墻+調優(yōu)墻+部署墻，手機更得一層一層去突破。