下單前先比價不花冤枉錢 同款圖書京東價低于抖音6折日媒感慨中國電動汽車/智駕遙遙領先:本田、日產、三菱合并也沒戲消委會吹風機品質檢測結果揭曉 徠芬獨占鰲頭 共話新質營銷力,2024梅花數據峰會圓滿落幕索尼影像專業(yè)服務 PRO Support 升級,成為會員至少需注冊 2 臺 α 全畫幅相機、3 支 G 大師鏡頭消息稱vivo加碼電池軍備競賽:6500mAh 旗艦機+7500mAh中端機寶馬M8雙門轎跑車明年年初將停產,后續(xù)無2026款車型比亞迪:2025 款漢家族車型城市領航智駕功能開啟內測雷神預告2025年首次出席CES 將發(fā)布三款不同技術原理智能眼鏡realme真我全球首發(fā)聯發(fā)科天璣 8400 耐玩戰(zhàn)神共創(chuàng)計劃iQOO Z9 Turbo長續(xù)航版手機被曝電池加大到6400mAh,搭驍龍 8s Gen 3處理器普及放緩 銷量大跌:曝保時捷將重新評估電動汽車計劃來京東參與榮耀Magic7 RSR 保時捷設計預售 享365天只換不修國補期間電視迎來換機潮,最暢銷MiniLED品牌花落誰家?美團旗下微信社群團購業(yè)務“團買買”宣布年底停運消息稱微軟正與第三方廠商洽談,試圖合作推出Xbox游戲掌機設備在海外,要再造一個京東物流?消息稱蘋果正為AirPods開發(fā)多項健康功能,包括心率監(jiān)測和溫度感應一加 Ace 5系列將搭載全新游戲助手:大幅提升游戲體驗東芝全部業(yè)務實現盈利,退市裁員重組后終于賺錢
  • 首頁 > 云計算頻道 > 大模型

    把大模型裝進手機 分幾步?

    2023年08月08日 10:04:05   來源:光錐智能

      文 |  姚   悅

      編 | 王一粟

      大模型“跑”進手機,AI的戰(zhàn)火已經從“云端”燒至“移動終端”。

      “進入AI時代,華為盤古大模型將會來助力鴻蒙生態(tài)。”8月4日,華為常務董事、終端BG CEO、智能汽車解決方案BU CEO 余承東介紹,通過盤古大模型的底層技術,Harmony OS帶來了下一代智能終端操作系統(tǒng)。

      在手機上使用大模型早已不是新鮮事,此前ChatGPT、文心一言、妙鴨等APP、小程序都是通過調用云端算力,滿足手機終端AI應用的需求。

      下一步,則是讓大模型直接運行在手機上。

      從今年四、五月開始,美國科技三巨頭——高通、微軟、英偉達,最受矚目的AI新星OpenAI,以及國內AI“頭部戰(zhàn)隊”的騰訊、百度等,都已經紛紛加速推進在移動終端的輕量化部署AI大模型。高通甚至宣布,正在逐漸轉型成一家智能邊緣計算(在移動終端等數據源頭提供計算服務)的公司。

      巨頭的群力強推下,大模型從云到端邁進的產業(yè)趨勢已經十分明確。

      大模型為什么

      要“跑”在手機上?

      大模型的最大特點就是“大”,動輒百億千億甚至萬億參數,且為了更好運行大模型,算力集群都已經升級到“萬卡”級別。如今,為什么又非要把大模型“塞”進巴掌大的小手機?

      大模型確實會給手機用戶帶來一些體驗上的提升。例如,華為終端智能助手小藝不僅可以根據語音提示推薦餐廳,還可以進行摘要總結、信息檢索、多語種翻譯等信息處理,數千字的英文長文,具備大模型能力的手機智能助手就可以生成摘要,還可以翻譯成中文。尤其后一點,在信息爆炸時代,對于提高學習工作效率還是很有價值的。

      華為終端BG AI與智能全場景業(yè)務部總裁賈永利解釋,一方面,大語言模型具備泛化能力,能夠幫助手機智能助手提升理解能力。另一方面,大模型Plug-in的插件能力,可以在手機內部打通各應用之間的壁壘,借助工具拓展能力。

      此外,ChatGPT等AIGC應用一直以來都伴隨著強烈的隱私安全爭議,但如果完全在端側運行,就能夠完全避免這一問題。因為大模型在端側運行,數據也不會離開端側。而且,這樣響應的速度還會更快。

      另一邊,大模型對于到手機等移動終端的需求也已經非常迫切。

      大模型的洶涌之勢讓云端越來越無法獨自承載算力的需求。高通高級副總裁Alex Katouzian近期就直言,“隨著連接設備和數據流量加速增長,疊加數據中心成本攀升,(我們)不可能將所有內容都發(fā)送到云端。”

      不算數據傳輸要消耗網絡帶寬、存儲,以及硬件等大量資源,光是云端算力現在已經讓相關廠商有些吃不消。ChatGPT僅在推理階段,保守估計每個月算力成本在1000萬美元左右。

      最大的問題還不是“貴”,而是“缺”。

      此前,就連OpenAI創(chuàng)始人Sam Altaman都自曝GPU很缺,甚至直言不希望太多人用ChatGPT。近期,也有業(yè)內人士推測,小型和大型云提供商的大規(guī)模H100集群容量即將耗盡,H100的需求趨勢至少會持續(xù)到2024年底。當前英偉達H100的產能還嚴重受制于供應鏈。

      所以,云端和終端形成配合,手機等終端閑置算力資源被利用起來,解決“集中式”算力與“分布式”需求的錯配,已經成為大模型發(fā)展“降本增效”的確定趨勢。更重要的是,相比數量有限的中心節(jié)點,眾多的移動終端堪稱觸及萬千場景的“毛細血管”,也就決定了這一入口會是大模型加速應用滲透的關鍵。

      如何把大模型“裝進口袋”?

      “相比傳統(tǒng)的PC或者服務器,移動終端最大的挑戰(zhàn)就是如何平衡好體驗和能耗,這是鴻蒙內核設計最重要的核心點之一。”華為終端業(yè)務軟件部總裁龔體強調。

      大模型需要大量的計算資源和存儲資源,尤其是基于現有的手機硬件配置,這就需要軟件系統(tǒng)做好協調,提升效率降低能耗。

      現在手機為了提高性能,至少是8個芯片內核,就需要手機系統(tǒng)做協同,這個過程就會消耗大量算力。如果采用異構資源調度,就可以高效協調CPU、GPU、NPU。龔體表示,這樣調度效率可以提升60%以上。

      手機系統(tǒng)能夠進行運算,調度的最小單位叫做線程,傳統(tǒng)的操作系統(tǒng)中往往上萬線程同時運行,其中就會存在大量無效線程。針對這點,就可以通過更輕量的并發(fā)模型來處理并發(fā)操作,降低無效線程切換對算力的消耗。據龔體說,并發(fā)模型可以讓任務切換開銷節(jié)省50%。

      另外,在操作系統(tǒng)的任務調度方面,這也是影響流暢體驗的最基本要素,相比公平調度,動態(tài)優(yōu)先級調度會很大程度降低能耗。動態(tài)優(yōu)先級調度就類似于一個智能交通系統(tǒng),可以根據道路狀況和交通流量,動態(tài)調整交通信號燈亮起狀態(tài),如當某個方向的車流增加時,該方向的信號燈就提前變綠,就會減少擁堵和延遲。

      不過,要想讓大模型部署到手機上,還能運轉起來,光是手機操作系統(tǒng)升級改進還遠遠不夠。

      隨著大模型預測越來越準確,網絡越來越深,神經網絡消耗的內存容量已成為核心問題。同時,還涉及內存帶寬的問題,網路運行時,內存、CPU和電池都會飛速消耗,這絕對是現在的手機難以承受之重。

      因此,在部署到手機之前,就必須對大模型進行壓縮,以降低對推理算力的需求。但是,一定要確保原有性能和精度基本不變。

      量化就是一種常見且重要的壓縮操作,可以減少模型占用的內存空間,提高推理性能。本質上就是將浮點運算模型轉化為整數運算模型,因為整數運算比浮點運算精度更高,運算速度也更快。

      當前,量化技術也已經在加速突破。服務器上訓練的模型一般采用32位浮點運算(FP32),在手機端,高通已經將FP32模型量化壓縮到INT4模型,實現64內存和計算能效提升。高通的實現數據表明,在借助高通的量化感知訓練后,不少AIGC模型可以量化至INT4模型,與INT8相比,性能提升約90%,能效提升大約60%。

      大模型壓縮技術,無疑是AI巨頭制勝移動終端戰(zhàn)場的關鍵因素。這也在一定程度上,解釋了英偉達在今年2月為什么“悄悄”收購了掌握壓縮大模型技術的人工智能初創(chuàng)公司OmniML。

      大模型倒逼終端硬件升級

      “本年度我們將能夠支持參數達100億的生成式AI模型在手機上運行。”高通產品管理高級副總裁兼AI負責人Ziad Asghar近期則對外表示,100億-150億參數的模型可以覆蓋絕大多數AIGC用例。如果終端已經可以支持這一參數級別,運算可全部在終端上進行,手機會成為真正的個人助理。

      但是,當前新一代旗艦版手機芯片也就可以承載運行10億參數級大模型,高通在今年6月計算機視覺學術頂會 CVPR 上,成功演示的跑在安卓系統(tǒng)上的大模型,也不過15億參數。

      參數躍升幾乎十倍,奔赴移動終端的大模型已踩下“油門”,那手機也就不得不加速升級才能應對。

      手機硬件亟需在AI加速器和內存進行革新。

      首先,更大參數的大模型,需要更大的內存和存儲空間來存儲模型參數和中間結果。這就要求移動終端內存芯片容量,以及內存接口帶寬都進行升級。

      其次,更大的參數勢必需要更強大的計算和推理能力,處理輸入數據和輸出結果。

      雖然,目前手機芯片上的AI加速器(例如各種NPU IP)幾乎已經是標配,但設計基本上是針對上一代卷積神經網絡設計,并不完全針對大模型。

      為了適配大模型,AI加速器必須能有更大的內存訪問帶寬,并減少內存訪問延遲。這就需要AI加速器的接口上做出一些改變(例如分配更多的pin給內存接口),同時也需要片上數據互聯做出相應的改變,來滿足AI加速器訪存的需求。

      高通能喊出“年內100億參數跑手機”的重要原因之一,就是其手握搭載了高通史上最快速、最先進的AI引擎的第二代驍龍8處理器,相比第一代驍龍8處理器,AI性能提升了4.35倍,能效提升60%。

      當然,超大規(guī)模參數大模型的訓練和推理,即便在云端也亟待突破五堵墻:內存墻+算力墻+通信墻+調優(yōu)墻+部署墻,手機更得一層一層去突破。

      不過,從“智能”到“人工智能”,對于手機來說,機遇大于挑戰(zhàn)。

      “創(chuàng)新周期對電子消費品的影響更為重要,甚至可以帶領一個產業(yè)走出經濟周期的影響。”榮耀終端CEO趙明判斷,當前智能手機行業(yè)就處在一個AI、5G+開啟的新一輪創(chuàng)新周期中。

      文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。

    即時

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(AVC)推總數據顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應用,“區(qū)塊鏈+政務服務”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現能力,為您的創(chuàng)作工作帶來實質性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯網標識解析體系

    9月14日,2024全球工業(yè)互聯網大會——工業(yè)互聯網標識解析專題論壇在沈陽成功舉辦。