正在逐步覆蓋!騰訊提醒勿為實(shí)況圖重裝微信:以免丟失微信聊天記錄iPhone16多款機(jī)型破發(fā):最高比官網(wǎng)便宜600元劉積仁不愛“湊熱鬧”,但東軟集團(tuán)喜歡“追風(fēng)口”快手電商新增近800個(gè)“0元開店”類目,推出多項(xiàng)新商入駐權(quán)益年內(nèi)狂攬五項(xiàng)第一,“字節(jié)系大模型”何以后發(fā)先至?科技云報(bào)到:有韌性才能更“任性”,云韌性構(gòu)筑業(yè)務(wù)最后一道防線阿里云盤出“BUG”客服回應(yīng):已修復(fù)圍剿BBA,比亞迪和騰勢(shì)也準(zhǔn)備出一份力阿里云服務(wù)器操作系統(tǒng)Alibaba Cloud Linux全新升級(jí),核心場(chǎng)景性能提升超20%屏幕面板 10 月出貨,蘋果 M4 MacBook Air 被曝 2025Q1 發(fā)布蘋果史上最大:iPhone 16系列電池容量公布后移動(dòng)互聯(lián)網(wǎng)時(shí)代,移動(dòng)App兼容測(cè)試持續(xù)占據(jù)核心地位歐盟警告蘋果:六個(gè)月內(nèi)開放iPhone系統(tǒng) 否則重罰湖北省電子信息產(chǎn)業(yè)前8月實(shí)現(xiàn)營(yíng)收5970億元,同比增長(zhǎng)13.53%傳三星計(jì)劃2025年推出卷軸屏手機(jī)蘋果新專利探索折疊iPhone未來,任意表面實(shí)現(xiàn)觸敏控制蘋果iPhone16/Pro系列手機(jī)今日首銷,5999~9999元起各方媒體的聚焦關(guān)注,中南高科實(shí)力呈現(xiàn)高科“新質(zhì)”表現(xiàn)力拼多多解開了新疆的“包郵絕緣體”封印宏景智駕完成數(shù)億元C輪融資
  • 首頁(yè) > 云計(jì)算頻道 > 大模型

    把大模型裝進(jìn)手機(jī) 分幾步?

    2023年08月08日 10:04:05   來源:光錐智能

      文 |  姚   悅

      編 | 王一粟

      大模型“跑”進(jìn)手機(jī),AI的戰(zhàn)火已經(jīng)從“云端”燒至“移動(dòng)終端”。

      “進(jìn)入AI時(shí)代,華為盤古大模型將會(huì)來助力鴻蒙生態(tài)。”8月4日,華為常務(wù)董事、終端BG CEO、智能汽車解決方案BU CEO 余承東介紹,通過盤古大模型的底層技術(shù),Harmony OS帶來了下一代智能終端操作系統(tǒng)。

      在手機(jī)上使用大模型早已不是新鮮事,此前ChatGPT、文心一言、妙鴨等APP、小程序都是通過調(diào)用云端算力,滿足手機(jī)終端AI應(yīng)用的需求。

      下一步,則是讓大模型直接運(yùn)行在手機(jī)上。

      從今年四、五月開始,美國(guó)科技三巨頭——高通、微軟、英偉達(dá),最受矚目的AI新星OpenAI,以及國(guó)內(nèi)AI“頭部戰(zhàn)隊(duì)”的騰訊、百度等,都已經(jīng)紛紛加速推進(jìn)在移動(dòng)終端的輕量化部署AI大模型。高通甚至宣布,正在逐漸轉(zhuǎn)型成一家智能邊緣計(jì)算(在移動(dòng)終端等數(shù)據(jù)源頭提供計(jì)算服務(wù))的公司。

      巨頭的群力強(qiáng)推下,大模型從云到端邁進(jìn)的產(chǎn)業(yè)趨勢(shì)已經(jīng)十分明確。

      大模型為什么

      要“跑”在手機(jī)上?

      大模型的最大特點(diǎn)就是“大”,動(dòng)輒百億千億甚至萬億參數(shù),且為了更好運(yùn)行大模型,算力集群都已經(jīng)升級(jí)到“萬卡”級(jí)別。如今,為什么又非要把大模型“塞”進(jìn)巴掌大的小手機(jī)?

      大模型確實(shí)會(huì)給手機(jī)用戶帶來一些體驗(yàn)上的提升。例如,華為終端智能助手小藝不僅可以根據(jù)語(yǔ)音提示推薦餐廳,還可以進(jìn)行摘要總結(jié)、信息檢索、多語(yǔ)種翻譯等信息處理,數(shù)千字的英文長(zhǎng)文,具備大模型能力的手機(jī)智能助手就可以生成摘要,還可以翻譯成中文。尤其后一點(diǎn),在信息爆炸時(shí)代,對(duì)于提高學(xué)習(xí)工作效率還是很有價(jià)值的。

      華為終端BG AI與智能全場(chǎng)景業(yè)務(wù)部總裁賈永利解釋,一方面,大語(yǔ)言模型具備泛化能力,能夠幫助手機(jī)智能助手提升理解能力。另一方面,大模型Plug-in的插件能力,可以在手機(jī)內(nèi)部打通各應(yīng)用之間的壁壘,借助工具拓展能力。

      此外,ChatGPT等AIGC應(yīng)用一直以來都伴隨著強(qiáng)烈的隱私安全爭(zhēng)議,但如果完全在端側(cè)運(yùn)行,就能夠完全避免這一問題。因?yàn)榇竽P驮诙藗?cè)運(yùn)行,數(shù)據(jù)也不會(huì)離開端側(cè)。而且,這樣響應(yīng)的速度還會(huì)更快。

      另一邊,大模型對(duì)于到手機(jī)等移動(dòng)終端的需求也已經(jīng)非常迫切。

      大模型的洶涌之勢(shì)讓云端越來越無法獨(dú)自承載算力的需求。高通高級(jí)副總裁Alex Katouzian近期就直言,“隨著連接設(shè)備和數(shù)據(jù)流量加速增長(zhǎng),疊加數(shù)據(jù)中心成本攀升,(我們)不可能將所有內(nèi)容都發(fā)送到云端。”

      不算數(shù)據(jù)傳輸要消耗網(wǎng)絡(luò)帶寬、存儲(chǔ),以及硬件等大量資源,光是云端算力現(xiàn)在已經(jīng)讓相關(guān)廠商有些吃不消。ChatGPT僅在推理階段,保守估計(jì)每個(gè)月算力成本在1000萬美元左右。

      最大的問題還不是“貴”,而是“缺”。

      此前,就連OpenAI創(chuàng)始人Sam Altaman都自曝GPU很缺,甚至直言不希望太多人用ChatGPT。近期,也有業(yè)內(nèi)人士推測(cè),小型和大型云提供商的大規(guī)模H100集群容量即將耗盡,H100的需求趨勢(shì)至少會(huì)持續(xù)到2024年底。當(dāng)前英偉達(dá)H100的產(chǎn)能還嚴(yán)重受制于供應(yīng)鏈。

      所以,云端和終端形成配合,手機(jī)等終端閑置算力資源被利用起來,解決“集中式”算力與“分布式”需求的錯(cuò)配,已經(jīng)成為大模型發(fā)展“降本增效”的確定趨勢(shì)。更重要的是,相比數(shù)量有限的中心節(jié)點(diǎn),眾多的移動(dòng)終端堪稱觸及萬千場(chǎng)景的“毛細(xì)血管”,也就決定了這一入口會(huì)是大模型加速應(yīng)用滲透的關(guān)鍵。

      如何把大模型“裝進(jìn)口袋”?

      “相比傳統(tǒng)的PC或者服務(wù)器,移動(dòng)終端最大的挑戰(zhàn)就是如何平衡好體驗(yàn)和能耗,這是鴻蒙內(nèi)核設(shè)計(jì)最重要的核心點(diǎn)之一。”華為終端業(yè)務(wù)軟件部總裁龔體強(qiáng)調(diào)。

      大模型需要大量的計(jì)算資源和存儲(chǔ)資源,尤其是基于現(xiàn)有的手機(jī)硬件配置,這就需要軟件系統(tǒng)做好協(xié)調(diào),提升效率降低能耗。

      現(xiàn)在手機(jī)為了提高性能,至少是8個(gè)芯片內(nèi)核,就需要手機(jī)系統(tǒng)做協(xié)同,這個(gè)過程就會(huì)消耗大量算力。如果采用異構(gòu)資源調(diào)度,就可以高效協(xié)調(diào)CPU、GPU、NPU。龔體表示,這樣調(diào)度效率可以提升60%以上。

      手機(jī)系統(tǒng)能夠進(jìn)行運(yùn)算,調(diào)度的最小單位叫做線程,傳統(tǒng)的操作系統(tǒng)中往往上萬線程同時(shí)運(yùn)行,其中就會(huì)存在大量無效線程。針對(duì)這點(diǎn),就可以通過更輕量的并發(fā)模型來處理并發(fā)操作,降低無效線程切換對(duì)算力的消耗。據(jù)龔體說,并發(fā)模型可以讓任務(wù)切換開銷節(jié)省50%。

      另外,在操作系統(tǒng)的任務(wù)調(diào)度方面,這也是影響流暢體驗(yàn)的最基本要素,相比公平調(diào)度,動(dòng)態(tài)優(yōu)先級(jí)調(diào)度會(huì)很大程度降低能耗。動(dòng)態(tài)優(yōu)先級(jí)調(diào)度就類似于一個(gè)智能交通系統(tǒng),可以根據(jù)道路狀況和交通流量,動(dòng)態(tài)調(diào)整交通信號(hào)燈亮起狀態(tài),如當(dāng)某個(gè)方向的車流增加時(shí),該方向的信號(hào)燈就提前變綠,就會(huì)減少擁堵和延遲。

      不過,要想讓大模型部署到手機(jī)上,還能運(yùn)轉(zhuǎn)起來,光是手機(jī)操作系統(tǒng)升級(jí)改進(jìn)還遠(yuǎn)遠(yuǎn)不夠。

      隨著大模型預(yù)測(cè)越來越準(zhǔn)確,網(wǎng)絡(luò)越來越深,神經(jīng)網(wǎng)絡(luò)消耗的內(nèi)存容量已成為核心問題。同時(shí),還涉及內(nèi)存帶寬的問題,網(wǎng)路運(yùn)行時(shí),內(nèi)存、CPU和電池都會(huì)飛速消耗,這絕對(duì)是現(xiàn)在的手機(jī)難以承受之重。

      因此,在部署到手機(jī)之前,就必須對(duì)大模型進(jìn)行壓縮,以降低對(duì)推理算力的需求。但是,一定要確保原有性能和精度基本不變。

      量化就是一種常見且重要的壓縮操作,可以減少模型占用的內(nèi)存空間,提高推理性能。本質(zhì)上就是將浮點(diǎn)運(yùn)算模型轉(zhuǎn)化為整數(shù)運(yùn)算模型,因?yàn)檎麛?shù)運(yùn)算比浮點(diǎn)運(yùn)算精度更高,運(yùn)算速度也更快。

      當(dāng)前,量化技術(shù)也已經(jīng)在加速突破。服務(wù)器上訓(xùn)練的模型一般采用32位浮點(diǎn)運(yùn)算(FP32),在手機(jī)端,高通已經(jīng)將FP32模型量化壓縮到INT4模型,實(shí)現(xiàn)64內(nèi)存和計(jì)算能效提升。高通的實(shí)現(xiàn)數(shù)據(jù)表明,在借助高通的量化感知訓(xùn)練后,不少AIGC模型可以量化至INT4模型,與INT8相比,性能提升約90%,能效提升大約60%。

      大模型壓縮技術(shù),無疑是AI巨頭制勝移動(dòng)終端戰(zhàn)場(chǎng)的關(guān)鍵因素。這也在一定程度上,解釋了英偉達(dá)在今年2月為什么“悄悄”收購(gòu)了掌握壓縮大模型技術(shù)的人工智能初創(chuàng)公司OmniML。

      大模型倒逼終端硬件升級(jí)

      “本年度我們將能夠支持參數(shù)達(dá)100億的生成式AI模型在手機(jī)上運(yùn)行。”高通產(chǎn)品管理高級(jí)副總裁兼AI負(fù)責(zé)人Ziad Asghar近期則對(duì)外表示,100億-150億參數(shù)的模型可以覆蓋絕大多數(shù)AIGC用例。如果終端已經(jīng)可以支持這一參數(shù)級(jí)別,運(yùn)算可全部在終端上進(jìn)行,手機(jī)會(huì)成為真正的個(gè)人助理。

      但是,當(dāng)前新一代旗艦版手機(jī)芯片也就可以承載運(yùn)行10億參數(shù)級(jí)大模型,高通在今年6月計(jì)算機(jī)視覺學(xué)術(shù)頂會(huì) CVPR 上,成功演示的跑在安卓系統(tǒng)上的大模型,也不過15億參數(shù)。

      參數(shù)躍升幾乎十倍,奔赴移動(dòng)終端的大模型已踩下“油門”,那手機(jī)也就不得不加速升級(jí)才能應(yīng)對(duì)。

      手機(jī)硬件亟需在AI加速器和內(nèi)存進(jìn)行革新。

      首先,更大參數(shù)的大模型,需要更大的內(nèi)存和存儲(chǔ)空間來存儲(chǔ)模型參數(shù)和中間結(jié)果。這就要求移動(dòng)終端內(nèi)存芯片容量,以及內(nèi)存接口帶寬都進(jìn)行升級(jí)。

      其次,更大的參數(shù)勢(shì)必需要更強(qiáng)大的計(jì)算和推理能力,處理輸入數(shù)據(jù)和輸出結(jié)果。

      雖然,目前手機(jī)芯片上的AI加速器(例如各種NPU IP)幾乎已經(jīng)是標(biāo)配,但設(shè)計(jì)基本上是針對(duì)上一代卷積神經(jīng)網(wǎng)絡(luò)設(shè)計(jì),并不完全針對(duì)大模型。

      為了適配大模型,AI加速器必須能有更大的內(nèi)存訪問帶寬,并減少內(nèi)存訪問延遲。這就需要AI加速器的接口上做出一些改變(例如分配更多的pin給內(nèi)存接口),同時(shí)也需要片上數(shù)據(jù)互聯(lián)做出相應(yīng)的改變,來滿足AI加速器訪存的需求。

      高通能喊出“年內(nèi)100億參數(shù)跑手機(jī)”的重要原因之一,就是其手握搭載了高通史上最快速、最先進(jìn)的AI引擎的第二代驍龍8處理器,相比第一代驍龍8處理器,AI性能提升了4.35倍,能效提升60%。

      當(dāng)然,超大規(guī)模參數(shù)大模型的訓(xùn)練和推理,即便在云端也亟待突破五堵墻:內(nèi)存墻+算力墻+通信墻+調(diào)優(yōu)墻+部署墻,手機(jī)更得一層一層去突破。

      不過,從“智能”到“人工智能”,對(duì)于手機(jī)來說,機(jī)遇大于挑戰(zhàn)。

      “創(chuàng)新周期對(duì)電子消費(fèi)品的影響更為重要,甚至可以帶領(lǐng)一個(gè)產(chǎn)業(yè)走出經(jīng)濟(jì)周期的影響。”榮耀終端CEO趙明判斷,當(dāng)前智能手機(jī)行業(yè)就處在一個(gè)AI、5G+開啟的新一輪創(chuàng)新周期中。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    TCL實(shí)業(yè)榮獲IFA2024多項(xiàng)大獎(jiǎng),展示全球科技創(chuàng)新力量

    近日,德國(guó)柏林國(guó)際電子消費(fèi)品展覽會(huì)(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計(jì)及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)成功斬獲兩項(xiàng)“IFA全球產(chǎn)品設(shè)計(jì)創(chuàng)新大獎(jiǎng)”金獎(jiǎng),有力證明了其在全球市場(chǎng)的強(qiáng)大影響力。

    新聞

    敢闖技術(shù)無人區(qū) TCL實(shí)業(yè)斬獲多項(xiàng)AWE 2024艾普蘭獎(jiǎng)

    近日,中國(guó)家電及消費(fèi)電子博覽會(huì)(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項(xiàng)AWE 2024艾普蘭大獎(jiǎng)。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    “純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

    2024年3月12日,由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會(huì)在上海盛大舉行。

    研究

    2024全球開發(fā)者先鋒大會(huì)即將開幕

    由世界人工智能大會(huì)組委會(huì)、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會(huì)共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會(huì)聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開放原子開源基金會(huì)主辦的“2024全球開發(fā)者先鋒大會(huì)”,將于2024年3月23日至24日舉辦。