正在逐步覆蓋!騰訊提醒勿為實(shí)況圖重裝微信:以免丟失微信聊天記錄iPhone16多款機(jī)型破發(fā):最高比官網(wǎng)便宜600元劉積仁不愛“湊熱鬧”,但東軟集團(tuán)喜歡“追風(fēng)口”快手電商新增近800個(gè)“0元開店”類目,推出多項(xiàng)新商入駐權(quán)益年內(nèi)狂攬五項(xiàng)第一,“字節(jié)系大模型”何以后發(fā)先至?科技云報(bào)到:有韌性才能更“任性”,云韌性構(gòu)筑業(yè)務(wù)最后一道防線阿里云盤出“BUG”客服回應(yīng):已修復(fù)圍剿BBA,比亞迪和騰勢也準(zhǔn)備出一份力阿里云服務(wù)器操作系統(tǒng)Alibaba Cloud Linux全新升級,核心場景性能提升超20%屏幕面板 10 月出貨,蘋果 M4 MacBook Air 被曝 2025Q1 發(fā)布蘋果史上最大:iPhone 16系列電池容量公布后移動互聯(lián)網(wǎng)時(shí)代,移動App兼容測試持續(xù)占據(jù)核心地位歐盟警告蘋果:六個(gè)月內(nèi)開放iPhone系統(tǒng) 否則重罰湖北省電子信息產(chǎn)業(yè)前8月實(shí)現(xiàn)營收5970億元,同比增長13.53%傳三星計(jì)劃2025年推出卷軸屏手機(jī)蘋果新專利探索折疊iPhone未來,任意表面實(shí)現(xiàn)觸敏控制蘋果iPhone16/Pro系列手機(jī)今日首銷,5999~9999元起各方媒體的聚焦關(guān)注,中南高科實(shí)力呈現(xiàn)高科“新質(zhì)”表現(xiàn)力拼多多解開了新疆的“包郵絕緣體”封印宏景智駕完成數(shù)億元C輪融資
  • 首頁 > 云計(jì)算頻道 > 大模型

    手機(jī)上0.2秒出圖、當(dāng)前速度之最,谷歌打造超快擴(kuò)散模型MobileDiffusion

    2023年12月05日 17:41:01   來源:微信公眾號 機(jī)器之心

      本文來自于微信公眾號 機(jī)器之心(ID:almosthuman2014),作者:機(jī)器之心。

      在手機(jī)等移動端側(cè)運(yùn)行 Stable Diffusion 等文生圖生成式 AI 大模型已經(jīng)成為業(yè)界追逐的熱點(diǎn)之一,其中生成速度是主要的制約因素。

      近日,來自谷歌的一篇論文「MobileDiffusion: Subsecond Text-to-Image Generation on Mobile Devices」,提出了手機(jī)端最快文生圖,在 iPhone15Pro 上只要0.2秒。論文出自 UFOGen 同一團(tuán)隊(duì),在打造超小擴(kuò)散模型的同時(shí), 采用當(dāng)前大火的 Diffusion GAN 技術(shù)路線做采樣加速。

      下面是 MobileDiffusion 一步生成的結(jié)果。

      那么,MobileDiffusion 是如何優(yōu)化得到的呢?

      讓我們先從問題出發(fā),為什么優(yōu)化是必須的。

      當(dāng)下最火的文本到圖像生成都是基于擴(kuò)散模型來實(shí)現(xiàn)的。依賴于其預(yù)訓(xùn)練模型強(qiáng)大的基本圖像生成能力和在下游微調(diào)任務(wù)上的穩(wěn)健性質(zhì), 我們看到了擴(kuò)散模型在諸如圖像編輯、可控生成、 個(gè)性化生成以及視頻生成的非凡表現(xiàn)。

      然而作為 Foundation Model, 它的不足也很明顯,主要包括了兩方面:一是擴(kuò)散模型的大量參數(shù)導(dǎo)致計(jì)算速度慢,尤其是在資源有限的情況下;二是擴(kuò)散模型需要多步才能采樣,這進(jìn)一步導(dǎo)致很慢的推理速度。拿最火的的 Stable Diffusion1.5(SD) 為例,其基礎(chǔ)模型包含了接近10億參數(shù),我們在 iPhone15Pro 上將模型量化后進(jìn)行推理,50步采樣需要接近80s。如此昂貴的資源需求和遲滯的用戶體驗(yàn)極大的限制了其在移動端的應(yīng)用場景。

      為了解決以上問題,MobileDiffusion 點(diǎn)對點(diǎn)地進(jìn)行優(yōu)化。(1) 針對模型體積龐大的問題,我們主要對其核心組件 UNet 進(jìn)行了大量試驗(yàn)及優(yōu)化,包括了將計(jì)算昂貴的卷積精簡和注意力運(yùn)算放在了較低的層上,以及針對 Mobile Devices 的操作優(yōu)化,諸如激活函數(shù)等。(2)針對擴(kuò)散模型需要多步采樣的問題, MobileDiffusion 探索并實(shí)踐了像 Progressive Distillation 和當(dāng)前最先進(jìn)的 UFOGen 的一步推理技術(shù)。

      模型優(yōu)化

      MobileDiffusion 基于當(dāng)下開源社區(qū)里最火的 SD1.5UNet 進(jìn)行優(yōu)化。在每次的優(yōu)化操作后, 會同時(shí)衡量相對于原始 UNet 模型的性能的損失,測量指標(biāo)包括 FID 和 CLIP 兩個(gè)常用 metric。

      宏觀設(shè)計(jì)

      上圖左邊是原始 UNet 的設(shè)計(jì)示意, 可以看出基本包括了 Convolution 和 Transformer,Transformer 又包括了 Self-Attention 和 Cross-Attention。

      MobileDiffusion 對 UNet 優(yōu)化的核心思路分為兩點(diǎn):1)精簡 Convolution, 眾所周知,在高分辨率的特征空間上進(jìn)行了 Convolution 是十分耗時(shí)的, 而且參數(shù)量很大,這里指的是 Full Convolution;2)提高 Attention 效率。和 Convolution 一樣,高 Attention 需要對整個(gè)特征空間的長度進(jìn)行運(yùn)算,Self-Attention 復(fù)雜度和特征空間展平后長度成平方關(guān)系,Cross-Attention 也要和空間長度成正比。

      實(shí)驗(yàn)表明將整個(gè) UNet 的16個(gè) Transformer 移到特征分辨率最低的內(nèi)層,同時(shí)每一層都剪掉一個(gè)卷積,不會對性能有明顯影響。達(dá)到的效果就是:MobileDiffusion 將原本22個(gè) Convolution 和16個(gè) Transformer,可以極致地精簡到11個(gè) Convolution 和12個(gè)左右 Transformer,并且這些注意力都是在低分辨率特征圖上進(jìn)行的,因?yàn)樾蕰䴓O大提升,帶來了40% 效率提升和40% 參數(shù)剪切,最終模型如上圖右圖所示。和更多模型的對比如下:

      微觀設(shè)計(jì)

      這里將只介紹幾種新穎的設(shè)計(jì),有興趣的讀者可以閱讀正文, 會有更詳細(xì)的介紹。

      Decouple Self-Attention and Cross-Attention

      傳統(tǒng) UNet 里 Transformer 同時(shí)包含 Self-Attention 和 Cross-Attention,MobileDiffusion 將 Self-Attention 全部放在了最低分辨率特征圖,但是保留一個(gè) Cross-Attention 在中間層,發(fā)現(xiàn)這種設(shè)計(jì)既提高了運(yùn)算效率又保證了模型出圖質(zhì)量

      Finetune softmax into relu

      softmax 眾所周知在大部分未優(yōu)化情況下是難以并行的,因此效率很低。MobileDiffusion 提出直接將 softmax 函數(shù) finetune 到 relu,因?yàn)?relu 是每一個(gè)點(diǎn)的激活,更為高效。令人驚訝的是,只需要大概一萬步的微調(diào),模型 metric 反而提升了,出圖質(zhì)量也有保障。因此 relu 相比于 softmax 的優(yōu)勢是很明顯的了。

      Separable Convolution (可分離卷積)

      MobileDiffuison 精簡參數(shù)的關(guān)鍵還在采用了 Seprable Convolution。這種技術(shù)已經(jīng)被 MobileNet 等工作證實(shí)是極為有效的,特別是移動端,但是一般在生成模型上很少采用。MobileDiffusion 實(shí)驗(yàn)發(fā)現(xiàn) Separable Convolution 對減少參數(shù)是很有效的,尤其是將其放在 UNet 最內(nèi)層,模型質(zhì)量經(jīng)分析證明是沒有損失的。

      采樣優(yōu)化

      當(dāng)下最常采用的采樣優(yōu)化方法包括了 Progressive Distillation 和 UFOGen, 分別可以做到8steps 和1step。為了證明在模型極致精簡后,這些采樣依然適用,MobileDiffusion 對兩者同時(shí)做了實(shí)驗(yàn)驗(yàn)證。

      采樣優(yōu)化前后和基準(zhǔn)模型的比較如下,可以看出采樣優(yōu)化后的8steps 和1step 的模型,指標(biāo)都是比較突出的。

      實(shí)驗(yàn)與應(yīng)用

      移動端基準(zhǔn)測試

      MobileDiffusion 在 iPhone15Pro 上可以得到當(dāng)前最快的出圖速度,0.2s!

      下游任務(wù)測試

      MobileDiffusion 探索了包括 ControlNet/Plugin 和 LoRA Finetune 的下游任務(wù)。從下圖可以看出,經(jīng)過模型和采樣優(yōu)化后,MobileDiffusion 依然保持了優(yōu)秀的模型微調(diào)能力。

      總結(jié)

      MobileDiffusion 探索了多種模型和采樣優(yōu)化方法,最終可以實(shí)現(xiàn)在移動端的亞秒級出圖能力,下游微調(diào)應(yīng)用依然有保障。我們相信這將會對今后高效的擴(kuò)散模型設(shè)計(jì)產(chǎn)生影響,并拓展移動端應(yīng)用實(shí)例。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    TCL實(shí)業(yè)榮獲IFA2024多項(xiàng)大獎,展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費(fèi)品展覽會(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計(jì)及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)成功斬獲兩項(xiàng)“IFA全球產(chǎn)品設(shè)計(jì)創(chuàng)新大獎”金獎,有力證明了其在全球市場的強(qiáng)大影響力。

    新聞

    敢闖技術(shù)無人區(qū) TCL實(shí)業(yè)斬獲多項(xiàng)AWE 2024艾普蘭獎

    近日,中國家電及消費(fèi)電子博覽會(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項(xiàng)AWE 2024艾普蘭大獎。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    研究

    2024全球開發(fā)者先鋒大會即將開幕

    由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。