冰雪大世界盛大開園,美的空調(diào)橫跨50℃打造“東北夏威夷”臺(tái)灣小土豆勇闖冰雪大世界,美的空調(diào)真暖快車成為最熱打卡點(diǎn)京東iPhone 16系列年底大放價(jià)!至高補(bǔ)貼1200元價(jià)格低過11.11新一季圓滿假期結(jié)伴大使出發(fā)在即 LG電子十年相伴助力溫暖傳遞中國聯(lián)通組織“魅力亞冬,與智慧同行” 主題采訪活動(dòng)“萬象分區(qū)”引領(lǐng)電視行業(yè)新潮流,TCL這步棋下得著實(shí)漂亮!百度職業(yè)院校專屬項(xiàng)目“大國智匠”引領(lǐng)職業(yè)教育新范式百度大模型助力2024年碼蹄杯程序設(shè)計(jì)大賽,全國高校學(xué)子展現(xiàn)卓越編程實(shí)力碼蹄杯人物特寫:四位編程少年的追夢之旅金倉數(shù)據(jù)庫四項(xiàng)成果入選2024星河案例亞信科技參加2024通信產(chǎn)業(yè)大會(huì) CTO歐陽曄博士等做主題演講用專業(yè)贏得信賴 美好蘊(yùn)育潤康引領(lǐng)孕產(chǎn)營養(yǎng)新風(fēng)尚解鎖新成就!愛企查“度秘書”粉絲突破10萬!英特爾終止x86S架構(gòu)計(jì)劃:純64位設(shè)計(jì)再度戛然而止豆包大模型全面升級(jí),相關(guān)概念股瘋漲,字節(jié)發(fā)布緊急警示申通、圓通、韻達(dá)發(fā)布 11 月簡報(bào):快遞業(yè)務(wù)量、收入均同比增長,單票收入均下降SensorTower發(fā)11月中國手游全球收入排行榜 庫洛入榜“YO!原”千里來相會(huì) 華為智能生活館·太原茂業(yè)重裝開業(yè)微軟承認(rèn)并調(diào)查Microsoft 365 應(yīng)用出現(xiàn)“產(chǎn)品已停用”錯(cuò)誤SK 海力士被曝贏得博通HBM訂單,預(yù)計(jì)明年 1b DRAM 月產(chǎn)能將擴(kuò)大到 16~17 萬片
  • 首頁 > 云計(jì)算頻道 > 大模型

    手機(jī)上0.2秒出圖、當(dāng)前速度之最,谷歌打造超快擴(kuò)散模型MobileDiffusion

    2023年12月05日 17:41:01   來源:微信公眾號(hào) 機(jī)器之心

      本文來自于微信公眾號(hào) 機(jī)器之心(ID:almosthuman2014),作者:機(jī)器之心。

      在手機(jī)等移動(dòng)端側(cè)運(yùn)行 Stable Diffusion 等文生圖生成式 AI 大模型已經(jīng)成為業(yè)界追逐的熱點(diǎn)之一,其中生成速度是主要的制約因素。

      近日,來自谷歌的一篇論文「MobileDiffusion: Subsecond Text-to-Image Generation on Mobile Devices」,提出了手機(jī)端最快文生圖,在 iPhone15Pro 上只要0.2秒。論文出自 UFOGen 同一團(tuán)隊(duì),在打造超小擴(kuò)散模型的同時(shí), 采用當(dāng)前大火的 Diffusion GAN 技術(shù)路線做采樣加速。

      下面是 MobileDiffusion 一步生成的結(jié)果。

      那么,MobileDiffusion 是如何優(yōu)化得到的呢?

      讓我們先從問題出發(fā),為什么優(yōu)化是必須的。

      當(dāng)下最火的文本到圖像生成都是基于擴(kuò)散模型來實(shí)現(xiàn)的。依賴于其預(yù)訓(xùn)練模型強(qiáng)大的基本圖像生成能力和在下游微調(diào)任務(wù)上的穩(wěn)健性質(zhì), 我們看到了擴(kuò)散模型在諸如圖像編輯、可控生成、 個(gè)性化生成以及視頻生成的非凡表現(xiàn)。

      然而作為 Foundation Model, 它的不足也很明顯,主要包括了兩方面:一是擴(kuò)散模型的大量參數(shù)導(dǎo)致計(jì)算速度慢,尤其是在資源有限的情況下;二是擴(kuò)散模型需要多步才能采樣,這進(jìn)一步導(dǎo)致很慢的推理速度。拿最火的的 Stable Diffusion1.5(SD) 為例,其基礎(chǔ)模型包含了接近10億參數(shù),我們?cè)?iPhone15Pro 上將模型量化后進(jìn)行推理,50步采樣需要接近80s。如此昂貴的資源需求和遲滯的用戶體驗(yàn)極大的限制了其在移動(dòng)端的應(yīng)用場景。

      為了解決以上問題,MobileDiffusion 點(diǎn)對(duì)點(diǎn)地進(jìn)行優(yōu)化。(1) 針對(duì)模型體積龐大的問題,我們主要對(duì)其核心組件 UNet 進(jìn)行了大量試驗(yàn)及優(yōu)化,包括了將計(jì)算昂貴的卷積精簡和注意力運(yùn)算放在了較低的層上,以及針對(duì) Mobile Devices 的操作優(yōu)化,諸如激活函數(shù)等。(2)針對(duì)擴(kuò)散模型需要多步采樣的問題, MobileDiffusion 探索并實(shí)踐了像 Progressive Distillation 和當(dāng)前最先進(jìn)的 UFOGen 的一步推理技術(shù)。

      模型優(yōu)化

      MobileDiffusion 基于當(dāng)下開源社區(qū)里最火的 SD1.5UNet 進(jìn)行優(yōu)化。在每次的優(yōu)化操作后, 會(huì)同時(shí)衡量相對(duì)于原始 UNet 模型的性能的損失,測量指標(biāo)包括 FID 和 CLIP 兩個(gè)常用 metric。

      宏觀設(shè)計(jì)

      上圖左邊是原始 UNet 的設(shè)計(jì)示意, 可以看出基本包括了 Convolution 和 Transformer,Transformer 又包括了 Self-Attention 和 Cross-Attention。

      MobileDiffusion 對(duì) UNet 優(yōu)化的核心思路分為兩點(diǎn):1)精簡 Convolution, 眾所周知,在高分辨率的特征空間上進(jìn)行了 Convolution 是十分耗時(shí)的, 而且參數(shù)量很大,這里指的是 Full Convolution;2)提高 Attention 效率。和 Convolution 一樣,高 Attention 需要對(duì)整個(gè)特征空間的長度進(jìn)行運(yùn)算,Self-Attention 復(fù)雜度和特征空間展平后長度成平方關(guān)系,Cross-Attention 也要和空間長度成正比。

      實(shí)驗(yàn)表明將整個(gè) UNet 的16個(gè) Transformer 移到特征分辨率最低的內(nèi)層,同時(shí)每一層都剪掉一個(gè)卷積,不會(huì)對(duì)性能有明顯影響。達(dá)到的效果就是:MobileDiffusion 將原本22個(gè) Convolution 和16個(gè) Transformer,可以極致地精簡到11個(gè) Convolution 和12個(gè)左右 Transformer,并且這些注意力都是在低分辨率特征圖上進(jìn)行的,因?yàn)樾蕰?huì)極大提升,帶來了40% 效率提升和40% 參數(shù)剪切,最終模型如上圖右圖所示。和更多模型的對(duì)比如下:

      微觀設(shè)計(jì)

      這里將只介紹幾種新穎的設(shè)計(jì),有興趣的讀者可以閱讀正文, 會(huì)有更詳細(xì)的介紹。

      Decouple Self-Attention and Cross-Attention

      傳統(tǒng) UNet 里 Transformer 同時(shí)包含 Self-Attention 和 Cross-Attention,MobileDiffusion 將 Self-Attention 全部放在了最低分辨率特征圖,但是保留一個(gè) Cross-Attention 在中間層,發(fā)現(xiàn)這種設(shè)計(jì)既提高了運(yùn)算效率又保證了模型出圖質(zhì)量

      Finetune softmax into relu

      softmax 眾所周知在大部分未優(yōu)化情況下是難以并行的,因此效率很低。MobileDiffusion 提出直接將 softmax 函數(shù) finetune 到 relu,因?yàn)?relu 是每一個(gè)點(diǎn)的激活,更為高效。令人驚訝的是,只需要大概一萬步的微調(diào),模型 metric 反而提升了,出圖質(zhì)量也有保障。因此 relu 相比于 softmax 的優(yōu)勢是很明顯的了。

      Separable Convolution (可分離卷積)

      MobileDiffuison 精簡參數(shù)的關(guān)鍵還在采用了 Seprable Convolution。這種技術(shù)已經(jīng)被 MobileNet 等工作證實(shí)是極為有效的,特別是移動(dòng)端,但是一般在生成模型上很少采用。MobileDiffusion 實(shí)驗(yàn)發(fā)現(xiàn) Separable Convolution 對(duì)減少參數(shù)是很有效的,尤其是將其放在 UNet 最內(nèi)層,模型質(zhì)量經(jīng)分析證明是沒有損失的。

      采樣優(yōu)化

      當(dāng)下最常采用的采樣優(yōu)化方法包括了 Progressive Distillation 和 UFOGen, 分別可以做到8steps 和1step。為了證明在模型極致精簡后,這些采樣依然適用,MobileDiffusion 對(duì)兩者同時(shí)做了實(shí)驗(yàn)驗(yàn)證。

      采樣優(yōu)化前后和基準(zhǔn)模型的比較如下,可以看出采樣優(yōu)化后的8steps 和1step 的模型,指標(biāo)都是比較突出的。

      實(shí)驗(yàn)與應(yīng)用

      移動(dòng)端基準(zhǔn)測試

      MobileDiffusion 在 iPhone15Pro 上可以得到當(dāng)前最快的出圖速度,0.2s!

      下游任務(wù)測試

      MobileDiffusion 探索了包括 ControlNet/Plugin 和 LoRA Finetune 的下游任務(wù)。從下圖可以看出,經(jīng)過模型和采樣優(yōu)化后,MobileDiffusion 依然保持了優(yōu)秀的模型微調(diào)能力。

      總結(jié)

      MobileDiffusion 探索了多種模型和采樣優(yōu)化方法,最終可以實(shí)現(xiàn)在移動(dòng)端的亞秒級(jí)出圖能力,下游微調(diào)應(yīng)用依然有保障。我們相信這將會(huì)對(duì)今后高效的擴(kuò)散模型設(shè)計(jì)產(chǎn)生影響,并拓展移動(dòng)端應(yīng)用實(shí)例。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實(shí)力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專題論壇在沈陽成功舉辦。