MIT研究員推新AI圖片生成框架DMD：AI 單步生成高質(zhì)量圖像速度快30倍

2024年03月22日 13:59:16 來源：站長之家

　　在當(dāng)今人工智能時代，計算機可以通過擴散模型生成自己的 “藝術(shù)”，逐步向嘈雜的初始狀態(tài)添加結(jié)構(gòu)，直到清晰的圖像或視頻出現(xiàn)。

　　擴散模型突然變得異常受歡迎:輸入幾個詞，即可體驗現(xiàn)實與幻想交匯的夢幻景象。在幕后，這涉及一個復(fù)雜、耗時的過程，需要算法多次迭代才能完美圖像。

　　麻省理工學(xué)院計算機科學(xué)與人工智能實驗室(CSAIL)的研究人員引入了一個新框架，將傳統(tǒng)擴散模型的多步過程簡化為單步，解決了先前的限制。這是通過一種教師 - 學(xué)生模型實現(xiàn)的:教導(dǎo)一個新的計算機模型模仿生成圖像的更復(fù)雜原始模型的行為。

　　這種方法稱為分配匹配蒸餾(DMD)，保留了生成圖像的質(zhì)量，同時實現(xiàn)了更快的生成速度。

　　DMD 巧妙地包含兩個組成部分。首先，它使用回歸損失，錨定映射以確保對圖像空間的粗略組織，使訓(xùn)練更穩(wěn)定。接下來，它使用分配匹配損失，確保使用學(xué)生模型生成給定圖像的概率與其在真實世界中出現(xiàn)的頻率相對應(yīng)。通過利用兩個擴散模型作為指導(dǎo)，幫助系統(tǒng)理解真實圖像與生成圖像之間的差異，并使訓(xùn)練快速的單步生成器成為可能。

　　該系統(tǒng)通過訓(xùn)練一個新網(wǎng)絡(luò)來最小化其生成的圖像與傳統(tǒng)擴散模型使用的訓(xùn)練數(shù)據(jù)集中的圖像之間的分布差異來實現(xiàn)更快的生成。該團隊使用預(yù)訓(xùn)練網(wǎng)絡(luò)來簡化新學(xué)生模型的過程。通過復(fù)制和微調(diào)原始模型的參數(shù)，團隊實現(xiàn)了新模型的快速訓(xùn)練收斂，該模型能夠使用相同的架構(gòu)基礎(chǔ)生成高質(zhì)量圖像。

　　在與通常方法的對比測試中，DMD 表現(xiàn)一致。在基于 ImageNet 特定類別生成圖像的流行基準(zhǔn)測試中，DMD 是第一個單步擴散技術(shù)，幾乎與原始、更復(fù)雜模型的圖像媲美，具有非常接近的 Fréchet inception distance(FID)分?jǐn)?shù)，這是令人印象深刻的，因為 FID 是評判生成圖像質(zhì)量和多樣性的指標(biāo)。

　　此外，DMD 在工業(yè)規(guī)模的文本到圖像生成中表現(xiàn)出色，并實現(xiàn)了最先進的單步生成性能。在處理更棘手的文本到圖像應(yīng)用時，仍然存在一些質(zhì)量差距，這表明未來還有改進的空間。

　　DMD 生成的圖像性能與蒸餾過程中使用的教師模型的能力密切相關(guān)。當(dāng)前版本使用 Stable Diffusion v1.5作為教師模型，學(xué)生繼承了一些限制，如渲染文本和小臉部的細(xì)節(jié)描繪，這表明更先進的教師模型可能進一步提升 DMD 生成的圖像。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險自擔(dān)。

[No. ]
分享到微信