MoA：用于圖片合成的混合注意力架構可實現(xiàn)風格參考和人物融合

2024年04月22日 10:05:05 來源：站長之家

　　在最新的研究中，提出了一種名為注意力混合模式(MoA)的新架構，旨在個性化文本到圖像擴散模型，可以實現(xiàn)風格參考和人物融合的效果。

　　受大型語言模型(LLMs)中使用的專家混合機制的啟發(fā)，MoA 通過將生成工作負載分配給兩個注意力路徑來實現(xiàn)給定主題和背景的分離生成。具體來說，MoA 保留了原始模型的先驗知識，通過固定先驗分支中的注意力層，同時通過個性化分支最小干預生成過程，學習將主題嵌入由先驗分支生成的布局和背景中。

　　一種新穎的路由機制管理著每個層中像素在這些分支之間的分布，以優(yōu)化個性化和通用內容創(chuàng)建的混合。經過訓練，MoA 能夠輕松生成高質量的個性化圖像，其主題和背景的組合和交互與原始模型生成的一樣豐富多樣。最重要的是，MoA 增強了模型的現(xiàn)有能力與新增個性化干預之間的區(qū)別，從而提供了一種之前無法實現(xiàn)的更為分離的主題 - 背景控制。

　　此外，研究還探討了 MoA 在現(xiàn)實應用中的潛力。例如，結合 MoA 和 DDIM 反演技術，可以實現(xiàn)對真實圖像中主體的替換;結合 MoA 和 ControlNet，可以實現(xiàn)帶有姿勢控制的個性化生成;MoA 甚至能夠在面部和身體形狀完全不同的情況下進行主體交換，以及輕松地在主體之間進行形態(tài)變換。這些應用展示了 MoA 在個性化圖像生成領域的潛在價值和廣泛適用性。

　　文章內容僅供閱讀，不構成投資建議，請謹慎對待。投資者據(jù)此操作，風險自擔。

[No. ]
分享到微信