新文生圖模型PIXART-δ:引入ControlNet，加速文本生成圖像生成

2024年01月17日 18:02:59 來源：站長之家

　　1月17日消息:近年來，文本到圖像生成模型的需求不斷增長，但高質(zhì)量圖像的生成往往面臨資源密集型訓練和慢推理的挑戰(zhàn)，制約了其實時應用。本文介紹了PIXART-δ，這是PIXART-α框架的先進版本，無縫整合了Latent Consistency Models(LCM)和定制的ControlNet模塊。

　　PIXART-α以其高效的訓練和優(yōu)越的圖像生成質(zhì)量而聞名，為PIXART-δ提供了堅實的基礎。LCM加速推理過程，僅需在預訓練的Latent Diffusion Models(LDMs)上進行2∼4步操作即可生成高質(zhì)量樣本。這一改進使得PIXART-δ在A100GPU上實現(xiàn)了每秒0.5秒的驚人推理速度，相比PIXART-α提高了7倍。

　　在將ControlNet引入PIXART-δ時，由于其原本是為UNet架構(gòu)設計的，當應用于基于Transformer的模型時，提出了一種新穎的ControlNet-Transformer架構(gòu)。該設計在Transformer的初始N個基本塊上選擇性地應用ControlNet結(jié)構(gòu)，顯著提高了可控性和性能。

　　訓練過程利用了Latent Consistency Distillation(LCD)，這是原始Consistency Distillation(CD)算法的改進版本。通過算法1中的Classifier-Free Guidance(CFG)的PIXART-δ偽代碼，Teacher、Student和EMA Model(圖1中)充當ODE求解器的去噪器。創(chuàng)新的LCD算法通過FID和CLIP分數(shù)的評估展示了其有效性。

　　PIXART-δ的訓練效率是一個重要亮點，成功在32GB GPU內(nèi)存限制下進行蒸餾過程，支持高達1024×1024的圖像分辨率。這種效率使得PIXART-δ能夠在普通消費級GPU上進行訓練，擴大了其可訪問性。

　　在推理速度方面，PIXART-δ在不同硬件平臺上都優(yōu)于類似方法，如SDXL LCM-LoRA、PIXART-α和SDXL標準。僅需四個步驟，PIXART-δ在生成速度上保持領先地位，相比PIXART-α和SDXL標準所需的14和25步，展現(xiàn)了其高效性。

　　引入ControlNet到PIXART-δ中涉及將原始零卷積替換為專為Transformer架構(gòu)定制的零線性層。ControlNet-Transformer設計在圖4(c)中展示，選擇性地將ControlNet應用于初始N個基本塊，實現(xiàn)了對可控性和整體性能的無縫整合。

　　對ControlNet-Transformer進行的割除研究顯示了其卓越性能，展示了在不同場景下更快的收斂速度和改善的性能。復制塊的數(shù)量(N)發(fā)現(xiàn)對性能產(chǎn)生影響，對于大多數(shù)場景，N =1可以獲得令人滿意的結(jié)果，但在N增加的情況下在具有挑戰(zhàn)性的邊緣條件下性能得到改善。

　　分析訓練步驟對ControlNet-Transformer(N =13)的影響，團隊觀察到快速收斂，特別是在提高輪廓邊緣質(zhì)量方面，尤其在處理人臉和身體的情況下尤為明顯。ControlNet-Transformer的效率和效果進一步強調(diào)了其在實時應用中的潛力。

　　PIXART-δ代表了文本到圖像生成領域的重大進展，將Latent Consistency Models的加速采樣與ControlNet-Transformer的精確控制相結(jié)合。廣泛的實驗展示了PIXART-δ更快的采樣速度和ControlNet-Transformer在高分辨率和受控圖像生成方面的有效性。這一模型站在最前沿，為實時應用開辟了新的可能性。

　　PIXART-α核心特色功能可以總結(jié)如下:

　　1. **高級圖像處理技術(shù):** PIXART-α采用先進的圖像處理算法，能夠?qū)崿F(xiàn)高質(zhì)量、高清晰度的圖像處理，提高圖像的視覺效果。

　　2. **實時性能:** 該技術(shù)具有快速的實時性能，能夠在實時應用中處理圖像，并在短時間內(nèi)生成優(yōu)質(zhì)結(jié)果。

　　3. **低功耗設計:** PIXART-α注重能效，采用低功耗設計，適用于需要長時間運行的設備，有助于延長電池壽命。

　　4. **多場景適應性:** 這一技術(shù)具有廣泛的適應性，可以在多種場景下應用，包括移動設備、攝像頭、智能家居等領域。

　　5. **智能識別功能:** PIXART-α內(nèi)置智能識別功能，能夠識別圖像中的對象、場景等，提高圖像分析的準確性和效率。

　　6. **支持多種圖像格式:** 該技術(shù)支持處理多種圖像格式，使其更具靈活性，能夠適應不同的圖像輸入源。

　　7. **卓越的噪聲抑制:** PIXART-α集成了卓越的噪聲抑制技術(shù)，有效提高圖像質(zhì)量，減少由于噪聲引起的視覺干擾。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹慎對待。投資者據(jù)此操作，風險自擔。

[No. ]
分享到微信