文生圖參數(shù)量升至240億！Playground v3發(fā)布：深度融合LLM，圖形設(shè)計能力超越人類

2024年10月08日 10:45:35 來源：新智元公眾號

　　Playground Research推出了新一代文本到圖像模型PGv3，具備240億參數(shù)量，采用深度融合的大型語言模型，實現(xiàn)了在圖形設(shè)計和遵循文本提示指令上甚至超越了人類設(shè)計師，同時支持精確的RGB顏色控制和多語言識別。

　　自去年以來，文本到圖像生成模型取得了巨大進展，模型的架構(gòu)從傳統(tǒng)的基于UNet逐漸轉(zhuǎn)變?yōu)榛赥ransformer的模型。

　　Playground Research最近發(fā)布了一篇論文，詳細介紹了團隊最新的、基于DiT的擴散模型Playground v3(簡稱PGv3)，將模型參數(shù)量擴展到240億，在多個測試基準上達到了最先進的性能，更擅長圖形設(shè)計。

　　與傳統(tǒng)依賴于預(yù)訓(xùn)練語言模型如T5或CLIP文本編碼器的文本到圖像生成模型不同，PGv3完全集成了大型語言模型(LLMs)，基于全新的深度融合(Deep-Fusion)架構(gòu)，利用僅解碼器(decoder-only)大型語言模型的知識，來進行文本到圖像生成任務(wù)。

　　此外，為了提高圖像描述的質(zhì)量，研究人員開發(fā)了一個內(nèi)部描述生成器(in-house captioner)，能夠生成不同詳細程度的描述，豐富了文本結(jié)構(gòu)的多樣性，還引入了一個新的基準CapsBench來評估詳細的圖像描述性能。

　　實驗結(jié)果表明，PGv3在文本提示遵循、復(fù)雜推理和文本渲染準確率方面表現(xiàn)出色;用戶偏好研究表明，PGv3模型在常見的設(shè)計應(yīng)用中，如表情包(stickers)、海報和logo設(shè)計，具有超越人類的圖形設(shè)計能力，還能夠精確控制RGB顏色和多語言理解。

　　PGv3模型架構(gòu)

　　Playground v3(PGv3)是一個潛擴散模型(LDM)，使用EDM公式進行訓(xùn)練。像DALL-E3、Imagen2和Stable Diffusion3等其他模型一樣，PGv3旨在執(zhí)行文本到圖像(t2i)生成任務(wù)。

　　PGv3完全集成了一個大型語言模型(Llama3-8B)，以增強其在提示理解和遵循方面的能力。

　　文本編碼器

　　Transformer模型中的每層捕捉到的表示不同，包含不同級別的單詞級和句子級信息，標準做法是使用T5編碼器或CLIP文本編碼器的最后一層輸出，或是結(jié)合倒數(shù)第二層的輸出，不過，研究人員發(fā)現(xiàn)選擇用于調(diào)節(jié)文本轉(zhuǎn)圖像模型的最佳層非常麻煩，特別是使用解碼器風(fēng)格的大型語言模型時，具有更復(fù)雜的內(nèi)部表示。

　　研究人員認為，信息流通過LLM每層的連續(xù)性是其生成能力的關(guān)鍵，而LLM中的知識橫跨了所有層，而不是被某一層的輸出所封裝，所以PGv3在設(shè)計時，復(fù)制了LLM的所有Transformer塊，可以從LLM的每個對應(yīng)層中都獲取隱藏嵌入輸出。

　　這種方法可以充分利用LLM完整的「思考過程」，能夠引導(dǎo)模型模仿LLM的推理和生成過程，所以在生成圖像時，可以實現(xiàn)更好的提示遵循和一致性能力。

　　模型結(jié)構(gòu)

　　PGv3采用了DiT風(fēng)格的模型結(jié)構(gòu)，圖像模型中的每個Transformer塊都設(shè)置得與語言模型(Llama3-8B)中的對應(yīng)塊相同，僅包含一個注意力層和一個前饋層，參數(shù)也相同，如隱藏維度大小、注意力頭的數(shù)量和注意力頭的維度，并且只訓(xùn)練了圖像模型部分。

　　在擴散采樣過程中，語言模型部分只需要運行一次，就可以生成所有中間隱藏嵌入。

　　與大多數(shù)傳統(tǒng)的基于CNN的擴散模型不同，Transformer模型將圖像特征的自注意力與圖像和文本特征之間的交叉注意力分開，然后進行聯(lián)合注意力操作，可以從圖像和文本值的組合池中提取相關(guān)特征，并且能減少計算成本和推理時間，下面還有一些對性能提升有用的操作:

　　1. Transformer塊之間的U-Net跳躍連接。

　　2. 中間層的token下采樣，在32層中，在中間層將圖像鍵和值的序列長度減少了四倍，使整個網(wǎng)絡(luò)類似于只有一個下采樣的傳統(tǒng)卷積U-Net，略微加快了訓(xùn)練和推理時間，而且沒有性能下降。

　　3. 位置嵌入，與llama3中的旋轉(zhuǎn)位置嵌入(RoPE)相同，由于圖像是二維的特征，所以研究人員探索了2D版本的RoPE:

　　「插值-PE」(interpolating-PE)方法不管序列長度如何，保持起始和結(jié)束位置ID固定后，在中間插值位置ID，不過該方法在訓(xùn)練分辨率上嚴重過擬合，并且無法泛化到未見過的縱橫比。

　　相比之下，「擴展-PE」(expand-PE)方法按序列長度成比例增加位置ID，不使用任何技巧或歸一化，性能表現(xiàn)良好，沒有顯示出分辨率過擬合的跡象。

　　新的VAE

　　潛擴散模型(LDM)的變分自編碼器(VAE)，對于確定模型的細粒度圖像質(zhì)量上限來說非常重要。

　　研究人員將VAE的潛通道數(shù)從4增加到16，增強了合成細節(jié)的能力，比如較小的面部和文字;除了在256×256分辨率下進行訓(xùn)練外，還擴展到512×512分辨率，進一步提高了重建性能。

　　CapsBench描述基準

　　圖像描述評估是一個復(fù)雜的問題，目前的評估指標主要分為兩類:

　　1. 基于參考的指標，如BLEU、CIDEr、METEOR、SPICE，使用一個真實描述或一組描述來計算相似度作為質(zhì)量度量，模型得分受到參考格式的限制;

　　2. 無參考指標，如CLIPScore、InfoMetIC、TIGEr，使用參考圖像的語義向量或圖像的多個區(qū)域來計算所提出描述的相似度指標，但缺點是，對于密集圖像和長而詳細的描述，語義向量不具備代表性，因為包含的概念太多。

　　一種新型的評估方法是基于問題的指標，從描述中生成問題，并使用這些問題評估所提出的描述，有助于全面評估文本到圖像模型。

　　受到DSG和DPG-bench的啟發(fā)，研究人員提出了一種反向的圖像描述評估方法，在17個圖像類別中生成「是-否」問答對:通用、圖像類型、文本、顏色、位置、關(guān)系、相對位置、實體、實體大小、實體形狀、計數(shù)、情感、模糊、圖像偽影、專有名詞(世界知識)、調(diào)色板和色彩分級。

　　在評估過程中，使用語言模型僅基于候選描述回答問題，答案選項為「是」、「否」和「不適用」。

　　CapsBench包含200張圖像和2471個問題，平均每張圖像12個問題，覆蓋電影場景、卡通場景、電影海報、邀請函、廣告、休閑攝影、街頭攝影、風(fēng)景攝影和室內(nèi)攝影。

　　實驗結(jié)果

　　研究人員對比了Ideogram-2(左上)，PGv3(右上)和Flux-pro(左下)，當(dāng)以縮略圖形式查看時，3個模型的圖像看起來相似，定性差異很小。

　　當(dāng)放大檢查細節(jié)和紋理時，就能看出明顯區(qū)別:Flux-pro生成的皮膚紋理過于平滑，類似于3D渲染的效果，不夠真實;Ideogram-2提供了更真實的皮膚紋理，但在遵循提示詞方面表現(xiàn)不好，提示詞很長的情況下，就會丟失關(guān)鍵細節(jié)。

　　相比之下，PGv3在遵循提示和生成真實圖像方面都表現(xiàn)出色，還展現(xiàn)出明顯優(yōu)于其他模型的電影質(zhì)感。

　　指令遵循

　　彩色文本代表模型未能捕捉到的具體細節(jié)，可以看到PGv3始終能夠遵循細節(jié)。隨著測試提示變長，并包含更多詳細信息時，PGv3的優(yōu)勢變得尤為明顯，研究人員將這種性能提升歸功于我們集成了大型語言模型(LLM)的模型結(jié)構(gòu)和先進的視覺-語言模型(VLM)圖像描述系統(tǒng)。

　　文本渲染

　　模型能夠生成各種類別的圖像，包括海報、logo、表情包、書籍封面和演示幻燈片，PGv3還能夠復(fù)現(xiàn)帶有定制文本的表情包，并憑借其強大的提示遵循和文本渲染能力，創(chuàng)造出具有無限角色和構(gòu)圖的全新表情包。

　　RGB顏色控制

　　PGv3在生成內(nèi)容中實現(xiàn)了異常精細的顏色控制，超越了標準調(diào)色板，憑借其強大的提示遵循能力和專業(yè)訓(xùn)練，PGv3使用戶能夠使用精確的RGB值精確控制圖像中每個對象或區(qū)域的顏色，非常適合需要精確顏色匹配的專業(yè)設(shè)計場景。

　　多語言能力

　　得益于語言模型天生能夠理解多種語言，并構(gòu)建出良好的相關(guān)詞表示，PGv3能夠自然地解釋各種語言的提示，并且多語言能力僅通過少量的多語言文本和圖像對數(shù)據(jù)集(數(shù)萬張圖像)就足夠了。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹慎對待。投資者據(jù)此操作，風(fēng)險自擔(dān)。

[No. ]
分享到微信