給大模型補(bǔ)腦？騰訊發(fā)布ELLA，讓SD模型提示詞理解能力更強(qiáng)

2024年03月14日 10:35:47 來源：站長之家

　　騰訊昨天發(fā)布了一個名為ELLA的項目，這是一個高效的大語言模型適配器，能夠無需訓(xùn)練就增強(qiáng)現(xiàn)有SD模型提示詞理解的能力。ELLA將強(qiáng)大的大語言模型整合到文本到圖像的擴(kuò)散模型中，從而顯著提升模型處理文本對齊的能力，而不需要額外對U-Net或大語言模型進(jìn)行訓(xùn)練。

　　為了順暢地整合兩種預(yù)訓(xùn)練模型，項目團(tuán)隊探索了多種語義對齊連接器的設(shè)計，并提出了一種創(chuàng)新模塊——時間步感知語義連接器(TSC)。這個連接器能夠根據(jù)時間步的變化，動態(tài)地從大語言模型中提取條件，幫助擴(kuò)散模型在不同的去噪階段更好地理解長而復(fù)雜的文本提示。

　　ELLA的設(shè)計使其可以輕松整合到社區(qū)模型和工具中，增強(qiáng)它們對復(fù)雜提示的遵循能力。為了評估文本到圖像模型在處理密集提示方面的性能，團(tuán)隊還引入了一個名為密集提示圖基準(zhǔn)(DPG-Bench)的新挑戰(zhàn)，該基準(zhǔn)包括1000個密集的提示。

　　通過大量實驗，研究人員發(fā)現(xiàn)，當(dāng)處理包含多對象、不同屬性和關(guān)系的復(fù)雜組合時，ELLA在密集提示遵循方面的表現(xiàn)優(yōu)于目前最先進(jìn)的方法。這個項目的發(fā)布為文本到圖像模型的發(fā)展帶來了新的可能性，也為未來的研究和應(yīng)用提供了新的思路。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險自擔(dān)。

[No. ]
分享到微信