北大字節(jié)開(kāi)辟圖像生成新范式，超越Sora核心組件DiT，不再預(yù)測(cè)下一個(gè)token

2024年04月16日 10:06:28 來(lái)源：量子位公眾號(hào)

　　北大和字節(jié)聯(lián)手搞了個(gè)大的:

　　提出圖像生成新范式，從預(yù)測(cè)下一個(gè)token變成預(yù)測(cè)下一級(jí)分辨率，效果超越Sora核心組件Diffusion Transformer(DiT)。

　　并且代碼開(kāi)源，短短幾天已經(jīng)攬下1.3k標(biāo)星，登上GitHub趨勢(shì)榜。

　　具體是個(gè)什么效果?

　　實(shí)驗(yàn)數(shù)據(jù)上，這個(gè)名為VAR(Visual Autoregressive Modeling)的新方法不僅圖像生成質(zhì)量超過(guò)DiT等傳統(tǒng)SOTA，推理速度也提高了20+倍。

　　這也是自回歸模型首次在圖像生成領(lǐng)域擊敗DiT。

　　直觀感受上，話不多說(shuō)，直接看圖:

　　值得一提的是，研究人員還在VAR上，觀察到了大語(yǔ)言模型同款的Scaling Laws和零樣本任務(wù)泛化。

　　論文代碼上線，已經(jīng)引發(fā)不少專業(yè)討論。

　　有網(wǎng)友表示有被驚到，頓時(shí)覺(jué)得其他擴(kuò)散架構(gòu)的論文有點(diǎn)索然無(wú)味。

　　還有人認(rèn)為，這是一種通向Sora的更便宜的潛在途徑，計(jì)算成本可降低一個(gè)乃至多個(gè)數(shù)量級(jí)。

　　預(yù)測(cè)下一級(jí)分辨率

　　簡(jiǎn)單來(lái)說(shuō)，VAR的核心創(chuàng)新，就是用預(yù)測(cè)下一級(jí)分辨率，替代了預(yù)測(cè)下一個(gè)token的傳統(tǒng)自回歸方法。

　　VAR的訓(xùn)練分為兩個(gè)階段。

　　第一階段，VAR引入了多尺度離散表示，使用VQ-VAE將連續(xù)圖像編碼為一系列離散的token map，每個(gè)token map有不同的分辨率。

　　第二階段，主要是對(duì)VAR Transformer的訓(xùn)練，通過(guò)預(yù)測(cè)更高分辨率的圖像，來(lái)進(jìn)一步優(yōu)化模型。具體過(guò)程是這樣的:

　　從最低分辨率(比如1×1)的token map開(kāi)始，預(yù)測(cè)下一級(jí)分辨率(比如4×4)的完整token map，并以此類推，直到生成最高分辨率的token map(比如256×256)。在預(yù)測(cè)每個(gè)尺度的token map時(shí)，基于Transformer，模型會(huì)考慮之前所有步驟生成的映射信息。

　　在第二階段中，之前訓(xùn)練好的VQ-VAE模型發(fā)揮了重要作用:為VAR提供了“參考答案”。這能幫助VAR更準(zhǔn)確地學(xué)習(xí)和預(yù)測(cè)圖像。

　　另外，在每個(gè)尺度內(nèi)，VAR是并行地預(yù)測(cè)所有位置的token，而不是線性逐個(gè)預(yù)測(cè)，這大大提高了生成效率。

　　研究人員指出，采用這樣的方法，VAR更符合人類視覺(jué)感知從整體到局部的特點(diǎn)，并能保留圖像的空間局部性。

　　符合Scaling Laws

　　從實(shí)驗(yàn)結(jié)果來(lái)看，在圖像生成質(zhì)量、推理速度、數(shù)據(jù)效率和可擴(kuò)展性等方面，VAR都超過(guò)了DiT。

　　在ImageNet256×256上，VAR將FID從18.65降到了1.8，IS從80.4提高到356.4，顯著改善了自回歸模型基線。

　　注:FID越低，說(shuō)明生成圖像的質(zhì)量和多樣性越接近真實(shí)圖像。

　　推理速度方面，相較于傳統(tǒng)自回歸模型，VAR實(shí)現(xiàn)了約20倍的效率提升。而DiT消耗的時(shí)間是VAR的45倍。

　　數(shù)據(jù)效率方面，VAR只需要350個(gè)訓(xùn)練周期(epoch)，遠(yuǎn)少于DiT-XL/2的1400個(gè)。

　　可擴(kuò)展性方面，研究人員觀察到VAR有類似于大語(yǔ)言模型的Scaling Laws:隨著模型尺寸和計(jì)算資源的增加，模型性能持續(xù)提升。

　　另外，在圖像修補(bǔ)、擴(kuò)展和編輯等下游任務(wù)的零樣本評(píng)估中，VAR表現(xiàn)出了出色的泛化能力。

　　目前，在GitHub倉(cāng)庫(kù)中，推理示例、demo、模型權(quán)重和訓(xùn)練代碼均已上線。

　　不過(guò)，在更多討論之中，也有網(wǎng)友提出了一些問(wèn)題:

　　VAR不如擴(kuò)散模型靈活，并且在分辨率上存在擴(kuò)展問(wèn)題。

　　北大字節(jié)聯(lián)合出品

　　VAR的作者們，來(lái)自字節(jié)跳動(dòng)AI Lab和北大王立威團(tuán)隊(duì)。

　　一作田柯宇，本科畢業(yè)自北航，目前是北大CS研究生，師從北京大學(xué)信息科學(xué)技術(shù)學(xué)院教授王立威。2021年開(kāi)始在字節(jié)AI Lab實(shí)習(xí)。

　　論文通訊作者，是字節(jié)跳動(dòng)AI Lab研究員袁澤寰和王立威。

　　袁澤寰2017年博士畢業(yè)于南京大學(xué)，目前專注于計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)研究。王立威從事機(jī)器學(xué)習(xí)研究20余年，是首屆“優(yōu)青”獲得者。

　　該項(xiàng)目的項(xiàng)目主管，是字節(jié)跳動(dòng)廣告生成AI研究主管Yi jiang。他碩士畢業(yè)于浙江大學(xué)，目前的研究重點(diǎn)是視覺(jué)基礎(chǔ)模型、深度生成模型和大語(yǔ)言模型。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信

即時(shí)

BenQ DesignVue攜新品重磅亮相「創(chuàng)意界奧斯卡」Adobe Max

2024年的Adobe MAX 2024發(fā)布會(huì)上，Adobe推出了最新版本的Adobe Creative Cloud。

游戲體驗(yàn)天花板一加Ace 5系列正式定檔12月26日

“耐玩戰(zhàn)神”真我Neo7今日開(kāi)售：2099元起，堅(jiān)持質(zhì)價(jià)比不動(dòng)

感谢您访问我们的网站，您可能还对以下资源感兴趣：
台湾中文娱乐网

北大字節(jié)開(kāi)辟圖像生成新范式，超越Sora核心組件DiT，不再預(yù)測(cè)下一個(gè)token

即時(shí)

BenQ DesignVue攜新品重磅亮相「創(chuàng)意界奧斯卡」Adobe Max

新聞

明火炊具市場(chǎng)：三季度健康屬性貫穿全類目

企業(yè)IT

重慶創(chuàng)新公積金應(yīng)用，“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

3C消費(fèi)

華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器，高能實(shí)力，創(chuàng)

研究

中國(guó)信通院羅松：深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析體系

專題

北大字節(jié)開(kāi)辟圖像生成新范式，超越Sora核心組件DiT，不再預(yù)測(cè)下一個(gè)token

擴(kuò)展閱讀

北大字節(jié)開(kāi)辟圖像生成新范式，超越Sora核心組件DiT，不再預(yù)測(cè)下一個(gè)token