正在逐步覆蓋!騰訊提醒勿為實況圖重裝微信:以免丟失微信聊天記錄iPhone16多款機型破發(fā):最高比官網(wǎng)便宜600元劉積仁不愛“湊熱鬧”,但東軟集團喜歡“追風口”快手電商新增近800個“0元開店”類目,推出多項新商入駐權益年內(nèi)狂攬五項第一,“字節(jié)系大模型”何以后發(fā)先至?科技云報到:有韌性才能更“任性”,云韌性構筑業(yè)務最后一道防線阿里云盤出“BUG”客服回應:已修復圍剿BBA,比亞迪和騰勢也準備出一份力阿里云服務器操作系統(tǒng)Alibaba Cloud Linux全新升級,核心場景性能提升超20%屏幕面板 10 月出貨,蘋果 M4 MacBook Air 被曝 2025Q1 發(fā)布蘋果史上最大:iPhone 16系列電池容量公布后移動互聯(lián)網(wǎng)時代,移動App兼容測試持續(xù)占據(jù)核心地位歐盟警告蘋果:六個月內(nèi)開放iPhone系統(tǒng) 否則重罰湖北省電子信息產(chǎn)業(yè)前8月實現(xiàn)營收5970億元,同比增長13.53%傳三星計劃2025年推出卷軸屏手機蘋果新專利探索折疊iPhone未來,任意表面實現(xiàn)觸敏控制蘋果iPhone16/Pro系列手機今日首銷,5999~9999元起各方媒體的聚焦關注,中南高科實力呈現(xiàn)高科“新質(zhì)”表現(xiàn)力拼多多解開了新疆的“包郵絕緣體”封印宏景智駕完成數(shù)億元C輪融資
  • 首頁 > 云計算頻道 > 大模型

    基于DiT,支持4K圖像生成,華為諾亞0.6B文生圖模型PixArt-Σ來了

    2024年03月11日 10:55:36   來源:機器之心公眾號

      眾所周知,開發(fā)頂級的文生圖(T2I)模型需要大量資源,因此資源有限的個人研究者基本都不可能承擔得起,這也成為了 AIGC(人工智能內(nèi)容生成)社區(qū)創(chuàng)新的一大阻礙。同時隨著時間的推移,AIGC 社區(qū)又能獲得持續(xù)更新的、更高質(zhì)量的數(shù)據(jù)集和更先進的算法。

      于是關鍵的問題來了:我們能以怎樣的方式將這些新元素高效地整合進現(xiàn)有模型,依托有限的資源讓模型變得更強大?

      為了探索這個問題,華為諾亞方舟實驗室等研究機構的一個研究團隊提出一種新的訓練方法:由弱到強式訓練(weak-to-strong training)。

      他們的研究基于他們?nèi)ツ晔绿岢龅囊环N高效的文生圖訓練方法 PixArt-α,參閱機器之心報道《超低訓練成本文生圖模型 PixArt 來了,效果媲美 MJ,只需 SD10% 訓練時間》。PixArt-α 是 DiT(擴散 Transformer)框架的一種早期嘗試。而現(xiàn)在,隨著 Sora 登上熱搜以及 Stable Diffusion 層出不窮的應用,DiT 架構的有效性得到了研究社區(qū)越來越多工作的驗證,例如 PixArt, Dit-3D, GenTron 等「1」。

      該團隊使用 PixArt-α 的預訓練基礎模型,通過整合高級元素以促進其持續(xù)提升,最終得到了一個更加強大的模型 PixArt-Σ。圖1展示了一些生成結果示例。

      PixArt-Σ 如何煉成?

      具體來說,為了實現(xiàn)由弱到強式訓練,造出 PixArt-Σ,該團隊采用了以下改進措施。

      更高質(zhì)量的訓練數(shù)據(jù)

      該團隊收集了一個高質(zhì)量數(shù)據(jù)集 Internal-Σ,其主要關注兩個方面:

      (1) 高質(zhì)量圖像:該數(shù)據(jù)集包含3300萬張來自互聯(lián)網(wǎng)的高分辨率圖像,全都超過1K 分辨率,包括230萬張分辨率大約為4K 的圖像。這些圖像的主要特點是美觀度高并且涵蓋廣泛的藝術風格。

      (2) 密集且準確的描述:為了給上述圖像提供更精準和詳細的描述,該團隊將 PixArt-α 中使用的 LLaVA 替換成了一種更強大的圖像描述器 Share-Captioner。

      不僅如此,為了提升模型對齊文本概念和視覺概念的能力,該團隊將文本編碼器(即 Flan-T5)的 token 長度擴展到了大約300詞。他們觀察到,這些改進可以有效消除模型產(chǎn)生幻覺的傾向,實現(xiàn)更高質(zhì)量的文本 - 圖像對齊。

      下表1展示了不同數(shù)據(jù)集的統(tǒng)計數(shù)據(jù)。

      高效的 token 壓縮

      為了增強 PixArt-α,該團隊將其生成分辨率從1K 提升到了4K。為了生成超高分辨率(如2K/4K)的圖像,token 數(shù)量會大幅增長,這就會導致計算需求大幅增長。

      為了解決這一難題,他們引入了一種專門針對 DiT 框架調(diào)整過的自注意力模塊,其中使用了鍵和值 token 壓縮。具體來說,他們使用了步長為2的分組卷積來執(zhí)行鍵和值的局部聚合,如下圖7所示。

      此外,該團隊還采用了一種專門設計的權重初始化方案,可在不使用 KV(鍵 - 值)壓縮的前提下從預訓練模型實現(xiàn)平滑適應。這一設計可有效將高分辨率圖像生成的訓練和推理時間降低大約34%。

      由弱到強式訓練策略

      該團隊提出了多種微調(diào)技術,可快速高效地將弱模型調(diào)整為強模型。其中包括:

      (1) 替換使用了一種更強大的變分自動編碼器(VAE):將 PixArt-α 的 VAE 替換成了 SDXL 的 VAE。

      (2) 從低分辨率到高分辨率擴展,這個過程為了應對性能下降的問題,他們使用了位置嵌入(PE)插值方法。

      (3) 從不使用 KV 壓縮的模型演進為使用 KV 壓縮的模型。

      實驗結果驗證了由弱到強式訓練方法的可行性和有效性。

      通過上述改進,PixArt-Σ 能以盡可能低的訓練成本和盡可能少的模型參數(shù)生成高質(zhì)量的4K 分辨率圖像。

      具體來說,通過從一個已經(jīng)預訓練的模型開始微調(diào),該團隊僅額外使用 PixArt-α 所需的9% 的 GPU 時間,就得到了能生成1K 高分辨率圖像的模型。如此表現(xiàn)非常出色,因為其中還替換使用了新的訓練數(shù)據(jù)和更強大的 VAE。

      此外,PixArt-Σ 的參數(shù)量也只有0.6B,相較之下,SDXL 和 SD Cascade 的參數(shù)量分別為2.6B 和5.1B。

      PixArt-Σ 生成的圖像的美觀程度足以比肩當前最頂級的文生圖產(chǎn)品,比如 DALL・E3和 MJV6。此外,PixArt-Σ 還展現(xiàn)出了與文本 prompt 細粒度對齊的卓越能力。

      圖2展示了一張 PixArt-Σ 生成4K 高分辨率圖像的結果,可以看到生成結果很好地遵從了復雜且信息密集的文本指令。

      實驗

      實現(xiàn)細節(jié)

      訓練細節(jié):對于執(zhí)行條件特征提取的文本編碼器,該團隊按照 Imagen 和 PixArt-α 的做法使用了 T5的編碼器(即 Flan-T5-XXL);A擴散模型就是 PixArt-α。不同于大多數(shù)研究提取固定的77個文本 token 的做法,這里將文本 token 的長度從 PixArt-α 的120提升到了300,因為 Internal-Σ 中整理的描述信息更加密集,可以提供高細粒度的細節(jié)。另外 VAE 使用了來自 SDXL 的已預訓練的凍結版 VAE。其它實現(xiàn)細節(jié)與 PixArt-α 一樣。

      文章內(nèi)容僅供閱讀,不構成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。

    即時

    TCL實業(yè)榮獲IFA2024多項大獎,展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術、產(chǎn)品設計及應用方面的創(chuàng)新變革,全球領先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產(chǎn)品設計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強大影響力。

    新聞

    敢闖技術無人區(qū) TCL實業(yè)斬獲多項AWE 2024艾普蘭獎

    近日,中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術和新品亮相,以敢為精神勇闖技術無人區(qū),斬獲四項AWE 2024艾普蘭大獎。

    企業(yè)IT

    重慶創(chuàng)新公積金應用,“區(qū)塊鏈+政務服務”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    “純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

    2024年3月12日,由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會在上海盛大舉行。

    研究

    2024全球開發(fā)者先鋒大會即將開幕

    由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導,由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經(jīng)濟發(fā)展(集團)有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。