宏景智駕完成數(shù)億元C輪融資植物生長好幫手:廣明源金線蓮組培燈照亮生長每一步ROG純白系列DIY好物:簡約不失高雅,買它準沒錯!穩(wěn)扎穩(wěn)打,中影光峰4K 14米 VLED LED電影屏通過DCI認證并投入市場安吉爾空間大師亮相IFA 斬獲年度創(chuàng)新產(chǎn)品成果大獎電動自行車強制性“國標”再修訂,綠源電動車以創(chuàng)新技術(shù)引領(lǐng)產(chǎn)業(yè)高質(zhì)量發(fā)展輕松籌:十年深耕大健康領(lǐng)域,打造全方位健康保障生態(tài)面對承壓的小家電市場,小熊、蘇泊爾上半年為何一降一增?研發(fā)投入高增、占營收比超5%,科沃斯、石頭科技升高技術(shù)壁壘激光顯示全面“向新”發(fā)展,未來激光電視主機僅有iPad大小2024年冷年空調(diào)市場總結(jié):規(guī)模下探,結(jié)構(gòu)降級,空調(diào)行業(yè)邁入新周OpenAI o1全方位SOTA登頂lmsys推薦榜!數(shù)學能力碾壓Claude和谷歌模型,o1-mini并列第一iPhone16系列新品正式發(fā)售 新品爆發(fā)就在抖音電商廣告燒錢過億,70%用戶靠投流,大模型算不過成本賬?PS1經(jīng)典配色!索尼發(fā)布30周年紀念版PS5、PS5 Pro:限量賣泰順:聚智聚力數(shù)字創(chuàng)客激發(fā)鄉(xiāng)村振興新動能電商12年 ,ALL IN 小紅書,開店3月賣出1100萬Mate 70最受期待!華為三款重磅機型蓄勢待發(fā)云天勵飛“算力積木”架構(gòu):引領(lǐng)邊緣AI芯片新變革徹底告別3999元!小米15入網(wǎng) 支持90W快充
  • 首頁 > 產(chǎn)經(jīng)新聞頻道 > 業(yè)界新聞

    MDTv2開源,Sora 核心組件 DiT 訓練提速 10 倍

    2024年03月13日 14:27:25   來源:站長之家

      由顏水成和程明明領(lǐng)銜的研究團隊在Sora核心技術(shù)上進行了重要的升級,推出了Masked Diffusion Transformer V2。該模型在ImageNet benchmark上取得了驚人的成績,F(xiàn)ID score達到1.58,刷新了State-of-the-Art(SoTA)。

      作為Sora的核心技術(shù)之一,Diffusion Transformer(DiT)在圖像生成領(lǐng)域取得了顯著的成功,但其訓練成本隨著模型規(guī)模的增大而飆升。研究者發(fā)現(xiàn),擴散模型難以高效地學習圖像中物體各部分之間的語義關(guān)系,導致訓練過程低收斂效率。為了解決這一問題,顏水成和程明明研究團隊提出了Masked Diffusion Transformer(MDT),通過引入mask modeling表征學習策略,顯著提升了DiT的訓練效率。

      MDT采用了針對Diffusion Transformer設(shè)計的mask modeling表征學習策略,增強了模型對上下文語義信息的學習能力,并加強了圖像中物體之間語義信息的關(guān)聯(lián)學習。通過在擴散訓練過程中引入類似于MAE的mask modeling表征學習方案,MDT能夠重建不完整輸入圖像的完整信息,提升圖像生成的質(zhì)量和學習速度。

      具體而言,MDT通過VAE encoder將圖片映射到latent空間,并在latent空間中進行處理以節(jié)省計算成本。在訓練過程中,MDT首先mask掉部分加噪聲后的圖像token,并將剩余的token送入Asymmetric Diffusion Transformer來預測去噪聲后的全部圖像token。Asymmetric Diffusion Transformer架構(gòu)包含encoder、side-interpolater和decoder,在訓練和推理階段分別處理未被mask的token和所有token,確保了模型的一致性。

      最新版本的MDT,即MDTv2,通過更為高效的宏觀網(wǎng)絡(luò)結(jié)構(gòu)進一步優(yōu)化了diffusion和mask modeling的學習過程,實現(xiàn)了訓練速度的顯著提升。在ImageNet256基準下,MDTv2相較于DiT,不僅在訓練速度上提升了10倍以上,而且在生成質(zhì)量上取得了更高的FID分數(shù)。MDTv2-S/2在400k步驟訓練下,F(xiàn)ID指標為39.50,明顯領(lǐng)先于DiT-S/2的68.40。

      總體而言,MDT的創(chuàng)新設(shè)計在擴散模型訓練中引入了有效的語義信息學習,提高了圖像生成的質(zhì)量和訓練速度。研究者認為,通過視覺表征學習增強對物理世界的語義理解,有望提升生成模型對物理世界的模擬效果。這一工作符合Sora的期望,通過生成模型構(gòu)建物理世界模擬器的理念,為未來的表征學習和生成學習研究提供了有力的啟示。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。

    即時

    TCL實業(yè)榮獲IFA2024多項大獎,展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產(chǎn)品設(shè)計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強大影響力。

    新聞

    敢闖技術(shù)無人區(qū) TCL實業(yè)斬獲多項AWE 2024艾普蘭獎

    近日,中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項AWE 2024艾普蘭大獎。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    “純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

    2024年3月12日,由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會在上海盛大舉行。

    研究

    2024全球開發(fā)者先鋒大會即將開幕

    由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導,由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經(jīng)濟發(fā)展(集團)有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。