2024 vivo開發(fā)者大會(huì)官宣:OriginOS 5/自研藍(lán)河系統(tǒng)2降臨真·AI程序員來了,阿里云「通義靈碼」全面進(jìn)化,全流程開發(fā)僅用幾分鐘東方甄選烤腸全網(wǎng)銷量及銷售額領(lǐng)先鴻蒙PC要來了 界面很漂亮!余承東:目前華為PC將是最后一批搭載Windows上半年中國(guó)AR/VR出貨23.3萬臺(tái),同比下滑了 29.1%IDC:2024 上半年中國(guó) AR / VR 頭顯出貨 23.3 萬臺(tái),同比下滑 29.1%英特爾AI加速器Gaudi3下周發(fā)布,挑戰(zhàn)NVIDIA統(tǒng)治地位!大屏技術(shù)邂逅千年色彩美學(xué)!海信激光電視成為電影《只此青綠》官方合作伙伴OpenAI將最新AI模型o1擴(kuò)展到企業(yè)和教育領(lǐng)域三星新專利探索AR技術(shù)新應(yīng)用:檢測(cè)屏幕指紋殘留,提高手機(jī)安全性猛瑪傳奇C1:直播圖傳技術(shù)的革新者JFrog推出首個(gè)運(yùn)行時(shí)安全解決方案,實(shí)現(xiàn)從代碼到云的全面軟件完整性和可追溯性亞馬遜推出一大波生成式 AI 工具,購(gòu)物體驗(yàn)全面升級(jí)機(jī)器人公司1X推出世界模型Apple Intelligence測(cè)試版現(xiàn)已開放革命性AI對(duì)話系統(tǒng)Moshi問世:機(jī)器也能說人話了?阿里國(guó)際推出最新多模態(tài)大模型 Ovis,看菜品就能提供烹飪步驟華為發(fā)布智聯(lián)集成行業(yè)解決方案,助力客戶打造行業(yè)領(lǐng)先的目標(biāo)網(wǎng)絡(luò)AI 3D生成天花板再拉升!清華團(tuán)隊(duì)煉成3D Scaling Law正在逐步覆蓋!騰訊提醒勿為實(shí)況圖重裝微信:以免丟失微信聊天記錄
  • 首頁 > 云計(jì)算頻道 > 大模型

    國(guó)產(chǎn)開源Sora上新:全面支持國(guó)產(chǎn)AI算力,可用ReVideo視頻編輯,北大-兔展團(tuán)隊(duì)出品

    2024年05月28日 17:39:09   來源:量子位公眾號(hào)

      北大-兔展聯(lián)合發(fā)起的Sora開源復(fù)現(xiàn)計(jì)劃Open-Sora-Plan,今起可以生成最長(zhǎng)約21秒的視頻了!

      生成的視頻水平,如下展示。先看這個(gè)長(zhǎng)一點(diǎn)的,9.2s:

      當(dāng)然了,老規(guī)矩,這一次的所有數(shù)據(jù)、代碼和模型,繼續(xù)開源。

      目前,Open-Sora-Plan在GitHub上有10.4k顆星星,大家可以選擇去抱抱臉上激情試玩。

      該說不說,版本迭代速度還挺快——上個(gè)月,Open-Sora-Plan就在開源社區(qū)上新過一波。

      當(dāng)時(shí)能支持單鏡頭16秒的視頻生成,分辨率最高720p,能滿足的生成需求也比較多樣。

      這次版本更新,背后主要是兩個(gè)方面有了進(jìn)步

      采用了更高質(zhì)量視覺數(shù)據(jù)與caption

      優(yōu)化了CausalVideoVAE的結(jié)構(gòu)

      團(tuán)隊(duì)還表示,Open-Sora-Plan已經(jīng)支持使用國(guó)產(chǎn)AI計(jì)算系統(tǒng)(華為昇騰,期待更多國(guó)產(chǎn)算力芯片)進(jìn)行完整的訓(xùn)練和推理。

      Open-Sora-Plan v1.1.0展示

      此次更新的版本是Open-Sora-Plan v1.1.0。

      項(xiàng)目團(tuán)隊(duì)對(duì)Open-Sora-Plan的現(xiàn)階段能力進(jìn)行了三個(gè)層面的展示,并注明演示背后是用3k小時(shí)視頻數(shù)據(jù)。

      首先展示的是10秒版文生視頻(10s×512×512)。

      這張圖的Prompt是,“藍(lán)色時(shí)刻圣托里尼島的鳥瞰圖,展示了令人驚嘆的建筑”。

      這張圖的Prompt是,“攝像機(jī)對(duì)準(zhǔn)一大堆老式電視機(jī),所有電視機(jī)都顯示不同的畫面”。

      其次展示的是2秒版文生視頻(2s×512×512)。

      給出的效果展示,有經(jīng)典的小狗子,“一只戴著貝雷帽和黑色高領(lǐng)毛衣的柴犬”。

      還有一幅畫,畫面上航船前行,波濤拍打:

      團(tuán)隊(duì)展示的第三類,是用Open-Sora-Plan v1.1.0進(jìn)行視頻編輯(2s×512×512)。

      據(jù)了解,這部分內(nèi)容采用的是聯(lián)合團(tuán)隊(duì)剛提出來的ReVideo模型。

      不論是小貓戴墨鏡:

      還是天空飄氣球:

      在畫面連續(xù)性和角色一致性方面都表現(xiàn)得還算不錯(cuò)。

      當(dāng)然,團(tuán)隊(duì)承認(rèn)“但我們?nèi)匀浑xSora有一段距離”,同時(shí)給出了失敗案例展示。

      例如,團(tuán)隊(duì)對(duì)比了4倍時(shí)間和2倍時(shí)間下采樣的重建視頻,發(fā)現(xiàn)視頻在重建細(xì)粒度特征時(shí),畫面都會(huì)發(fā)生抖動(dòng)。

      這表明減少時(shí)間下采樣并不能完全解決抖動(dòng)問題。

      并且用v1.1.0生成的雪地里的小狗,視頻中的小狗頭出現(xiàn)了Semantic distortion的問題,似乎模型不能很好的判斷哪個(gè)頭是哪個(gè)狗的。

      這個(gè)問題其實(shí)在OpenAI的Sora的早期基座模型也會(huì)出現(xiàn)……

      ,時(shí)長(zhǎng)00:12

      因此Open-Sora-Plan的團(tuán)隊(duì)成員認(rèn)為,也許可以通過擴(kuò)大模型和數(shù)據(jù)量來解決問題,達(dá)到更好的效果。

      團(tuán)隊(duì)還提到,視頻生成與圖片生成最大的不同,在于其動(dòng)態(tài)性,即物體在連續(xù)的鏡頭中發(fā)生一系列動(dòng)態(tài)變化。

      然而v1.1.0生成的視頻仍然存在許多有限動(dòng)態(tài)的視頻。

      團(tuán)隊(duì)通過翻看大量的訓(xùn)練視頻發(fā)現(xiàn),這些素材網(wǎng)爬取的視頻雖然畫面質(zhì)量很好,然而充斥著一些無意義的特寫鏡頭;而這些特寫鏡頭往往變化幅度很小,甚至處于靜止?fàn)顟B(tài)。

      同時(shí),團(tuán)隊(duì)還發(fā)現(xiàn)negative prompt可以顯著提高視頻質(zhì)量——這意味著也許需要在訓(xùn)練數(shù)據(jù)中加入更多先驗(yàn)知識(shí)。

      除了對(duì)方給出的展示,目前大家都可以在Hugging Face上試玩。

      需要注意啦,由于視頻生成可能需要150個(gè)左右的步驟才能產(chǎn)生良好的結(jié)果,試玩時(shí)生成每個(gè)視頻大約需要4-5mins。

      背后技術(shù)

      整體框架上,Open-Sora-Plan由三部分組成:

      Video VAE

      Denoising Diffusion Transformer(去噪擴(kuò)散型Transformer)

      Condition Encoder(條件編碼器)

      這和Sora技術(shù)報(bào)告的內(nèi)容基本差不多。

      此次更新的Open-Sora-Plan v1.1.0是一個(gè)基于Transformer的文本到視頻模型,經(jīng)過T5文本嵌入的訓(xùn)練。

      與之前的工作類似,整個(gè)訓(xùn)練過程采用多階段的級(jí)聯(lián)的訓(xùn)練方法,分三個(gè)階段。

      其中,第二階段采用了華為昇騰算力進(jìn)行訓(xùn)練,該階段的訓(xùn)練、推理完全由國(guó)產(chǎn)芯片支持。

      目前,仍然在訓(xùn)練和不斷觀察第三階段的模型——增加幀數(shù)到513幀,大約是24FPS的21秒的視頻。

      相比上個(gè)月發(fā)布的前作Open-Sora-Plan v1.0.0,最新版本主要2個(gè)方面的優(yōu)化。

      一是優(yōu)化了CausalVideoVAE的結(jié)構(gòu),二是采用了更高質(zhì)量的視覺數(shù)據(jù)與captions。

      - 優(yōu)化CausalVideoVAE的結(jié)構(gòu)

      優(yōu)化CausalVideoVAE的結(jié)構(gòu),讓Open-Sora-Plan v1.1.0擁有比前作更強(qiáng)的性能、更高的推理效率。

      來看過程:

      模型結(jié)構(gòu)

      隨著生成視頻幀數(shù)不斷增加,CausalVideoVAE的encoder開銷逐漸增加;當(dāng)訓(xùn)練257幀時(shí),80G的顯存不足以讓VAE encode視頻。

      因此,團(tuán)隊(duì)減少CausalConv3D的數(shù)量,只保留encoder的最后兩個(gè)stage的CausalConv3D。

      它能夠幾乎保持原有的性能的情況下大幅度降低開銷。

      注意,這里只修改encoder,decoder的仍然保留所有的CausalConv3D,因?yàn)橛?xùn)練Diffusion Model不需要decoder。

      Temoral Module

      而在v1.0.0,Open-Sora-Plan的temporal module只有一個(gè)TimeAvgPool,AvgPool會(huì)導(dǎo)致視頻中的高頻信息(如細(xì)節(jié)和邊緣)丟失。

      為了解決這個(gè)問題,團(tuán)隊(duì)在v1.1.0中改進(jìn)該模塊,引入了卷積并增加了可學(xué)習(xí)的權(quán)重,以期望不同分支能夠解耦不同特征。

      當(dāng)忽略CasualConv3D時(shí),視頻將會(huì)被重建得非常模糊;同樣的,當(dāng)忽略TemporalAvgPool,視頻會(huì)變得非常銳利。

      訓(xùn)練細(xì)節(jié)

      同時(shí),和v1.0.0一樣,團(tuán)隊(duì)從Latent Diffusion的VAE初始化,采用tail initialization。

      對(duì)于CasualVideoVAE,研究人員在第一階段訓(xùn)練100k steps with the video shape of9×256×256。

      進(jìn)一步,研究人員將9幀提高到25幀,發(fā)現(xiàn)增加視頻幀數(shù)還能顯著提高模型性能。

      需要特別澄清的是,第一階段和第二階段團(tuán)隊(duì)開啟mixed factor,在訓(xùn)練結(jié)束時(shí)a(sigmoid(mixed factor))的值為0.88,這意味著模型傾向于保留低頻信息。

      研究人員在第三階段將mixed factor初始化為0.5(sigmoid(0.5)=0.6225),最終模型能力得到進(jìn)一步提升。

      損失函數(shù)

      研究人員發(fā)現(xiàn)GAN Loss能夠保留高頻信息和緩解網(wǎng)格效應(yīng)。

      同時(shí)還發(fā)現(xiàn)將2D GAN改成3D GAN能有進(jìn)一步提升。

      Inference Tricks

      在v1.0.0中,團(tuán)隊(duì)采用spatial tiled convolution,它能夠以幾乎恒定的內(nèi)存推理任意分辨率的視頻。

      然而隨著幀數(shù)變多,VAE encoder的開銷不斷增加。

      因此新版本引入一個(gè)方法叫做temporal rollback tiled convolution,它是專門為了CausalVideoVAE而設(shè)計(jì)的一種tiled方法。

      具體來說,除了第一個(gè)窗口以外的窗口都將拋棄第一幀,因?yàn)榇翱趦?nèi)的第一幀被看作圖片,然而其余幀都應(yīng)該被當(dāng)作視頻幀。

      - 采用更高質(zhì)量的視覺數(shù)據(jù)與caption

      接下來介紹第二個(gè)優(yōu)化部分,即Open-Sora-Plan v1.1.0采用了更高質(zhì)量的視覺數(shù)據(jù)與caption,這使得模型對(duì)世界運(yùn)行規(guī)律有了更好的理解。

      由于Open-Sora-Plan支持圖片視頻聯(lián)合訓(xùn)練,因此數(shù)據(jù)收集分為圖片和視頻2個(gè)部分,且圖片數(shù)據(jù)集和視頻數(shù)據(jù)集是兩個(gè)獨(dú)立的數(shù)據(jù)集。

      團(tuán)隊(duì)注明,大概花費(fèi)了32×240個(gè)H100hours生成image and video captions——這些也全部開源。

      圖片收集管道

      研究人員從Pixart-Alpha獲取了11M個(gè)圖像文本對(duì),他們的caption由LLaVA生成。

      團(tuán)隊(duì)還注意到了高質(zhì)量的OCR數(shù)據(jù)集Anytext-3M,這個(gè)數(shù)據(jù)集每一個(gè)圖片都配對(duì)了相對(duì)應(yīng)的OCR字符。但這些caption不足以描述整個(gè)圖片。因此,團(tuán)隊(duì)采用InternVL-1.5進(jìn)行補(bǔ)充描述。

      由于T5只支持英文,所以研究人員篩選了英文數(shù)據(jù)參與訓(xùn)練,這約有完整數(shù)據(jù)的一半。

      另外還從Laion-5B中篩選高質(zhì)量圖片以提高生成人類的質(zhì)量,篩選規(guī)則主要包括:高分辨率、高美學(xué)分?jǐn)?shù)、無水印的包含人的圖片。

      視頻收集管道

      在v1.0.0中,團(tuán)隊(duì)對(duì)視頻采樣1幀來生成caption。

      然而隨著視頻時(shí)長(zhǎng)增加,一幀圖片無法描述整個(gè)視頻的內(nèi)容,也無法描述時(shí)序上的鏡頭移動(dòng)。

      因此現(xiàn)在采用video captioner對(duì)整個(gè)video clip生成caption——具體地,采用ShareGPT4Video,它能夠很好的覆蓋時(shí)間信息并且描述整個(gè)視頻內(nèi)容。

      值得注意的是,v1.1.0的視頻數(shù)據(jù)集大約有3k小時(shí),而v1.0.0版本僅有0.3k小時(shí)。

      與之前一樣,團(tuán)隊(duì)開源所有的文本注釋和視頻(均為CC0協(xié)議)。

      One More Thing

      最后,Open-Sora-Plan表示,接下來的工作主要圍繞兩個(gè)方面進(jìn)行。

      一是數(shù)據(jù)縮放,重點(diǎn)關(guān)注數(shù)據(jù)來源和數(shù)據(jù)體量。

      二是模型設(shè)計(jì),主要會(huì)對(duì)CasualVideoVAE和擴(kuò)散模型下手。

      不變的是,無論如何更迭,所有數(shù)據(jù)、代碼和模型都會(huì)繼續(xù)開源。有上抱抱臉手動(dòng)體驗(yàn)了的朋友們,歡迎在評(píng)論區(qū)分享試玩感受呀~

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    TCL實(shí)業(yè)榮獲IFA2024多項(xiàng)大獎(jiǎng),展示全球科技創(chuàng)新力量

    近日,德國(guó)柏林國(guó)際電子消費(fèi)品展覽會(huì)(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計(jì)及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)成功斬獲兩項(xiàng)“IFA全球產(chǎn)品設(shè)計(jì)創(chuàng)新大獎(jiǎng)”金獎(jiǎng),有力證明了其在全球市場(chǎng)的強(qiáng)大影響力。

    新聞

    敢闖技術(shù)無人區(qū) TCL實(shí)業(yè)斬獲多項(xiàng)AWE 2024艾普蘭獎(jiǎng)

    近日,中國(guó)家電及消費(fèi)電子博覽會(huì)(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項(xiàng)AWE 2024艾普蘭大獎(jiǎng)。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    “純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

    2024年3月12日,由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會(huì)在上海盛大舉行。

    研究

    2024全球開發(fā)者先鋒大會(huì)即將開幕

    由世界人工智能大會(huì)組委會(huì)、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會(huì)共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會(huì)聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開放原子開源基金會(huì)主辦的“2024全球開發(fā)者先鋒大會(huì)”,將于2024年3月23日至24日舉辦。