" />
合合信息啟信產(chǎn)業(yè)大腦攜手市北新區(qū)打造“一企一畫像”平臺,加速數(shù)字化轉(zhuǎn)型重慶:力爭今年智能網(wǎng)聯(lián)新能源汽車產(chǎn)量突破 100 萬輛,到 2027 年建成萬億級產(chǎn)業(yè)集群微信iOS最新版上線:iPhone用戶可在朋友圈發(fā)實況照片了蘋果有線耳機或?qū)⑼.a(chǎn)沖上熱搜!閑魚相關(guān)搜索量暴漲384%2024 vivo開發(fā)者大會官宣:OriginOS 5/自研藍河系統(tǒng)2降臨真·AI程序員來了,阿里云「通義靈碼」全面進化,全流程開發(fā)僅用幾分鐘東方甄選烤腸全網(wǎng)銷量及銷售額領(lǐng)先鴻蒙PC要來了 界面很漂亮!余承東:目前華為PC將是最后一批搭載Windows上半年中國AR/VR出貨23.3萬臺,同比下滑了 29.1%IDC:2024 上半年中國 AR / VR 頭顯出貨 23.3 萬臺,同比下滑 29.1%英特爾AI加速器Gaudi3下周發(fā)布,挑戰(zhàn)NVIDIA統(tǒng)治地位!大屏技術(shù)邂逅千年色彩美學(xué)!海信激光電視成為電影《只此青綠》官方合作伙伴OpenAI將最新AI模型o1擴展到企業(yè)和教育領(lǐng)域三星新專利探索AR技術(shù)新應(yīng)用:檢測屏幕指紋殘留,提高手機安全性猛瑪傳奇C1:直播圖傳技術(shù)的革新者JFrog推出首個運行時安全解決方案,實現(xiàn)從代碼到云的全面軟件完整性和可追溯性亞馬遜推出一大波生成式 AI 工具,購物體驗全面升級機器人公司1X推出世界模型Apple Intelligence測試版現(xiàn)已開放革命性AI對話系統(tǒng)Moshi問世:機器也能說人話了?
  • 首頁 > 產(chǎn)經(jīng)新聞頻道 > 業(yè)界新聞

    文本直接生成2分鐘視頻,即將開源模型StreamingT2V

    2024年04月01日 11:46:30   來源:AIGC開放社區(qū)公眾號

      Picsart人工智能研究所、德克薩斯大學(xué)和SHI實驗室的研究人員聯(lián)合推出了StreamingT2V視頻模型。通過文本就能直接生成2分鐘、1分鐘等不同時間,動作一致、連貫、沒有卡頓的高質(zhì)量視頻。

      雖然StreamingT2V在視頻質(zhì)量、多元化等還無法與Sora媲美,但在高速運動方面非常優(yōu)秀,這為開發(fā)長視頻模型提供了技術(shù)思路。

      研究人員表示,理論上,StreamingT2V可以無限擴展視頻的長度,并正在準備開源該視頻模型。

      StreamingT2V生成的2分鐘視頻

      傳統(tǒng)視頻模型一直受訓(xùn)練數(shù)據(jù)、算法等困擾,最多只能生成10秒視頻。Sora的出現(xiàn)將文生視頻領(lǐng)域帶向了一個全新的高度,突破了諸多技術(shù)瓶頸,僅通過文本就能生成最多1分鐘的視頻。

      而StreamingT2V采用了創(chuàng)新的自回歸技術(shù)框架,通過條件注意力、外觀保持和隨機混合三大模塊,極大的延長了視頻的時間,同時保證動作的連貫性。

      簡單來說,StreamingT2V使用了一種“擊鼓傳花”的方法,每一個模塊通過提取前一個視頻塊中的表示特征,來保證動作一致性、文本語義還原、視頻完整性等。

      條件注意力模塊

      條件注意力模塊是一種“短期記憶”,通過注意力機制從前一個視頻塊中提取特征,并將其注入到當前視頻塊的生成中,實現(xiàn)了流暢自然的塊間過渡,同時保留了高速運動特征。

      先使用圖像編碼器對前一個視頻塊的最后幾幀(例如20幀)進行逐幀編碼,得到相應(yīng)的特征表示,并將這些特征送入一個淺層編碼器網(wǎng)絡(luò)(初始化自主模型的編碼器權(quán)重)進行進一步編碼。

      然后將提取到的特征表示注入到StreamingT2V的UNet的每個長程跳躍連接處,從而借助前一視頻塊的內(nèi)容信息來生成新的視頻幀,但不會受到先前結(jié)構(gòu)、形狀的影響。

      外觀保持模塊

      為了保證生成視頻全局場景、外觀的一致性,StreamingT2V使用了外觀保持這種“長期記憶”方法。

      外觀保持從初始圖像(錨定幀)中提取高級場景和對象特征,并將這些特征用于所有視頻塊的生成流程。這樣做可以幫助在自回歸過程中,保持對象和場景特征的連續(xù)性。

      此外,現(xiàn)有方法通常只針對前一個視頻塊的最后一幀進行條件生成,忽視了自回歸過程中的長期依賴性。通過使用外觀保持,可以使用初始圖像中的全局信息,從而更好地捕捉到自回歸過程中的長期依賴性。

      隨機混合模塊

      前兩個模塊保證了StreamingT2V生成的視頻大框架,但是在分辨率、質(zhì)量方面還有欠缺,而隨機混合模塊主要用來增強視頻的分辨率。

      如果直接增強質(zhì)量會耗費大量AI算力、時間,所以,隨機混合采用了自回歸增強的方法。

      首先,研究人員將低分辨率視頻劃分為多個長度為24幀的視頻塊,這些塊之間是有重疊的。然后,利用一個高分辨率的視頻模型,對每一個視頻塊進行增強,得到對應(yīng)的高分辨率視頻塊。

      例如,有兩個重疊的視頻塊A和B,重疊部分包含20幀。對于重疊部分的每一幀,隨機混合模塊會從A塊和B塊中各取出一幀,然后對這兩幀進行加權(quán)平均,生成一個新的混合幀。通過這種方式,重疊部分的每一幀都是A塊和B塊對應(yīng)幀的隨機混合。

      而對于不重疊的部分,隨機混合模塊則直接保留原始視頻塊中的幀。經(jīng)過隨機混合后的視頻塊就可以輸入到高分辨率模型中進行增強。

      研究人員指出,如果讓相鄰的兩個視頻塊直接共享完全相同的重疊幀,會導(dǎo)致視頻在過渡處出現(xiàn)不自然的凍結(jié)和重復(fù)效果。而隨機混合模塊通過生成新的混合幀,很好地規(guī)避了這個難題,使得塊與塊之間的過渡更加平滑自然。

      實驗數(shù)據(jù)顯示, StreamingT2V生成的1分鐘、2分鐘長視頻,不僅保持了高分辨率和清晰畫質(zhì),整體的時間連貫性也得到了很大提升。視頻中的物體運動姿態(tài)豐富,場景和物體隨時間的演變更加自然流暢,沒有突兀的斷層或凍結(jié)情況出現(xiàn)。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。

    即時

    TCL實業(yè)榮獲IFA2024多項大獎,展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產(chǎn)品設(shè)計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強大影響力。

    新聞

    敢闖技術(shù)無人區(qū) TCL實業(yè)斬獲多項AWE 2024艾普蘭獎

    近日,中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項AWE 2024艾普蘭大獎。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    “純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

    2024年3月12日,由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會在上海盛大舉行。

    研究

    2024全球開發(fā)者先鋒大會即將開幕

    由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經(jīng)濟發(fā)展(集團)有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。