文本直接生成2分鐘視頻，即將開源模型StreamingT2V

2024年04月01日 11:46:30 來源：AIGC開放社區(qū)公眾號

　　Picsart人工智能研究所、德克薩斯大學和SHI實驗室的研究人員聯(lián)合推出了StreamingT2V視頻模型。通過文本就能直接生成2分鐘、1分鐘等不同時間，動作一致、連貫、沒有卡頓的高質(zhì)量視頻。

　　雖然StreamingT2V在視頻質(zhì)量、多元化等還無法與Sora媲美，但在高速運動方面非常優(yōu)秀，這為開發(fā)長視頻模型提供了技術(shù)思路。

　　研究人員表示，理論上，StreamingT2V可以無限擴展視頻的長度，并正在準備開源該視頻模型。

　　StreamingT2V生成的2分鐘視頻

　　傳統(tǒng)視頻模型一直受訓練數(shù)據(jù)、算法等困擾，最多只能生成10秒視頻。Sora的出現(xiàn)將文生視頻領(lǐng)域帶向了一個全新的高度，突破了諸多技術(shù)瓶頸，僅通過文本就能生成最多1分鐘的視頻。

　　而StreamingT2V采用了創(chuàng)新的自回歸技術(shù)框架，通過條件注意力、外觀保持和隨機混合三大模塊，極大的延長了視頻的時間，同時保證動作的連貫性。

　　簡單來說，StreamingT2V使用了一種“擊鼓傳花”的方法，每一個模塊通過提取前一個視頻塊中的表示特征，來保證動作一致性、文本語義還原、視頻完整性等。

　　條件注意力模塊

　　條件注意力模塊是一種“短期記憶”，通過注意力機制從前一個視頻塊中提取特征，并將其注入到當前視頻塊的生成中，實現(xiàn)了流暢自然的塊間過渡，同時保留了高速運動特征。

　　先使用圖像編碼器對前一個視頻塊的最后幾幀（例如20幀）進行逐幀編碼，得到相應(yīng)的特征表示，并將這些特征送入一個淺層編碼器網(wǎng)絡(luò)(初始化自主模型的編碼器權(quán)重)進行進一步編碼。

　　然后將提取到的特征表示注入到StreamingT2V的UNet的每個長程跳躍連接處，從而借助前一視頻塊的內(nèi)容信息來生成新的視頻幀，但不會受到先前結(jié)構(gòu)、形狀的影響。

　　外觀保持模塊

　　為了保證生成視頻全局場景、外觀的一致性，StreamingT2V使用了外觀保持這種“長期記憶”方法。

　　外觀保持從初始圖像（錨定幀）中提取高級場景和對象特征，并將這些特征用于所有視頻塊的生成流程。這樣做可以幫助在自回歸過程中，保持對象和場景特征的連續(xù)性。

　　此外，現(xiàn)有方法通常只針對前一個視頻塊的最后一幀進行條件生成，忽視了自回歸過程中的長期依賴性。通過使用外觀保持，可以使用初始圖像中的全局信息，從而更好地捕捉到自回歸過程中的長期依賴性。

　　隨機混合模塊

　　前兩個模塊保證了StreamingT2V生成的視頻大框架，但是在分辨率、質(zhì)量方面還有欠缺，而隨機混合模塊主要用來增強視頻的分辨率。

　　如果直接增強質(zhì)量會耗費大量AI算力、時間，所以，隨機混合采用了自回歸增強的方法。

　　首先，研究人員將低分辨率視頻劃分為多個長度為24幀的視頻塊，這些塊之間是有重疊的。然后，利用一個高分辨率的視頻模型，對每一個視頻塊進行增強，得到對應(yīng)的高分辨率視頻塊。

　　例如，有兩個重疊的視頻塊A和B，重疊部分包含20幀。對于重疊部分的每一幀，隨機混合模塊會從A塊和B塊中各取出一幀，然后對這兩幀進行加權(quán)平均，生成一個新的混合幀。通過這種方式，重疊部分的每一幀都是A塊和B塊對應(yīng)幀的隨機混合。

　　而對于不重疊的部分，隨機混合模塊則直接保留原始視頻塊中的幀。經(jīng)過隨機混合后的視頻塊就可以輸入到高分辨率模型中進行增強。

　　研究人員指出，如果讓相鄰的兩個視頻塊直接共享完全相同的重疊幀，會導致視頻在過渡處出現(xiàn)不自然的凍結(jié)和重復效果。而隨機混合模塊通過生成新的混合幀，很好地規(guī)避了這個難題，使得塊與塊之間的過渡更加平滑自然。

　　實驗數(shù)據(jù)顯示， StreamingT2V生成的1分鐘、2分鐘長視頻，不僅保持了高分辨率和清晰畫質(zhì)，整體的時間連貫性也得到了很大提升。視頻中的物體運動姿態(tài)豐富，場景和物體隨時間的演變更加自然流暢，沒有突兀的斷層或凍結(jié)情況出現(xiàn)。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹慎對待。投資者據(jù)此操作，風險自擔。

即時

2024年的Adobe MAX 2024發(fā)布會上，Adobe推出了最新版本的Adobe Creative Cloud。

感谢您访问我们的网站，您可能还对以下资源感兴趣：
台湾中文娱乐网