首頁 > 云計算頻道 > 大模型

潞晨Open-Sora技術路線公開，一鍵生成16秒720p視頻，質(zhì)量更高訓練成本更低

2024年06月18日 14:04:35 來源：量子位公眾號

　　16秒720p高清視頻，現(xiàn)在人人可免費一鍵生成!

　　無論是精致的人物肖像:

　　還是炫酷的科幻大片:

　　亦或是生動有趣的動畫:

　　流暢的變焦效果:

　　以上生成效果，全部來自免費開源的潞晨Open-Sora。

　　從3月發(fā)布以來，潞晨Open-Sora一直熱度不減，GitHub上攬星已經(jīng)17.5K。

　　(GitHub:https://github.com/hpcaitech/Open-Sora)

　　英偉達入股的AI公司Lambda Labs，也基于潞晨Open-Sora模型權(quán)重打造了數(shù)字樂高宇宙。

　　而在公布模型權(quán)重和訓練細節(jié)后，潞晨Open-Sora還在持續(xù)開源中。

　　最近，其幕后團隊在GitHub上曬出了技術路線，進一步披露了最新版本模型的訓練核心內(nèi)容報告地址:https://github.com/hpcaitech/Open-Sora/blob/main/docs/report_03.md。

　　具體細節(jié)，一起來看。

　　訓練成本再降低

　　最新版本的潞晨Open-Sora在此前基礎上引入了視頻壓縮網(wǎng)絡(Video Compression Network)、更優(yōu)擴散模型算法、更多的可控性，并利用更多數(shù)據(jù)訓練出了1.1B擴散生成模型。

　　能在保障模型輸出質(zhì)量的同時，降低計算資源的消耗。

　　其中，引入視頻壓縮網(wǎng)絡是OpenAI的Sora同款方法。它能在時間維度上進行4倍壓縮，無需抽幀，可以使用原始FPS生成視頻。

　　考慮到訓練一個3D VAE的成本太高，團隊嘗試讓模型重新利用在2D VAE中學習到的知識。在2D VAE壓縮后，時間維度上的相鄰特征仍然高度相關。

　　因此團隊提出了一個簡單的視頻壓縮網(wǎng)絡(即VAE)，它能首先在空間維度上實現(xiàn)8x8倍的壓縮，再從時間維度上壓縮4倍。

　　該網(wǎng)絡框架如下:

　　具體訓練過程分為三步:

　　1、前380K步，在8個GPU上訓練，凍結(jié)2D VAE的權(quán)重，只訓練3D VAE部分，即對時間維度的壓縮重建。訓練目標為對2D VAE encoder輸出的特征進行時間維度的壓縮重建，并添加一個identity loss使得新訓練的3D VAE輸出的特征盡可能和原始2D VAE的特征相似。團隊發(fā)現(xiàn)加上這種identity loss可以很快讓整個VAE達到良好的壓縮重建性能，并在下一階段收斂速度快很多。

　　2、接下來的260K步，移除掉identity loss，繼續(xù)單獨訓練3D VAE部分。

　　3、最后540K步，由于發(fā)現(xiàn)只重建2D VAE特征并不能進一步提升性能，所以解凍了2D VAE權(quán)重，開始訓練整個VAE模型來重建原始視頻。該階段在24個GPU上完成。

　　其中前兩個階段的訓練數(shù)據(jù)使用20%圖像和80%視頻，視頻用17幀進行訓練;最后一個階段用34幀的隨機幀數(shù)視頻進行訓練，使VAE模型可以壓縮任意長度的視頻。訓練和推理的代碼已開源。

　　Rectified flow和模型適配

　　另外，基于最新Stable Diffusion3的開源成果，提供了一套完整的訓練解決方案。

　　Stable Diffusion3通過采用了rectified flow技術替代 DDPM，顯著提升了圖片和視頻生成的質(zhì)量。

　　潞晨Open-Sora團隊帶來的技術包括:

　　簡單易用的整流(rectified flow)訓練

　　用于訓練加速的 Logit-norm 時間步長采樣

　　基于分辨率和視頻長度的時間步長采樣

　　通過這些技術的整合，不僅能夠加快模型的訓練速度，還能顯著減少推理階段的等待時間，確保用戶體驗的流暢性。

　　此外，這套訓練方案還支持在推理過程中輸出多種視頻寬高比，滿足了多樣化場景下的視頻素材需求，為視頻內(nèi)容創(chuàng)作者提供了更加豐富的創(chuàng)作工具.