來采銷直播間看京東11.11外設辦公總裁直播 11日14點準時開播第七屆進博會盤點:高通攜手伙伴展示的驍龍8至尊版旗艦終端備受關注產業(yè)合作推動AI發(fā)展 高通孟樸:攜手伙伴共抓5G+AI新機遇進博會看技術變化,從5G手機到AI終端,高通技術支持行業(yè)拓展    高通獲頒“2024新消費創(chuàng)新案例”,5G-A推動數(shù)字消費高質量發(fā)展3G追趕,4G并行,5G趕超!高通孟樸進博會談與中國伙伴合作歷程京東11.11巔峰28小時倒計時 爆款耳機音箱5折開搶手機內卷下一站,AI Agent消息稱著名 AI 學者、天工智能首席科學家顏水成離開昆侖萬維昆侖萬維SkyReels AI短劇平臺將于12月10日在美國正式上線韓國今年進口柴油車銷量預計跌破 1 萬輛,創(chuàng)近 17 年新低讓游戲黨一秒種草的大屏電視?海信這款百吋旗艦做到了!為用戶節(jié)省超120萬元 京東11.11攜手奔圖加速打印國產化進程京東3C數(shù)碼“瘋狂星期一”驚喜放價 TP-LINK攝像頭限時直降210元11月9日晚8點京東11.11火熱開啟!潮流配件9.9元起京東11.11最后一波Apple大放價 iPhone 16 Pro系列持續(xù)加補1600元2024 ROG DAY狂歡啟航,ROG電競顯示器助力三大戰(zhàn)車燃爆鄭州站!來京東11.11一次性搞定視頻、音頻等APP會員充值 省錢又省心歐萊雅中國"FUN YOUniverTH有意思青年"創(chuàng)變盛典耀動進博會先采后付、按需配送還能享受大幅折扣,京東企業(yè)計劃購助力客戶11.11超值囤貨
  • 首頁 > 云計算頻道 > 大模型

    開源Open-Sora大更新:可生成16秒,720P高清視頻

    2024年04月29日 11:21:28   來源:AIGC開放社區(qū)公眾號

      國內著名大模型開源公司潞晨科技,對其開源文生視頻模型Open-Sora進行了大更新,現(xiàn)在可生成16秒,分辨率高達720P的視頻。

      同時具備可以處理任何寬高比的文本到圖像、文本到視頻、圖像到視頻、視頻到視頻和無限長視頻的多模態(tài)功能。

      本次潞晨科技已經把Open-Sora的模型架構、最新的模型權重、多時間/分辨率/長寬比/幀率的訓練流程、數(shù)據(jù)收集和預處理的完整流程、所有的訓練細節(jié)進行了全部開源。

      目前,Open-Sora在github超過16,000顆星,是國內乃至全球領先的類Sora開源模型之一。

      開源地址:https://github.com/hpcaitech/Open-Sora?tab=readme-ov-file

      Open-Sora架構升級

      Open-Sora本次升級對1.0版本中的STDiT架構進行了關鍵性改進,旨在提高模型的訓練穩(wěn)定性和整體性能。

      針對當前的序列預測任務,團隊采納了大型語言模型的最佳實踐,將時序注意力中的正弦波位置編碼替換為更加高效的旋轉位置編碼。

      此外,為了增強訓練的穩(wěn)定性參考SD3模型架構,進一步引入了QK歸一化技術,以增強半精度訓練的穩(wěn)定性。

      為了支持多分辨率、不同長寬比和幀率的訓練需求,提出的ST-DiT-2架構能夠自動縮放位置編碼,并處理不同大小尺寸的輸入。

      多階段訓練

      在新版本Open-Sora中采用了一種多階段訓練方法,每個階段都會基于前一個階段的權重繼續(xù)訓練。

      相較于單一階段訓練,這種多階段訓練通過分步驟引入數(shù)據(jù),更高效地實現(xiàn)了高質量視頻生成的目標。

      初始階段:大部分視頻采用144p分辨率,同時與圖片和240p、480p的視頻進行混訓,訓練持續(xù)約1周,總步長81k。

      第二階段:將大部分視頻數(shù)據(jù)分辨率提升至240p和480p,訓練時長為1天,步長達到22k。

      第三階段:進一步增強至480p和720p,訓練時長為1天,完成了4k步長的訓練。整個多階段訓練流程在約9天內完成。

      統(tǒng)一的圖生視頻/視頻生視頻框架

      研究人員發(fā)現(xiàn),基于Transformer的特性,可以輕松擴展DiT架構以支持圖像到圖像以及視頻到視頻的任務,并提出了一種掩碼策略來支持圖像和視頻的條件化處理。

      通過設置不同的掩碼,可以支持各種生成任務,包括:圖生視頻,循環(huán)視頻,視頻延展,視頻自回歸生成,視頻銜接,視頻編輯,插幀等。

      受到UL2方法的啟發(fā),在模型訓練階段引入了一種隨機掩碼策略。具體而言,就是在訓練過程中以隨機方式選擇并取消掩碼的幀,包括但不限于取消掩碼第一幀、前k幀、后k幀、任意k幀等。

      基于Open-Sora1.0的實驗,應用50%的概率應用掩碼策略時,只需少量步數(shù)模型能夠更好地學會處理圖像條件化。在最新版的Open-Sora中,采用了從頭開始使用掩碼策略進行預訓練的方法。

      此外,還為推理階段提供了掩碼策略配置的詳細指南,五個數(shù)字的元組形式在定義掩碼策略時提供了極大的靈活性和控制力。

      支持多時間/分辨率/長寬比/幀率訓練

      OpenAI在Sora的技術報告指出,使用原始視頻的分辨率、長寬比和長度進行訓練可以增加采樣靈活性,改善幀和構圖。對此,提出了分桶的策略。

      所謂的桶,是分辨率、幀數(shù)、長寬比的三元組。為不同分辨率的視頻預定義了一系列寬高比,以覆蓋大多數(shù)常見的視頻寬高比類型。

      在每個訓練周期epoch開始之前,會對數(shù)據(jù)集進行重新洗牌,并將樣本根據(jù)其特征分配到相應的桶中。會將每個樣本放入一個分辨率和幀長度均小于或等于該視頻特性的桶中。

      為了降低計算資源的要求,研究人員為每個keep_prob 和 batch_size 引入兩個屬性(分辨率、幀數(shù)),以減少計算成本并實現(xiàn)多階段訓練。這樣就可以控制不同桶中的樣本數(shù)量,并通過為每個桶搜索良好的批大小來平衡 GPU 負載。

      數(shù)據(jù)收集和預處理流程

      在 Open-Sora1.0的開發(fā)過程中,研究人員意識到數(shù)據(jù)的數(shù)量和質量對于培育一個高效能模型極為關鍵。

      因此,新版本中致力于擴充和優(yōu)化數(shù)據(jù)集,建立了一個自動化的數(shù)據(jù)處理流程,該流程遵循奇異值分解(SVD)原則,涵蓋了場景分割、字幕處理、多樣化評分與篩選,以及數(shù)據(jù)集的管理系統(tǒng)和規(guī)范。

      同樣,潞晨科技也將數(shù)據(jù)處理的相關腳本無私地分享至開源社區(qū)。感興趣的小伙伴們現(xiàn)在可以利用這些資源,結合技術報告和代碼高效地處理和優(yōu)化自己的數(shù)據(jù)集。

      文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。

    即時

    京東11.11跟著采銷走進科大訊飛 直播間享專享價與超值福利

    京東11.11采銷直播探廠為消費者揭開答案。近日,京東3C數(shù)碼采銷走進武漢攀升工廠、合肥聯(lián)想工廠和科大訊飛展廳,通過直播帶貨廠商爆款產品,并為消費者帶來超值低價與福利。

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應用,“區(qū)塊鏈+政務服務”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網標識解析體系

    9月14日,2024全球工業(yè)互聯(lián)網大會——工業(yè)互聯(lián)網標識解析專題論壇在沈陽成功舉辦。