昨天,快手公司推出了一款名為「可靈」的全新視頻生成大模型,該模型采用了與Sora相似的技術路線,并結(jié)合了快手自研的多項技術創(chuàng)新。這款模型不僅能夠生成長達2分鐘、30fps、1080p分辨率的超長視頻,支持多種寬高比,還能模擬物理世界的特性,精準建模復雜運動。
亮點:
1、生成能力強大:
支持長達2分鐘的30fps高清視頻生成,分辨率高達1080p。
支持多種寬高比,包括豎版視頻,非常適合快手的短視頻生態(tài)。
2、運動和物理模擬:
準確刻畫復雜、大幅度的運動,如公路上奔跑的老虎、宇航員在月球上行走等。
能夠模擬物理特性,如重力、液體流動和光學反射等,生成的畫面更符合真實物理規(guī)律。
3、應用場景廣泛:
從娛樂到教育,可靈的應用場景廣泛。
支持文本轉(zhuǎn)視頻、多種控制信息輸入、以及豐富的內(nèi)容控制能力。
「可靈」大模型夠準確刻畫復雜、大幅度的時空運動,如公路上高速奔跑的老虎,畫面連貫,動作協(xié)調(diào),甚至奔跑過程中軀干的抖動也得到了細致展現(xiàn)。它還能模擬真實物理世界的特性,比如倒牛奶時的重力規(guī)律和液面上升,以及光學上的反射規(guī)律。此外,「可靈」還能真實反映與真實物理世界的交互,如小男孩吃漢堡時齒印的變化等。
技術特點
1、原生視頻生成技術:
采用類似Sora的DiT結(jié)構(gòu),用Transformer代替?zhèn)鹘y(tǒng)的卷積網(wǎng)絡U-Net。
3D VAE網(wǎng)絡用于時空同步壓縮,提高重建質(zhì)量和訓練性能。
3D Attention機制用于時空建模,提升復雜時空運動的建模能力。
2、高質(zhì)量數(shù)據(jù)支持:
構(gòu)建了完備的標簽體系,對訓練數(shù)據(jù)進行精細化篩選和分布調(diào)整。
專用的視頻描述模型生成精確、詳盡的結(jié)構(gòu)化視頻描述,提升模型的文本指令響應能力。
3、高效訓練策略:
使用分布式訓練集群和優(yōu)化策略提高運算效率。
分階段訓練策略:初期低分辨率階段側(cè)重數(shù)量,后期高分辨率階段側(cè)重質(zhì)量,確保模型在各階段的優(yōu)化。
實際應用
1、快影APP:
可靈大模型已在快影APP中開啟邀測,當前版本支持生成720P視頻,豎版視頻生成能力即將開放。
2、其他應用:
“AI舞王”:上傳全身照,生成人物跟隨音樂跳舞的視頻。
“AI唱跳”:生成跳舞并唱歌的視頻。
未來還將推出圖生視頻功能。
快手在大模型技術方面動作迅速,與多個高校或科研機構(gòu)合作發(fā)布了多項關鍵技術,為「可靈」大模型積累了深厚的技術沉淀,F(xiàn)在,快手的文生視頻功能已正式亮相,期待其在短視頻場景中的應用落地。
對AI視頻創(chuàng)作感興趣的用戶,可以在快影APP中體驗「可靈」大模型的功能。
體驗方法:快影 APP-AI 玩法-AI 視頻生成中申請。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。
近日,德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術、產(chǎn)品設計及應用方面的創(chuàng)新變革,全球領先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產(chǎn)品設計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強大影響力。
近日,中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術和新品亮相,以敢為精神勇闖技術無人區(qū),斬獲四項AWE 2024艾普蘭大獎。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導,由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經(jīng)濟發(fā)展(集團)有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。