人類離電影《黑客帝國》的場景,似乎又近了一步。
因?yàn)榫驮趧倓,一個(gè)與電影同名的、首個(gè)AI基礎(chǔ)世界模擬器——The Matrix問世。
它已經(jīng)可以實(shí)現(xiàn)生成無限長、高保真720p真實(shí)場景視頻,而且還是可以實(shí)時(shí)交互的那種!
話不多說,直接來看一個(gè)長達(dá)14分鐘的效果:
而這個(gè)時(shí)長還只是demo展示的長度,The Matrix可以做到在長達(dá)1個(gè)小時(shí)的時(shí)間里,穿梭沙漠、草原、水體和城市等景觀。
在此期間,還可以通過按鍵W(前)、S(后)、A(左)和D(右)來實(shí)時(shí)控制——
每秒16幀,幀幀可控。
The Matrix項(xiàng)目是由全華人團(tuán)隊(duì)打造,作者分別來自阿里巴巴、香港大學(xué)、滑鐵盧大學(xué)和加拿大AI研究機(jī)構(gòu)Vector Insititute。
而之所以團(tuán)隊(duì)將研究取名為The Matrix,是因?yàn)槠湫Ч蛢?nèi)容與電影《黑客帝國》中的一句話類似:
這是你熟悉的世界;這是20世紀(jì)末的世界。它現(xiàn)在只存在于我們稱之為Matrix的神經(jīng)交互模擬系統(tǒng)中。
This is the world that you know; the world as it was at the end of the20th century. It exists now only as part of a neural-interactive simulation that we call the Matrix.
網(wǎng)友們看罷,評(píng)論區(qū)已經(jīng)一片“crazy”、“amazing”的聲音:
但除了無限生成、效果逼真和實(shí)時(shí)可控之外,The Matrix還解鎖了一項(xiàng)能力。
零樣本,就可以直接泛化
The Matrix的訓(xùn)練數(shù)據(jù)主要由兩部分組成。
首先是通過像《極限競速:地平線》和《賽博朋克2077》這樣的3A游戲的監(jiān)督數(shù)據(jù)來進(jìn)行訓(xùn)練;其次再輔以大量的現(xiàn)實(shí)世界場景(如東京街頭)的無監(jiān)督視頻。
而與以往研究不同的是,The Matrix可以在沒有上述數(shù)據(jù)學(xué)習(xí)的情況下(零樣本),可以理解和預(yù)測不同環(huán)境中物體的行為和交互。
例如下面這個(gè)“寶馬X3在辦公環(huán)境中行駛”的場景,這是在游戲數(shù)據(jù)和現(xiàn)實(shí)世界數(shù)據(jù)中都未出現(xiàn)過的環(huán)境:
再如“車在水里游泳”:
The Matrix還支持以第一視角的方式來看世界:
就連真實(shí)世界中的物體,甚至人物,都是可控的:
從實(shí)驗(yàn)結(jié)果上來看,與近期主流的游戲仿真生成模型比較,不論是時(shí)長還是效果等,The Matrix都已經(jīng)達(dá)到了領(lǐng)先的效果:
怎么做到的?
從技術(shù)角度來看,The Matrix的核心由三大模塊組成。
首先是交互模塊(Interactive Module)。
這個(gè)模塊用于理解用戶的輸入(如鍵盤輸入)并將其整合到視頻生成中,實(shí)現(xiàn)幀級(jí)別的精確控制。
為了增強(qiáng)模型的交互性,研究人員對(duì)一個(gè)預(yù)訓(xùn)練的 Diffusion Transformer (DiT) 模型進(jìn)行調(diào)優(yōu),使得交互模塊不僅能夠應(yīng)對(duì)已知數(shù)據(jù),還能泛化到無標(biāo)簽的數(shù)據(jù)。
其次是移窗去噪過程模型(Shift-Window Denoising Process Model, Swin-DPM)。
這個(gè)新穎的擴(kuò)散模型通過使用滑動(dòng)的時(shí)間窗口來處理長時(shí)間依賴關(guān)系,從而實(shí)現(xiàn)無限長視頻的生成。
該模型能夠以連續(xù)、平滑的方式生成視頻,解決了傳統(tǒng)模型在長序列生成時(shí)遇到的記憶瓶頸。
最后是流一致性模型(Stream Consistency Model, SCM)。
為了實(shí)現(xiàn)實(shí)時(shí)生成,The Matrix 集成了一種名為流一致性模型的技術(shù),使得推理速度加快10-20倍,最終實(shí)現(xiàn)8-16FPS 的實(shí)時(shí)生成速度。
此外,研究人員還開發(fā)了一個(gè)名為GameData的平臺(tái),用于自動(dòng)捕獲游戲中的狀態(tài)數(shù)據(jù)和視頻幀,并生成標(biāo)注的動(dòng)作幀數(shù)據(jù)集。
這個(gè)數(shù)據(jù)集結(jié)合了真實(shí)世界的視頻數(shù)據(jù),既幫助模型學(xué)習(xí)具體動(dòng)作控制,又增強(qiáng)了模型的視覺質(zhì)量和域泛化能力。
團(tuán)隊(duì)介紹
正如我們剛才提到的,The Matrix的作者均為華人。
其中,項(xiàng)目負(fù)責(zé)人主要是兩位,分別是Hongyang Zhang和Ruili Feng。
Hongyang Zhang目前是滑鐵盧大學(xué)的助理教授,帶領(lǐng)SafeAI Lab;其主要研究方向包括基礎(chǔ)模型的研究。
另一位則是來自阿里巴巴的Ruili Feng。
若是大家對(duì)研究感興趣,可戳下方鏈接查看詳情。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
2024年的Adobe MAX 2024發(fā)布會(huì)上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專題論壇在沈陽成功舉辦。