Sora的最強(qiáng)競爭對手，來自中國

2024年05月08日 10:23:35 來源：解碼

　　今年2月發(fā)布的Sora，先是引得業(yè)界“哇聲一片”，馬斯克直接表態(tài)「人類愿賭服輸」;周鴻祎說借助Sora人類實(shí)現(xiàn)AGI將縮減至一兩年。

　　大佬的彩虹屁不是白吹的。利用Diffusion+Transformer架構(gòu)，Sora借助圖像處理、空間關(guān)系、物理規(guī)律、因果邏輯等規(guī)律與知識，在十幾秒、幾十秒的視頻中完成對現(xiàn)實(shí)世界的解構(gòu)與再造。

　　但沒過多久人們就發(fā)現(xiàn)，再多的“哇聲一片”也改變不了Sora算法閉源的事實(shí)，意味著它無法復(fù)現(xiàn)。留給外界的是一道單選題：要么加入，要么自研。

　　變局

　　在Sora發(fā)布后兩個月，大洋彼岸突然有一家初創(chuàng)公司，與清華大學(xué)聯(lián)手，推出了一款號稱“繼Sora后首個完成突破的視頻大模型”——Vidu。

　　這是中國首個長時長、高一致性、高動態(tài)性的視頻大模型。在官方介紹中，Vidu采用原創(chuàng)U-ViT架構(gòu)，結(jié)合Difusion與Transformer技術(shù)，能夠一鍵生成長達(dá)16秒、1080P分辨率的高清視頻。

　　在對標(biāo)Sora的性能指標(biāo)里，Vidu也只有在時長和圖/視頻生視頻上不敵。按照業(yè)內(nèi)的評價，Vidu性能直接對標(biāo)國際頂尖水平，并在加速迭代提升中。

　　從Vidu放出的官方視頻來看，它幾乎展示了視頻大模型需具備的所有核心能力：多鏡頭生成、模擬真實(shí)世界、保持時空一致性、豐富的想象力，以及讓老外難以搞懂的中國元素。

　　作為“鏡頭語言”，多鏡頭生成是視頻大模型的一堂必修課�，F(xiàn)有的AI生成視頻，大多都只包含了輕微幅度的推、拉、移等簡單鏡頭，鏡頭語言單調(diào)而且也沒什么敘事感，這是硬傷。

　　究其原因，是因?yàn)楝F(xiàn)有視頻內(nèi)容沿用的技術(shù)路徑大多通過圖片的插幀和拼接而成，無法完成長時序的連貫預(yù)測。

　　Vidu似乎沒有上述問題，不僅能夠圍繞統(tǒng)一主體在一段畫面里實(shí)現(xiàn)遠(yuǎn)、中、近景、特寫等多樣化鏡頭切換，還能直接生成轉(zhuǎn)場、追焦、長鏡頭等效果，包括能夠生成影視級的鏡頭畫面。

　　AI視頻生成的另一個難題是，較難突破畫面時空一致性與場景。什么是畫面時空一致性，翻譯過來就是在沒有任何轉(zhuǎn)場的情況下不能突變。一個典型的例子就是某些大模型的視頻中，一只貓走著走著就變成了6只腳。

　　Vidu在一定程度上也克服了這個問題，起碼從它生成的一段“帶珍珠耳環(huán)的貓”的視頻中可以看到，隨著鏡頭的移動，作為畫面主體的貓?jiān)?D空間下能夠一直保持服飾、表情、模態(tài)的一致，視頻整體看上去非常的連貫、統(tǒng)一和流暢。

　　模擬真實(shí)物理世界運(yùn)動同樣是視頻大模型的核心，Vidu在對外放出的展示視頻中，有一段明顯是瞄著Sora打：模擬“一輛老式SUV行駛在山坡上”，Vidu的表現(xiàn)堪稱完美，灰塵、光影、背景等細(xì)節(jié)與真實(shí)世界中人類的感知幾乎無差。

　　在對不存在的超現(xiàn)實(shí)主義畫面解構(gòu)上，Vidu也能做到“合理的奇幻”。例如，“帆船”、“海浪”能夠合理地出現(xiàn)在畫室里，而且海浪與帆船的整體交互背景非常恰當(dāng)自然。

　　當(dāng)然，作為本土團(tuán)隊(duì)開發(fā)的視頻大模型，Vidu對中國元素的理解遠(yuǎn)超那些舶來品，比如熊貓、龍、宮殿場景等。

　　德邦證券在一份研報中給予了Vidu高度評價：

　　雖然在視頻時長、視頻效果、支持模態(tài)多樣性等方面相比Sora仍有提升空間，但是在以鏡頭語言為代表的動態(tài)性，以及對物理世界規(guī)律的理解與模擬能力等方面已做到了Sora相近水平。

　　最后還不忘給Vidu貼上一個鯰魚標(biāo)簽，意思是它或?qū)⒓顕a(chǎn)多模態(tài)大模型突破創(chuàng)新。那么問題來了，憑什么是Vidu?

　　U-ViT架構(gòu)

　　Vidu背后的生數(shù)科技，并不是一家名不見經(jīng)傳的初創(chuàng)企業(yè)。

　　OpenAI曾披露過一份技術(shù)報告，顯示Sora的核心技術(shù)架構(gòu)源自一篇名為《Scalable Diffusion Models with Transformers》的論文，論文提出了一個將 Diffusion(擴(kuò)散模型)和 Transformer融合的架構(gòu)——DiT，也就是后面被Sora采用的那個。

　　而在DiT提出前兩個月，清華團(tuán)隊(duì)就提出了用Transformer替代基于CNN的U-Net的網(wǎng)絡(luò)架構(gòu)U-ViT，也就是Vidu采用的那個。甚至，據(jù)極客公園報道，因?yàn)閁-ViT更早發(fā)布，計(jì)算機(jī)視覺頂會CVPR 2023收錄了清華大學(xué)的U-ViT論文，卻以「缺乏創(chuàng)新」為由拒稿了Sora底層使用的DiT論文。

　　生數(shù)科技的核心團(tuán)隊(duì)就源于清華大學(xué)該論文團(tuán)隊(duì)，CTO鮑凡正是該篇論文的一作。嚴(yán)格意義說，Vidu并不是“國產(chǎn)Sora”，而是一棵樹上的兩朵花。

　　之所Vidu能在兩個月內(nèi)快速突破16s流暢視頻生成，核心就在于團(tuán)隊(duì)對U-ViT架構(gòu)的深入理解以及長期積累的工程與數(shù)據(jù)經(jīng)驗(yàn)。而且據(jù)透露，3月份內(nèi)部就實(shí)現(xiàn)了8秒的視頻生成，緊接著4月份就突破了16s生成。

　　簡單來說，在架構(gòu)上U-ViT也是Diffusion和Transformer融合的架構(gòu)，路徑以及部分結(jié)論都是相似的。

　　U-ViT與DiT二者均提出了將Transformer與擴(kuò)散模型融合的思路，即以Transformer的網(wǎng)絡(luò)架構(gòu)替代基于CNN的U-Net架構(gòu)，并且具體的實(shí)驗(yàn)路徑也是一致的。比如，二者采用了相同的patch embedding、patch size;二者得出了同樣的結(jié)論：patch size為2*2是最理想的。

　　不同于采用插幀等處理長視頻的方法，U-ViT架構(gòu)在感官上注重“一鏡到底”，視頻質(zhì)量更為連貫與自然。從底層來看，這是一種“一步到位”的實(shí)現(xiàn)方法，基于單一模型完全端到端生成，不涉及中間的插幀和其他多步驟的處理，文本到視頻的轉(zhuǎn)換是直接且連續(xù)的。

　　有了理論支撐，就要考研團(tuán)隊(duì)的工程化能力了。所謂工程化，抽象點(diǎn)說就是增強(qiáng)產(chǎn)品的架構(gòu)設(shè)計(jì)，提升產(chǎn)品模塊的復(fù)用性和擴(kuò)展性。

　　2023年3月，基于U-ViT架構(gòu)，生數(shù)科技團(tuán)隊(duì)開源了全球首個基于U-ViT融合架構(gòu)的多模態(tài)擴(kuò)散模型UniDiffuser，率先完成了U-ViT架構(gòu)的大規(guī)�？蓴U(kuò)展性驗(yàn)證，比同樣DiT架構(gòu)的Stable Diffusion 3領(lǐng)先了一年。

　　UniDiffuser是在大規(guī)模圖文數(shù)據(jù)集LAION-5B上訓(xùn)練出的近10億參數(shù)量模型，支持圖文模態(tài)間的任意生成和轉(zhuǎn)換，具有較強(qiáng)的擴(kuò)展性。簡單來講，除了單向的文生圖，還能實(shí)現(xiàn)圖生文、圖文聯(lián)合生成、無條件圖文生成、圖文改寫等多種功能。

　　視頻本質(zhì)是圖片的集合，實(shí)現(xiàn)圖像在時間維度的擴(kuò)增，這使得圖文任務(wù)取得的成果往往可以在視頻領(lǐng)域復(fù)用。

　　例如，Sora采用了DALL・E 3的重標(biāo)注技術(shù)，通過為視覺訓(xùn)練數(shù)據(jù)生成詳細(xì)的描述，使模型能夠更加準(zhǔn)確地遵循用戶的文本指令生成視頻。Vidu同樣復(fù)用了生數(shù)科技在圖文領(lǐng)域的眾多經(jīng)驗(yàn)，靠的就是扎實(shí)的工程化能力。

　　根據(jù)甲子光年，生數(shù)科技團(tuán)隊(duì)通過視頻數(shù)據(jù)壓縮技術(shù)降低輸入數(shù)據(jù)的序列維度，同時采用自研的分布式訓(xùn)練框架，在保證計(jì)算精度的同時，通信效率提升1倍，顯存開銷降低80%，訓(xùn)練速度累計(jì)提升40倍。

　　目前，Vidu仍在加速迭代，未來將從圖任務(wù)的統(tǒng)一到融合視頻能力持續(xù)升級，靈活的模型架構(gòu)也將能夠兼容更廣泛的多模態(tài)能力。

　　加速向應(yīng)用端延伸

　　以O(shè)pen AI與Google為代表的科技巨頭，正在海外掀起一場多模態(tài)“軍備競賽”，而最大的目標(biāo)之一正是視頻領(lǐng)域的加速迭代。

　　先是OpenAI CEO年初密集“劇透”GPT-5，相比GPT-4實(shí)現(xiàn)全面升級，其中將支持文本、圖像、代碼和視頻功能，或?qū)?shí)現(xiàn)真正的多模態(tài)。緊接著就是2月發(fā)布的Sora，能夠根據(jù)文本指令或靜態(tài)圖像生成1分鐘的視頻。

　　Google也不遑多讓，推出的原生多模態(tài)大模型Gemini可泛化并無縫地理解、操作和組合不同類別的信息。而2月推出的Gemini 1.5 Pro，則使用MoE架構(gòu)首破100萬極限上下文紀(jì)錄，可單次處理包括1小時的視頻、11小時的音頻、超過3萬行代碼或超過70萬個單詞的代碼庫。

　　國內(nèi)也不甘人后，除生數(shù)科技發(fā)布Vidu外，潞晨科技對其開源文生視頻模型Open-Sora 進(jìn)行了大更新，現(xiàn)在可生成16秒，分辨率720P的視頻。同時具備可以處理任何寬高比的文本到圖像、文本到視頻、圖像到視頻、視頻到視頻和無限長視頻的多模態(tài)功能，性能加速向Sora靠齊。

　　而國內(nèi)外瘋狂押注的底層邏輯是，多模態(tài)提升了大模型的泛化能力，在多元信息環(huán)境下實(shí)現(xiàn)了“多專多能”。多模態(tài)尤其是視頻大模型的成熟成為奠定AIGC應(yīng)用普及的基礎(chǔ)，在垂直領(lǐng)域具有廣闊的應(yīng)用場景和市場價值。

　　比如上個月Adobe就宣布，將Sora、Pika、Runway等集成在視頻剪輯軟件Premiere Pro中。在發(fā)布短片中，Premiere Pro展現(xiàn)出了在視頻中添加物體、消除物體以及生成視頻片段等能力。

　　通過AI驅(qū)動的音頻功能已普遍可用，可使音頻的編輯更快、更輕松、更直觀。而AI驅(qū)動的視頻功能，將是多模態(tài)大模型在AIGC應(yīng)用融合中的重要嘗試，更深層的意義是，它或?qū)⒋呱磥砀喱F(xiàn)象級應(yīng)用的開發(fā)。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險自擔(dān)。

[No. ]
分享到微信

即時

TCL實(shí)業(yè)榮獲IFA2024多項(xiàng)大獎，展示全球科技創(chuàng)新力量

近日，德國柏林國際電子消費(fèi)品展覽會(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計(jì)及應(yīng)用方面的創(chuàng)新變革，全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)成功斬獲兩項(xiàng)“IFA全球產(chǎn)品設(shè)計(jì)創(chuàng)新大獎”金獎，有力證明了其在全球市場的強(qiáng)大影響力。

服貿(mào)會高通展示開放創(chuàng)新生態(tài)，以5G、AI等技術(shù)促進(jìn)合作共贏

OPPO續(xù)約歐洲冠軍聯(lián)賽未來三季再續(xù)輝煌

新聞

敢闖技術(shù)無人區(qū) TCL實(shí)業(yè)斬獲多項(xiàng)AWE 2024艾普蘭獎

近日，中國家電及消費(fèi)電子博覽會(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相，以敢為精神勇闖技術(shù)無人區(qū)，斬獲四項(xiàng)AWE 2024艾普蘭大獎。

企業(yè)IT

重慶創(chuàng)新公積金應(yīng)用，“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

“以前都要去窗口辦，一套流程下來都要半個月了，現(xiàn)在方便多了!”打開“重慶公積金”微信小程序，按照提示流程提交相關(guān)材料，僅幾秒鐘，重慶市民曾某的賬戶就打進(jìn)了21600元。

3C消費(fèi)

“純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

2024年3月12日，由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會在上海盛大舉行。

研究

2024全球開發(fā)者先鋒大會即將開幕

由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導(dǎo)，由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”，將于2024年3月23日至24日舉辦。

專題

2021 CCF全國高性能計(jì)算學(xué)術(shù)年會

返回主頁 ┊ 關(guān)于我們 ┊ 內(nèi)容聯(lián)系 ┊ 聯(lián)系我們 ┊ 免責(zé)聲明 ┊ 原創(chuàng)新聞 ┊ 友情鏈接 ┊ 舊版首頁

感谢您访问我们的网站，您可能还对以下资源感兴趣：
台湾中文娱乐网
久久精品视频国产女人扒开腿让人桶视频男女做爰猛烈叫床视频免费 99精品久久久中文字幕欧美日韩一区精品视频

Sora的最強(qiáng)競爭對手，來自中國

擴(kuò)展閱讀