AI視頻何時才能跑出一個“Midjourney ”?

2024年01月05日 17:06:41 文｜郝鑫編｜劉雨琦 來源：光錐智能

　　文｜郝鑫

　　編｜劉雨琦

　　AI視頻一躍成為“明日之星”，大廠和創(chuàng)業(yè)公司們打得熱火朝天。

　　去年12月，Pika的出現(xiàn)仿佛點燃了AI視頻賽道的引線，一個月之內(nèi)冒出了近十家公司，谷歌、阿里、字節(jié)、騰訊競相下場，不斷將戰(zhàn)事推向了高潮。

　　“AI視頻的Midjourney V5時刻就要到了”，即將迎來成為生產(chǎn)力的關(guān)鍵時刻。

　　2022年～2023年，文生圖的技術(shù)以肉眼可見的速度迭代進(jìn)化。Midjourney平均3個月一個版本，一路從V1狂奔到了V6，實現(xiàn)了從“面目全非”到“細(xì)膩逼真”的里程碑式的巨變。文生圖技術(shù)以月為單位的進(jìn)化速度，像一把節(jié)奏緊湊的小錘，不停提醒所有AI視頻的公司們，留給他們成長的時間，不多了。

　　如今AI視頻的發(fā)展軌跡也正在慢慢向文生圖靠攏，“Midjourney V5”成為了一個關(guān)鍵性的臨界點：一旦突破，用戶將大規(guī)模涌入，數(shù)據(jù)飛輪開始轉(zhuǎn)動，效果日新月異，一步步推動著文生視頻從“玩具”蛻變?yōu)?ldquo;生產(chǎn)力”。

　　從文字到圖片、視頻的發(fā)展一脈相承，從文生圖的進(jìn)化歷程中，也可以找尋到AI視頻的影子。

　　當(dāng)AI視頻成為生產(chǎn)力后，才是產(chǎn)業(yè)鏈齒輪開始轉(zhuǎn)動的開端。只有能用起來，才能誕生目標(biāo)用戶群體;只有能留存住用戶，產(chǎn)生持續(xù)性的付費，才能構(gòu)建起清晰的商業(yè)模式;也只有跑通了商業(yè)模式，池子里的企業(yè)才能存活下來，用消費端推動供給端，才能盤活整個AI視頻產(chǎn)業(yè)。

　　“AI視頻行業(yè)的生產(chǎn)力”——這恰恰才是現(xiàn)在各路玩家爭奪的價值所在。

　　夢工廠創(chuàng)始人Jeffrey Katzenberg在近期預(yù)測，“生成式AI將使動畫電影的成本，在未來3年內(nèi)降低90%，該技術(shù)將給媒體和娛樂行業(yè)帶來徹底的顛覆”。

　　“未來可能實現(xiàn)以每秒30幀的高分辨率實時生成內(nèi)容，并且到2030年，可能會實現(xiàn)整個視頻游戲的生成 ”，Midjourney首席執(zhí)行官DaVid Holz判斷道。

　　V5賽點已至，新一輪的排位賽正式打響，何時才能誕生下一個Midjourney?

　　AI視頻迎來“生產(chǎn)力”時刻

　　實際上，AI視頻幾乎與文生圖同一時期進(jìn)入到人們視野中。

　　2023年初，Midjourney帶火了文生圖，Runway則激起了“人人制作電影大片”的無限遐想。

　　彼時，看到文生圖領(lǐng)域在效果上大放異彩的Runway創(chuàng)始人曾表示：“希望 Gen-1 能像 Stable Diffusion 在圖像上所做的那樣為視頻服務(wù)。我們已經(jīng)看到了圖像生成模型的爆發(fā)，我相信2023年將會是視頻之年。”

　　但顯然這個論斷下得有點過早。2月，RunwayAI視頻編輯Gen-1發(fā)布，功能類似于AI版的PS，可通過文字輸入進(jìn)行視頻的風(fēng)格轉(zhuǎn)化和修改;3月，發(fā)布文生視頻模型Gen-2，支持文生視頻、文本+圖像生成視頻。

　　宣傳視頻很酷炫，但具體使用效果卻差強(qiáng)人意，出現(xiàn)了時長短、生成畫面不穩(wěn)定、指令理解出錯、沒有音頻、動作不連貫和不合理等等種種問題。

　　Runway打響AI視頻第一槍后，雖未停下腳步，但卻在視頻編輯工具的道路越走越遠(yuǎn)，運(yùn)動筆刷、文字轉(zhuǎn)語音、視頻合成等功能，只能算“錦上添花”。Gen-2遲遲沒有根本性的突破，也讓AI視頻沉寂了一段時間。

　　就在大家快要失去對AI視頻耐心的時候，去年12月，Pika、Genmo、Moonvalley、NeverEnds、谷歌VideoPoet、阿里Animate Anyone、字節(jié)Magic Animate，踏著希望之光來了。

　　在Pika的官方宣傳片中，僅需一句話，就生成了動畫版的馬斯克，不但神形兼?zhèn)�，而且背景和動作都非常合理連貫，面部一致性也驚人得完美。

　　在其官方展示的第一個視頻中，生成效果幾乎可以達(dá)到迪士尼等動畫電影公司的質(zhì)感。

　　據(jù)使用過Pika 1.0產(chǎn)品的用戶反映，Pika 1.0 支持3種方式生成視頻：文生視頻、圖生視頻、視頻轉(zhuǎn)視頻。3D和2D效果確實上了一個全新的臺階，逼真度、穩(wěn)定性、光影效果都可以吊打Gen-2。

　　“Pika 1.0和Gen-2仿佛不是一個時代的產(chǎn)品”，不少網(wǎng)友都在使用后給出了這樣的評價。

　　Pika們的爆火，要歸根于背后基建技術(shù)的成熟。其中最重要的就是AnimateDiff。這是一種基于Stable Diffusion文生圖模型所搭建起來的動畫框架，可讓生成的圖片直接動起來，字節(jié)、騰訊、阿里便是在這個框架的基礎(chǔ)上推出了自己的AI視頻模型。

　　當(dāng)然，除了AnimateDiff的廣泛應(yīng)用，也與大模型多模態(tài)的發(fā)展，息息相關(guān)。

　　Pika們的出現(xiàn)開啟了AI視頻的新篇章，AI視頻即將迎來“Midjourney V5”時刻。

　　這里面有兩層重要的變化，首先體現(xiàn)在生成層面。

　　V5階段，可達(dá)到更好的生成效果，在幾秒的生成時間內(nèi)能夠達(dá)到動作、表情、敘事邏輯的連貫性;更有效的控制方式，對輸入指令的理解、遵從，鏡頭、轉(zhuǎn)場、風(fēng)格轉(zhuǎn)化的控制都有了新的提升;更低的資源消耗，能夠以更短的時間、更少的算力調(diào)用，生成更高分辨率和優(yōu)質(zhì)的視頻，幾秒的視頻也可以達(dá)到幾十秒的效果。

　　更重要的體現(xiàn)在生產(chǎn)力的突破上。

　　以Midjourney為例，在V5階段，成為了UI設(shè)計師的設(shè)計工具，游戲原畫師的助手，跨境電商的商品展示、廣告營銷的素材庫。同樣在這個階段，AI視頻也將有可能生成廣告、短視頻、電影、游戲，成為可以替代編導(dǎo)、導(dǎo)演、演員、設(shè)計師的生產(chǎn)力工具。

　　大模型、擴(kuò)散模型

　　兩條技術(shù)路徑的殊途同歸

　　AI視頻就像一部電影大片，賣不賣座、叫不叫好，取決于劇本和特效兩個重要元素。其中，劇本對應(yīng)著AI視頻生成過程中的“邏輯”，特效則對應(yīng)著“效果”。

　　為了實現(xiàn)“邏輯”和“效果”，在AI視頻行業(yè)中，分化出了兩條技術(shù)路徑擴(kuò)散模型和大模型。

　　(圖：光錐智能自制)

　　AIGC火了以后，擴(kuò)散模型長期占據(jù)了圖像生成領(lǐng)域的主導(dǎo)位置，這背后要歸功于Stability AI的不斷開源，一方面讓更多的開發(fā)者加入到了精進(jìn)模型的隊伍中，另一方面也一手將擴(kuò)散模型捧到了文生圖領(lǐng)域的“王位”上。

　　如今，AI視頻自然也被深深地打上了擴(kuò)散模型的烙印。大廠和初創(chuàng)公司或多或少都在采訪和論文中提到過擴(kuò)散模型的思路，Pika一批新崛起的公司取擴(kuò)散模型之長，打造自身的新模型;英偉達(dá)、阿里、字節(jié)、騰訊等公司在其基礎(chǔ)之上，進(jìn)一步提升模型能力。

　　在大模型技術(shù)路線上，經(jīng)歷過一次改變。大模型面世的初期，AI視頻的主要思路是用訓(xùn)練大模型的那套方法，靠大參數(shù)、大數(shù)據(jù)來從頭構(gòu)建一個文生視頻的模型，比如2022年就問世的CogVideo就是這類代表。

　　但隨著大模型從單一文本邁向多模態(tài)，視頻就像之前文字、圖像生成一樣，成為了從大模型根上長出來的一項功能。從很早的時候，谷歌、微軟就在嘗試用大模型中Transformer的方法訓(xùn)練和增強(qiáng)現(xiàn)有的擴(kuò)散模型，但直到谷歌發(fā)布多模態(tài)大模型Gemini和VideoPoet視頻大模型后，大模型生視頻這條路才終于看到了曙光。

　　兩條技術(shù)路徑無好壞，但側(cè)重點不同，擴(kuò)散模型的核心在于“還原呈現(xiàn)”，重效果；而大模型核心在于“接收理解”，重邏輯。

　　正是基于這樣的特性，導(dǎo)致了走擴(kuò)散模型路線的AI視頻公司在細(xì)節(jié)刻畫和生成效果上優(yōu)勢更強(qiáng)，走多模態(tài)大模型路線的公司在連貫性和生成合理性上更好。

　　Pika聯(lián)合創(chuàng)始人兼CTO Chenlin Meng認(rèn)為，可以同時發(fā)揮兩條路徑的優(yōu)勢來構(gòu)建視頻模型，比如GPT一類的大模型可以捕捉上下文，視頻中也需要上下文控制生成每一幀從而達(dá)到系統(tǒng)的一致性;同時每一幀仍然是一張圖片，可以用擴(kuò)散模型來提高生成效果。

　　Pika的觀點不是個例，行業(yè)中越來越呈現(xiàn)出這樣的趨勢。原因在于，雖然現(xiàn)階段，Pika、Runway每一次升級都在效果宣傳上搏足了眼球，但要落地到廣告、電影、營銷等實際場景中，還有很大的距離。

　　英偉達(dá)高級研究科學(xué)家兼人工智能代理負(fù)責(zé)人，Jim Fan認(rèn)為，目前所生成的視頻只能被稱作“無意識的、局部的像素移動”，缺乏可以一以貫之的時間、空間、行為邏輯來控制生成過程。

　　有一個例子可以很好地理解當(dāng)前AI視頻發(fā)展現(xiàn)狀。在X上，一個名叫Ben Nash的網(wǎng)友，做了一個測試，用同樣的英文提示詞“威爾·史密斯吃意大利面”來測試Runway、Pika的視頻生成效果。結(jié)果發(fā)現(xiàn)，在兩個視頻中，雖然大致可以呈現(xiàn)出想要呈現(xiàn)的效果，但卻出現(xiàn)了“意大利面倒流”、“面被直接吸入嘴里”的滑稽場面。

　　Jim Fan表示：“到2024年我們將看到具有高分辨率和長時間連貫性的視頻生成。但這將需要更多的‘思考’，即系統(tǒng)2的推理和長期規(guī)劃(對應(yīng)System 1負(fù)責(zé)無意識的感覺運(yùn)動控制)”。

　　近期Runway也在官網(wǎng)宣布了一項新的長期研究項目“通用世界模型”(General Wold Models)，其解釋原因稱：“我們相信人工智能的下一個重大進(jìn)步將來自于理解視覺世界及其動態(tài)的系統(tǒng)。”

　　邏輯、思考、推理，或許將成為，2024年AI視頻的關(guān)鍵詞，兩條技術(shù)路線的融合也將成為常態(tài)。

　　生產(chǎn)力“解救”商業(yè)化

　　而一旦成為生產(chǎn)力，眼前AI視頻面臨的商業(yè)化困境，便迎刃而解。

　　生產(chǎn)力工具有兩個方向，向上走的專業(yè)化路線，和向下包容的大眾路線。但現(xiàn)階段，AI視頻行業(yè)多數(shù)還是以視頻剪輯工具的形態(tài)向用戶開放使用。

　　“工具即產(chǎn)品”在文生圖和AI視頻賽道十分普遍，大部分公司選擇方法就是，最開始先在Discord上小范圍開放測試，到正式開放使用，再到上線網(wǎng)站。

　　“工具”意味著專業(yè)性高、門檻高、操作復(fù)雜、上手困難，這就與易上手、操作便捷、體驗性高的“產(chǎn)品”拉開了差距。

　　舉一個很典型的例子，你需要花費時間、金錢成本在PR軟件上了解每個工具的功能是什么以及怎么使用這些工具，以達(dá)到比較好的視頻制作效果;但你打開抖音發(fā)布視頻只需三步，點擊加號-拍攝視頻-發(fā)布，下至幼兒園的孩子，上至60多歲的中老年人，都能覆蓋，這就是工具與產(chǎn)品最明顯的差異。

　　生產(chǎn)力未突破的前夜，工具即產(chǎn)品或許還將存在一段時間，但下一步擺在AI視頻公司面前的問題很明確：是要堅持走專業(yè)工具路線，還是要把門檻打下來，做下一個AI視頻版的“抖音”？

　　在這個問題上，Pika已經(jīng)率先做出了選擇，其創(chuàng)始人郭文景在采訪時表示：“我們開發(fā)的并不是電影制作工具，而是為日常消費者打造的產(chǎn)品——我們雖然有創(chuàng)造力，但并不是專業(yè)人士。”

　　落實到商業(yè)化上，郭文景稱Pika最終可能會推出分層訂閱模式，讓普通的付費用戶也能享用更多的功能，計劃通過這種方式，讓Pika與其他競品分出區(qū)別。

　　生產(chǎn)力能力欠缺的AI視頻工具也無法長期留住用戶，不斷地產(chǎn)生付費，從而形成健康的商業(yè)模式。現(xiàn)在的現(xiàn)狀是，用戶出于獵奇，或免費嘗鮮，或抱著試一試的心態(tài)訂閱一個月，到期過后，該視頻工具就被拋之腦后。

　　這對創(chuàng)業(yè)公司的打擊是巨大的，沒有持續(xù)性的收入，不能自造血，就得依賴融資，哪天融資斷了，公司也就維持不下去了。放眼到整個AI視頻行業(yè)來看，如果作為身在其中的個體都生存不下去，又談何行業(yè)未來前景。

　　如果一個行業(yè)只有單一的工具，沒有更多的落地場景，也無法形成完整的生態(tài)閉環(huán)。就像現(xiàn)在，用戶在AI視頻工具上淺淺地停留一下，然后把大把的流量引向了社交平臺。

　　比如，馬斯克跳舞、蒙娜麗莎跑步等大量搞怪視頻，一度席卷了TikTok;使用Runway、Pika等視頻工具生成的視頻，通過用戶在X、TikTok、油管的分享一炮走紅，獲得了巨大的流量，有人甚至已經(jīng)靠這種方式完成了流量變現(xiàn)，而作為工具的提供方，卻只能淪為社交平臺的“嫁衣”。

　　打通工具和場景的壁壘，作為參考案例，國內(nèi)抖音已經(jīng)開始在嘗試。

　　剪映的相關(guān)AI功能一上線就和抖音實現(xiàn)了聯(lián)動，并引發(fā)了一波抖音擴(kuò)圖大賞，“讓你意想不到的AI擴(kuò)圖”一話題挑戰(zhàn)，達(dá)到了2億多的播放量，甄嬛打籃球、星黛露秒變星黛驢、皮草美女化身狼人，AI是驚喜還是驚嚇，引發(fā)了大量的討論。

　　一旦成為了生產(chǎn)力，整個產(chǎn)業(yè)鏈條的消費端將開始出現(xiàn)購買力，消費端的需求推著供給端進(jìn)化，至此，AI視頻才算徹底“活了”。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險自擔(dān)。

[No. ]
分享到微信