AI生成視頻，究竟有多癲狂?

2024年07月18日 10:03:12 來源：億歐網公眾號

　　最近，各路視頻生成AI放出的Demo讓人眼花繚亂。“容嬤嬤喂紫薇吃香腸”“唐僧啃雞腿、吃漢堡”“爾康失態(tài)”等“名場面”在各大短視頻平臺廣為流傳。

　　“刺激”的點在于，網友們無法預料一些經典的影視畫面下一秒會衍生出什么劇情，也正因為如此，AI視頻爆改在推出短短幾周后，便迅速火遍了短視頻平臺。抖音上，相關話題“當AI擴圖卷土重來”登上熱榜，截至目前共有3.9億次播放。

　　AIGC猶如一根魔法棒，擁有無限的創(chuàng)造力。它可以根據指定的需求和樣式，創(chuàng)作出文章、報告、音樂、圖像、視頻。值得一提的是，“玩梗”“二次創(chuàng)作”在短視頻界一直被網友津津樂道，但強大的AI介入后，爆改內容與“真實”的距離相差甚遠，甚至南轅北轍，有點像是打開了潘多拉魔盒。

　　AI技術突飛猛進，成果讓人應接不暇�；仡欉^去兩年，AI圈頻繁傳出“炸裂”的消息。從ChatGPT發(fā)布到視頻生成大模型Sora問世，都引發(fā)了科技界、產業(yè)界的廣泛關注。Sora的出現更是推動了AIGC技術在全球范圍的邁進。

　　近期，快手的“可靈(Kling)”大模型成了AI界的當紅炸子雞。就在7月上旬的世界人工智能大會WAIC2024上，可靈AI迎來第三次大的升級，發(fā)布了一系列新功能，在視頻生成質感、美感、可玩性方面大大提升，帶來了創(chuàng)作體驗上的又一次躍升。可靈AI網頁版上線后，申請的用戶數量已超過70萬。

　　業(yè)內認為，AI大模型與全球生成式AI的行業(yè)生態(tài)和產業(yè)格局息息相關，可靈的出現，一石激起千層浪，以可靈為代表的視頻生成大模型，早已突破“豐富創(chuàng)意庫工具”層面的較量，轉向了生產力工具的革新。

　　爆火的“中國版Sora”

　　2024年2月15日，大洋彼岸，OpenAI的AI生成式視頻大模型Sora的到來，似乎讓AI有了睜眼看世界的可能，一經發(fā)布便引起全球關注。

　　Sora能用文字指令生成長達1分鐘準確反映用戶提示的視頻，它可以創(chuàng)建包含多人、特定運動類型和詳細背景的復雜場景。不僅能夠呈現場景細節(jié)，還能生成具有豐富情感的角色。

　　一位博主給Sora、Pika、Runway、Stable Video 四個模型輸入了相同的 prompt:美麗、白雪皚皚的東京熙熙攘攘，鏡頭穿過熙熙攘攘的城市街道，跟隨幾個人享受美麗的雪天，在附近的攤位購物，絢麗的櫻花花瓣隨著雪花隨風飄揚。可以看到，相比于其他三個視頻生成模型，Sora 在生成時長、連貫性等方面都有顯著的優(yōu)勢。

　　業(yè)內幾乎可以用“Sora前時代”和“Sora后時代”來描述“AI視頻生成”這件事。

　　“理解和模擬真實世界”，憑借這一點，Sora就徹底與AI視頻賽道的Runway、Pika等公司拉開了一個段位。在Sora前時代，如Runway、Pika、Stable Video Diffusion等大量創(chuàng)業(yè)公司還在百家爭鳴，而Sora到來后，這些公司遭到了降維打擊，不得不去重新審視未來的發(fā)展之路了。

　　Sora這款遙遙領先的模型出現后，業(yè)界猜測視頻模型“大的要來了”，但數月過去，卻遲遲未有對外開放體驗的跡象，迫切想體驗的用戶們只能一等再等。

　　而一向務實的快手，最近放出了“大殺器”——推出了一個視頻生成大模型，堪稱“中國版Sora”，并高調宣布:老鐵，這回大的可能真來了。

　　6月6日，快手發(fā)布AI視頻模型可靈，發(fā)布當天，諸多業(yè)內人士獲得邀請碼進行了第一波測試。從業(yè)內的反饋以及可靈生成的視頻樣本來看，與Sora效果非常相近，在第一版五秒中的視頻中，業(yè)內反饋無論技術路線，和訓練數據質量都較為突出�？伸`似乎做到了如Sora一般極度真實地還原物理規(guī)律，甚至概念組合能力和想象力都表現得較為優(yōu)秀。

　　上線半個月后，快手可靈大模型發(fā)布重磅更新:正式開放圖生視頻功能，支持將靜態(tài)圖像轉化為5秒鐘視頻，用戶可通過提示詞文本控制圖像中物體的運動;同時推出視頻續(xù)寫功能，支持對生成視頻一鍵續(xù)寫和連續(xù)多次續(xù)寫，最長可生成約3分鐘視頻。

　　直到最近，可靈又放出大招，發(fā)布了重磅新功能，包括Web端上線、畫質提升、首尾幀和鏡頭控制功能加入，文生視頻時長延長至10秒。

　　在快手研究院執(zhí)行院長蔡雄山看來，進一步做大做強國產文生視頻大模型，可以充分發(fā)揮短視頻直播行業(yè)的優(yōu)勢。“短視頻直播生態(tài)具有應用場景多元、機制靈活、反應速度快等特點，天然適合大模型訓練和應用場景布局。”蔡雄山說。

　　快手在視頻大模型領域厚積薄發(fā)，“國產Sora”成色幾何?

　　有博主給Sora和可靈輸入了相同的文字，發(fā)現在視覺效果這一項上，Sora和可靈表現都較為優(yōu)秀，二者視頻生成的風格都更偏向模擬真實世界的場景。但在細節(jié)表現方面，Sora更勝一籌，比如對人物五官的刻畫更細致，尤其是人在動態(tài)場景下，五官沒有變形，幾乎是相對靜態(tài)的。關于連貫性和流暢度，Sora和可靈的畫面都表現得較為連貫、流暢，但對復雜場景的描述，Sora表現更好。

　　在不同場景的適配上，Sora的能力似乎更勝一籌。比如在對“云端上讀書的年輕人”的畫面生成上，可靈的貼圖感更重，素材間的融合度不高。

　　在應用場景上，可靈主要應用于短視頻領域，如創(chuàng)意短視頻、廣告宣傳片等。而Sora的應用場景則更加廣泛，包括但不限于廣告、市場營銷、視頻游戲開發(fā)等領域。

　　雖然目前來看，可靈離Sora仍有一定距離，但在文生視頻領域，能達到公測水平，同時還要有足夠算力支撐公測的產品少之又少，目前技術層面快手顯然已迅速躋身到行業(yè)內的領先集團之中。

　　欲與Sora試比高

　　Sora之后，除了如今爆火的可靈，其它視頻生成大模型也在不斷涌現。

　　3月底，字節(jié)旗下Dreamina（即夢）內測視頻生成功能;4月底，生數科技首個文生視頻模型Vidu發(fā)布;還有Luma AI以及Runway迭代更新后的Gen-3Alpha等現象級爆款面世。

　　即夢AI是字節(jié)旗下的一站式AIGC內容專業(yè)創(chuàng)作平臺，支持文生視頻和圖生視頻，提供智能畫布、故事創(chuàng)作模式、以及首尾幀、對口型、運鏡控制、速度控制等AI編輯功能。在今年6月上海國際電影節(jié)期間，抖音聯(lián)合博納影業(yè)出品制作的AIGC科幻短劇《三星堆:未來啟示錄》正式亮相。

　　這部短劇的最大亮點就是純AI制作，包括AIGC劇本創(chuàng)作、概念及分鏡設計、圖像到視頻轉換、視頻編輯和媒體內容增強等十種AIGC技術，或將解鎖傳統(tǒng)影視公司與AIGC技術產品合作、發(fā)展的新路徑。

　　即夢AI發(fā)布后不久，4月27日，在2024中關村論壇上，生數科技聯(lián)合清華大學發(fā)布中國首個長時長、高一致性、高動態(tài)性視頻大模型——Vidu展示的效果立刻刷屏。

　　據生數科技，Vidu支持一鍵生成16秒、1080P分辨率的視頻內容。Vidu不僅能夠模擬真實物理世界，還擁有豐富想象力，具備多鏡頭生成、時空一致性高等特點。

　　初創(chuàng)公司Luma AI在6月12日發(fā)布了新的 AI 視頻生成模型Dream Machine(造夢機器)，并且面向公眾開放測試。很快，不僅官方放出的一系列樣片，社交網絡上還出現了一大堆由網友通過“造夢機器”生成的視頻。

　　造夢機器不僅支持通過文本生成視頻，也支持基于圖片和文本生成視頻，比如畫作《戴珍珠耳環(huán)的少女》中跳出的少女。目前有人已經開始利用造夢機器創(chuàng)造“一日生活”的影像故事，比如美國中學生從早起到上學再到舞會的刻畫。

　　就在造夢機器發(fā)布后不久，著名生成式AI平臺Runway在官網發(fā)布了全新文生視頻模型——Gen-3Alpha。與Gen-2相比，Gen-3在生成視頻的質量、色彩、飽和度、光影、文本語義還原、運鏡、動作一致性、場景切換等實現大幅度提升。

　　Gen-3和Sora、可靈、DreamMachine一樣是個世界模型，具備模擬物理世界的能力。也就是說，其生成視頻的物理效果，例如，下落、碰撞、觸摸、風吹、生長、雨水等都非常逼真。

　　7月2日，Runway宣布Gen-3Alpha向所有用戶開放使用，每個月最少12美元才能使用。Gen-3一次性只能生成11秒的720P視頻，也不會帶任何背景音樂，有用戶表示Gen-3的功能比Sora更好，并將再次改變文生視頻賽道。

　　毋庸置疑的是，AI視頻正在不斷進化，當下視頻大模型的最大特點之一就是足夠真實。Sora、可靈等大模型生成視頻既符合物理規(guī)律，也能在物理邏輯上保持時間的連貫性。

　　此外，AI生成視頻長度的延長也是今年各個大模型最大的突破之一，之前Runway和Pika都只能生成出3-4秒的視頻，無法滿足長素材的需求。梳理目前已對外公布的大模型視頻生成時長，其中Sora為60秒，Vidu為32秒，快手的可靈提供的視頻續(xù)寫功能，支持連續(xù)多次續(xù)寫視頻內容，在保證視頻一致性的前提下，最長生成3分鐘視頻。

　　目前視頻大模型產品的輸入方式更加多元化。用戶不再局限于文生視頻，而是可以選擇圖像、視頻輸入。比如，用戶可以上傳一張靜態(tài)圖，而視頻大模型則會根據圖片制作視頻。

　　影視行業(yè)何去何從?

　　基于各大視頻生成大模型的逐漸落地，AI視頻的使用場景也在不斷拓寬，未來會在更多場景看到AIGC內容，比如AIGC短劇�？梢灶A見，未來在廣告、影視內容方面，需要用到真人拍攝的機會可能會越來越少，影視行業(yè)的創(chuàng)作能力以及制作壁壘或面臨巨大的挑戰(zhàn)。

　　工業(yè)化的影視制作幾乎遵循著嚴格的流水線生產，劇本、攝影、演員、服裝、化妝、燈光、特效等，不同工種、不同部門人員在不同平臺使用復雜影視制作工具，完成對作品的精雕細琢。

　　甚至前期劇本內容上，AI能根據需求實現高效生成海量影視劇本，可以短期解決編劇創(chuàng)意貧瘠的問題。而有了AI視頻生成模型，制作者發(fā)出不同指令就能完成一部影視作品，這將大幅減少前后期制作團隊人數，降低制作成本;或者在同等成本情況下，縮短制作周期。

　　2月26日，中國首部文生視頻AI系列動畫片《千秋詩頌》在央視一套播出，總共26集，每集約7分鐘，首次上線推出了《詠鵝》《春夜喜雨》等六集動畫，聚焦國家統(tǒng)編語文教材200多首詩詞。

　　據介紹，在同等預算條件下，按照傳統(tǒng)動畫制作流程計算，《千秋詩頌》至少需要8個月時間，依托大模型后，制作周期縮短至4個月。目前，這項應用仍處于產研結合階段，未來大模型研發(fā)成熟后，制作周期和動畫精細度都會加速迭代升級。

　　7月13日，國內首部AIGC原創(chuàng)奇幻微短劇《山海奇鏡之劈波斬浪》上線快手，可靈大模型提供深度技術支持。

　　據了解，《山海奇鏡之劈波斬浪》從今年初開始籌備，直到5月才有了第一版成片，但受限于當時的技術，制作團隊對呈現的效果并不滿意，一直在反復修改。6月，快手可靈大模型發(fā)布，導演陳坤與可靈團隊溝通后，對整部片子進行了重制，99%的鏡頭均由可靈生成。

　　而就在7月初，抖音和博納合作的首部AIGC科幻短劇《三星堆:未來啟示錄》上線，抖音視頻大模型即夢提供技術支持。一周之內，抖音、快手相繼上線AIGC短劇作品，且背后均有平臺AI視頻技術支持，為“AIGC短劇”打樣的意圖明顯。

　　值得注意的是，AIGC在影視行業(yè)的應用或將削弱明星效應。很長時間里，國內影視制作方片酬成本負擔高，尤其是主角片酬占到總成本的一半甚至更高。AI生成視頻模型或將取代原有影視作品中明星演員拍攝過程，制作團隊或許只需要獲得演員的肖像使用許可以及音頻文件，即可通過AI模型完成影視作品的制作。

　　AI模型助力CG特效的廣泛運用，可能使觀眾更關注角色而非演員本身，同時特效的增加使得明星出演的需求也可能下降，明星效應受到一定程度影響。

　　在此背景下，影視從業(yè)者應該要保持敏銳，無論是劇本創(chuàng)作、還是拍攝方面，從業(yè)者都要自我突破，全面擁抱 AI模型帶來的各種可能性。站在積極的視角，正如Elon Musk所言:“AI增強的人類將在未來幾年里創(chuàng)造出最好的作品。”

　　2024上半年，科技圈風起云涌，不光是AI視頻給影視娛樂業(yè)帶來了前所未有的改變，在醫(yī)療、教育、電商、手機、金融、交通等領域，大模型也層出不窮，并在這些領域取得了顯著進展和應用成果。這些大模型的應用不僅提高了各領域的智能化水平和服務質量，也為未來的科技發(fā)展和產業(yè)升級奠定了堅實基礎。

　　2024下半年，AI依然會是舞臺的主角，更龐大的隊伍將會高歌猛進，令人無限期待。

　　文章內容僅供閱讀，不構成投資建議，請謹慎對待。投資者據此操作，風險自擔。

[No. ]
分享到微信