最近,各路視頻生成AI放出的Demo讓人眼花繚亂。“容嬤嬤喂紫薇吃香腸”“唐僧啃雞腿、吃漢堡”“爾康失態(tài)”等“名場面”在各大短視頻平臺廣為流傳。
“刺激”的點在于,網友們無法預料一些經典的影視畫面下一秒會衍生出什么劇情,也正因為如此,AI視頻爆改在推出短短幾周后,便迅速火遍了短視頻平臺。抖音上,相關話題“當AI擴圖卷土重來”登上熱榜,截至目前共有3.9億次播放。
AIGC猶如一根魔法棒,擁有無限的創(chuàng)造力。它可以根據指定的需求和樣式,創(chuàng)作出文章、報告、音樂、圖像、視頻。值得一提的是,“玩梗”“二次創(chuàng)作”在短視頻界一直被網友津津樂道,但強大的AI介入后,爆改內容與“真實”的距離相差甚遠,甚至南轅北轍,有點像是打開了潘多拉魔盒。
AI技術突飛猛進,成果讓人應接不暇;仡欉^去兩年,AI圈頻繁傳出“炸裂”的消息。從ChatGPT發(fā)布到視頻生成大模型Sora問世,都引發(fā)了科技界、產業(yè)界的廣泛關注。Sora的出現更是推動了AIGC技術在全球范圍的邁進。
近期,快手的“可靈(Kling)”大模型成了AI界的當紅炸子雞。就在7月上旬的世界人工智能大會WAIC2024上, 可靈AI迎來第三次大的升級,發(fā)布了一系列新功能,在視頻生成質感、美感、可玩性方面大大提升,帶來了創(chuàng)作體驗上的又一次躍升。可靈AI網頁版上線后,申請的用戶數量已超過70萬。
業(yè)內認為,AI大模型與全球生成式AI的行業(yè)生態(tài)和產業(yè)格局息息相關,可靈的出現,一石激起千層浪,以可靈為代表的視頻生成大模型,早已突破“豐富創(chuàng)意庫工具”層面的較量,轉向了生產力工具的革新。
爆火的“中國版Sora”
2024年2月15日,大洋彼岸,OpenAI的AI生成式視頻大模型Sora的到來,似乎讓AI有了睜眼看世界的可能,一經發(fā)布便引起全球關注。
Sora能用文字指令生成長達1分鐘準確反映用戶提示的視頻,它可以創(chuàng)建包含多人、特定運動類型和詳細背景的復雜場景。不僅能夠呈現場景細節(jié),還能生成具有豐富情感的角色。
一位博主給Sora、Pika、Runway、Stable Video 四個模型輸入了相同的 prompt:美麗、白雪皚皚的東京熙熙攘攘,鏡頭穿過熙熙攘攘的城市街道,跟隨幾個人享受美麗的雪天,在附近的攤位購物,絢麗的櫻花花瓣隨著雪花隨風飄揚。可以看到,相比于其他三個視頻生成模型,Sora 在生成時長、連貫性等方面都有顯著的優(yōu)勢。
業(yè)內幾乎可以用“Sora前時代”和“Sora后時代”來描述“AI視頻生成”這件事。
“理解和模擬真實世界”,憑借這一點,Sora就徹底與AI視頻賽道的Runway、Pika等公司拉開了一個段位。在Sora前時代,如Runway、Pika、Stable Video Diffusion等大量創(chuàng)業(yè)公司還在百家爭鳴,而Sora到來后,這些公司遭到了降維打擊,不得不去重新審視未來的發(fā)展之路了。
Sora這款遙遙領先的模型出現后,業(yè)界猜測視頻模型“大的要來了”,但數月過去,卻遲遲未有對外開放體驗的跡象,迫切想體驗的用戶們只能一等再等。
而一向務實的快手,最近放出了“大殺器”——推出了一個視頻生成大模型,堪稱“中國版Sora”,并高調宣布:老鐵,這回大的可能真來了。
6月6日,快手發(fā)布AI視頻模型可靈,發(fā)布當天,諸多業(yè)內人士獲得邀請碼進行了第一波測試。從業(yè)內的反饋以及可靈生成的視頻樣本來看,與Sora效果非常相近,在第一版五秒中的視頻中,業(yè)內反饋無論技術路線,和訓練數據質量都較為突出?伸`似乎做到了如Sora一般極度真實地還原物理規(guī)律,甚至概念組合能力和想象力都表現得較為優(yōu)秀。
上線半個月后,快手可靈大模型發(fā)布重磅更新:正式開放圖生視頻功能,支持將靜態(tài)圖像轉化為5秒鐘視頻,用戶可通過提示詞文本控制圖像中物體的運動;同時推出視頻續(xù)寫功能,支持對生成視頻一鍵續(xù)寫和連續(xù)多次續(xù)寫,最長可生成約3分鐘視頻。
直到最近,可靈又放出大招,發(fā)布了重磅新功能,包括Web端上線、畫質提升、首尾幀和鏡頭控制功能加入,文生視頻時長延長至10秒。
在快手研究院執(zhí)行院長蔡雄山看來,進一步做大做強國產文生視頻大模型,可以充分發(fā)揮短視頻直播行業(yè)的優(yōu)勢。“短視頻直播生態(tài)具有應用場景多元、機制靈活、反應速度快等特點,天然適合大模型訓練和應用場景布局。”蔡雄山說。
快手在視頻大模型領域厚積薄發(fā),“國產Sora”成色幾何?
有博主給Sora和可靈輸入了相同的文字,發(fā)現在視覺效果這一項上,Sora和可靈表現都較為優(yōu)秀,二者視頻生成的風格都更偏向模擬真實世界的場景。但在細節(jié)表現方面,Sora更勝一籌,比如對人物五官的刻畫更細致,尤其是人在動態(tài)場景下,五官沒有變形,幾乎是相對靜態(tài)的。關于連貫性和流暢度,Sora和可靈的畫面都表現得較為連貫、流暢,但對復雜場景的描述,Sora表現更好。
在不同場景的適配上,Sora的能力似乎更勝一籌。比如在對“云端上讀書的年輕人”的畫面生成上,可靈的貼圖感更重,素材間的融合度不高。
在應用場景上,可靈主要應用于短視頻領域,如創(chuàng)意短視頻、廣告宣傳片等。而Sora的應用場景則更加廣泛,包括但不限于廣告、市場營銷、視頻游戲開發(fā)等領域。
雖然目前來看,可靈離Sora仍有一定距離,但在文生視頻領域,能達到公測水平,同時還要有足夠算力支撐公測的產品少之又少,目前技術層面快手顯然已迅速躋身到行業(yè)內的領先集團之中。
欲與Sora試比高
Sora之后,除了如今爆火的可靈,其它視頻生成大模型也在不斷涌現。
3月底,字節(jié)旗下Dreamina(即夢)內測視頻生成功能;4月底,生數科技首個文生視頻模型Vidu發(fā)布;還有Luma AI以及Runway迭代更新后的Gen-3Alpha等現象級爆款面世。
即夢AI是字節(jié)旗下的一站式AIGC內容專業(yè)創(chuàng)作平臺,支持文生視頻和圖生視頻,提供智能畫布、故事創(chuàng)作模式、以及首尾幀、對口型、運鏡控制、速度控制等AI編輯功能。在今年6月上海國際電影節(jié)期間,抖音聯(lián)合博納影業(yè)出品制作的AIGC科幻短劇《三星堆:未來啟示錄》正式亮相。
這部短劇的最大亮點就是純AI制作,包括AIGC劇本創(chuàng)作、概念及分鏡設計、圖像到視頻轉換、視頻編輯和媒體內容增強等十種AIGC技術,或將解鎖傳統(tǒng)影視公司與AIGC技術產品合作、發(fā)展的新路徑。
即夢AI發(fā)布后不久,4月27日,在2024中關村論壇上,生數科技聯(lián)合清華大學發(fā)布中國首個長時長、高一致性、高動態(tài)性視頻大模型——Vidu展示的效果立刻刷屏。
據生數科技,Vidu支持一鍵生成16秒、1080P分辨率的視頻內容。Vidu不僅能夠模擬真實物理世界,還擁有豐富想象力,具備多鏡頭生成、時空一致性高等特點。
初創(chuàng)公司Luma AI在6月12日發(fā)布了新的 AI 視頻生成模型Dream Machine(造夢機器),并且面向公眾開放測試。很快,不僅官方放出的一系列樣片,社交網絡上還出現了一大堆由網友通過“造夢機器”生成的視頻。
造夢機器不僅支持通過文本生成視頻,也支持基于圖片和文本生成視頻,比如畫作《戴珍珠耳環(huán)的少女》中跳出的少女。目前有人已經開始利用造夢機器創(chuàng)造“一日生活”的影像故事,比如美國中學生從早起到上學再到舞會的刻畫。
就在造夢機器發(fā)布后不久,著名生成式AI平臺Runway在官網發(fā)布了全新文生視頻模型——Gen-3Alpha。與Gen-2相比,Gen-3在生成視頻的質量、色彩、飽和度、光影、文本語義還原、運鏡、動作一致性、場景切換等實現大幅度提升。
Gen-3和Sora、可靈、DreamMachine一樣是個世界模型,具備模擬物理世界的能力。也就是說,其生成視頻的物理效果,例如,下落、碰撞、觸摸、風吹、生長、雨水等都非常逼真。
7月2日,Runway宣布Gen-3Alpha向所有用戶開放使用,每個月最少12美元才能使用。Gen-3一次性只能生成11秒的720P視頻,也不會帶任何背景音樂,有用戶表示Gen-3的功能比Sora更好,并將再次改變文生視頻賽道。
毋庸置疑的是,AI視頻正在不斷進化,當下視頻大模型的最大特點之一就是足夠真實。Sora、可靈等大模型生成視頻既符合物理規(guī)律,也能在物理邏輯上保持時間的連貫性。
此外,AI生成視頻長度的延長也是今年各個大模型最大的突破之一,之前Runway和Pika都只能生成出3-4秒的視頻,無法滿足長素材的需求。梳理目前已對外公布的大模型視頻生成時長,其中Sora為60秒,Vidu為32秒,快手的可靈提供的視頻續(xù)寫功能,支持連續(xù)多次續(xù)寫視頻內容,在保證視頻一致性的前提下,最長生成3分鐘視頻。
目前視頻大模型產品的輸入方式更加多元化。用戶不再局限于文生視頻,而是可以選擇圖像、視頻輸入。比如,用戶可以上傳一張靜態(tài)圖,而視頻大模型則會根據圖片制作視頻。
影視行業(yè)何去何從?
基于各大視頻生成大模型的逐漸落地,AI視頻的使用場景也在不斷拓寬,未來會在更多場景看到AIGC內容,比如AIGC短劇?梢灶A見,未來在廣告、影視內容方面,需要用到真人拍攝的機會可能會越來越少,影視行業(yè)的創(chuàng)作能力以及制作壁壘或面臨巨大的挑戰(zhàn)。
工業(yè)化的影視制作幾乎遵循著嚴格的流水線生產,劇本、攝影、演員、服裝、化妝、燈光、特效等,不同工種、不同部門人員在不同平臺使用復雜影視制作工具,完成對作品的精雕細琢。
甚至前期劇本內容上,AI能根據需求實現高效生成海量影視劇本,可以短期解決編劇創(chuàng)意貧瘠的問題。而有了AI視頻生成模型,制作者發(fā)出不同指令就能完成一部影視作品,這將大幅減少前后期制作團隊人數,降低制作成本;或者在同等成本情況下,縮短制作周期。
2月26日,中國首部文生視頻AI系列動畫片《千秋詩頌》在央視一套播出,總共26集,每集約7分鐘,首次上線推出了《詠鵝》《春夜喜雨》等六集動畫,聚焦國家統(tǒng)編語文教材200多首詩詞。
據介紹,在同等預算條件下,按照傳統(tǒng)動畫制作流程計算,《千秋詩頌》至少需要8個月時間,依托大模型后,制作周期縮短至4個月。目前,這項應用仍處于產研結合階段,未來大模型研發(fā)成熟后,制作周期和動畫精細度都會加速迭代升級。
7月13日,國內首部AIGC原創(chuàng)奇幻微短劇《山海奇鏡之劈波斬浪》上線快手,可靈大模型提供深度技術支持。
據了解,《山海奇鏡之劈波斬浪》從今年初開始籌備,直到5月才有了第一版成片,但受限于當時的技術,制作團隊對呈現的效果并不滿意,一直在反復修改。6月,快手可靈大模型發(fā)布,導演陳坤與可靈團隊溝通后,對整部片子進行了重制,99%的鏡頭均由可靈生成。
而就在7月初,抖音和博納合作的首部AIGC科幻短劇《三星堆:未來啟示錄》上線,抖音視頻大模型即夢提供技術支持。一周之內,抖音、快手相繼上線AIGC短劇作品,且背后均有平臺AI視頻技術支持,為“AIGC短劇”打樣的意圖明顯。
值得注意的是,AIGC在影視行業(yè)的應用或將削弱明星效應。很長時間里,國內影視制作方片酬成本負擔高,尤其是主角片酬占到總成本的一半甚至更高。AI生成視頻模型或將取代原有影視作品中明星演員拍攝過程,制作團隊或許只需要獲得演員的肖像使用許可以及音頻文件,即可通過AI模型完成影視作品的制作。
AI模型助力CG特效的廣泛運用,可能使觀眾更關注角色而非演員本身,同時特效的增加使得明星出演的需求也可能下降,明星效應受到一定程度影響。
在此背景下,影視從業(yè)者應該要保持敏銳,無論是劇本創(chuàng)作、還是拍攝方面,從業(yè)者都要自我突破,全面擁抱 AI模型帶來的各種可能性。站在積極的視角,正如Elon Musk所言:“AI增強的人類將在未來幾年里創(chuàng)造出最好的作品。”
2024上半年,科技圈風起云涌,不光是AI視頻給影視娛樂業(yè)帶來了前所未有的改變,在醫(yī)療、教育、電商、手機、金融、交通等領域,大模型也層出不窮,并在這些領域取得了顯著進展和應用成果。這些大模型的應用不僅提高了各領域的智能化水平和服務質量,也為未來的科技發(fā)展和產業(yè)升級奠定了堅實基礎。
2024下半年,AI依然會是舞臺的主角,更龐大的隊伍將會高歌猛進,令人無限期待。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
2024年的Adobe MAX 2024發(fā)布會上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(AVC)推總數據顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現能力,為您的創(chuàng)作工作帶來實質性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。