Sora來了，即夢可靈松了一口氣

2024年12月11日 09:16:45 來源：定焦one公眾號

　　全網(wǎng)苦等10個月的Sora，終于亮相。

　　北京時間12月10日凌晨，OpenAI直播第三彈，宣布旗下視頻生成模型Sora正式面向大眾推出。

　　自今年2月首次預(yù)告以來，Sora僅向一些藝術(shù)家、知名演員和導(dǎo)演提供試用服務(wù)，但遲遲未上線，吊足大眾胃口。此次一經(jīng)發(fā)布，立即激發(fā)起全球網(wǎng)友的熱情，擠爆服務(wù)器。

　　「定焦One」注意到，與上一個版本相比，此次的Sora Turbo支持生成1080p分辨率、最長20秒的視頻，在時長上有明顯突破。更大的亮點在于它提供“編輯”服務(wù)，除了單純的文生視頻、圖生視頻、視頻生視頻，用戶還可以通過指令實現(xiàn)視頻重混、重新剪輯、循環(huán)、混合等功能，更像是一個加強版的視頻編輯器。

　　Sora正式發(fā)布后，一個問題也被擺上臺前:國內(nèi)的Sora們，準(zhǔn)備好迎接挑戰(zhàn)了嗎?

　　「定焦One」第一時間進行了實測對比，至于結(jié)果，遠沒有想象中那么糟。

　　新版Sora，不止文生視頻

　　綜合多位業(yè)內(nèi)人士的觀點，Sora的變化主要集中在兩方面。

　　一是時長，Sora Turbo支持用文字、圖片或視頻單次生成最長20秒的視頻(此前發(fā)布的演示視頻最長為60秒，但不是公開使用版本)，有寬屏、豎屏、方屏比例可選。而國內(nèi)AI視頻生成軟件單次大多僅支持5-10秒。

　　能生成的視頻時間越長，意味著對其內(nèi)容一致性、避免重復(fù)、銜接過渡上要求更高，模型的優(yōu)化和訓(xùn)練數(shù)據(jù)的質(zhì)量在其中起著關(guān)鍵作用。

　　二是它強大的“編輯”功能，包括Remix(重混)、Re-cut(重新剪輯)、Storyboard(故事板)、Loop(循環(huán))、Blend(混合)以及Style presets(風(fēng)格預(yù)設(shè))。

　　此前，AI生成視頻的一大痛點在于一次性生成以后很難再調(diào)整，這次Sora一定程度上解決了這個問題。

　　我們拿其中三個亮眼的新功能來詳細說明。

　　Remix（重混）可以替換、移除或重新生成視頻中的某個要素，例如，在生成“推開圖書館的大門”后(上圖)，可以輕易將大門換成法式風(fēng)格(下圖)。

　　Storyboard（故事板）功能絕對是視頻創(chuàng)作者的輔助利器，可以精準(zhǔn)指定每一幀的內(nèi)容，控制每個時間段的畫面。

　　比如，讓視頻的前114幀生成“紅色的背景下，遠處�？恐凰矣钪骘w船”。

　　接著，將114-324幀的場景變?yōu)椋?ldquo;從宇宙飛船內(nèi)部向外看，一位宇航員站在中間”。

　　最后在324-440幀，將畫面聚焦到宇航員眼睛的特寫鏡頭，他的眼睛被針織面料制成的面罩包裹住。

　　Blend（混合）功能可以把兩個視頻混合在一起，Sora演示了將雪花飄落和花朵飄落的視頻混合在一起，過渡非常自然。OpenAI方面稱，這是其它AI視頻從未見過的功能。

　　需要注意的是，這些功能雖然驚艷，但Sora目前僅在部分國家提供服務(wù)，英國、中國大陸等地暫不能使用。

　　在收費方面，Sora對ChatGPT的Plus會員(每月20美元)和Pro會員(每月200美元)直接開放使用，Plus會員每月可生成50個480P分辨率的視頻，Pro會員則擁有不限次慢速生成的額度。

　　Sora來了，可靈、即夢們先別慌

　　從Sora亮相到發(fā)布的這10個月里，國內(nèi)的Sora們一直在抓緊追趕。此次Sora正式發(fā)布后，「定焦One」挑選了國內(nèi)外幾家比較有代表性的AI生成視頻工具，進行實測對比。

　　先看各大工具在生成秒數(shù)、收費價格上的情況。

　　單次生成秒數(shù)上，Sora憑借20秒領(lǐng)先，緊隨其后的是Runway，可以達到10秒，相比之下，國內(nèi)的產(chǎn)品普遍都在5-6秒。

　　需要說明的是，白日夢雖然最長可達6分鐘，但非單次文生視頻長度，它根據(jù)文字提示先生成人物，然后再生成分鏡、編輯圖片，最后連成一段視頻，所以支持的時間較長。

　　在收費上，國內(nèi)的產(chǎn)品都可以不付費體驗，有些會限制使用次數(shù)。Sora則必須付費才可以使用，且門檻不低，20美元起步，Runway其次，最低月付費15美元。

　　再看各家提供的具體功能及對應(yīng)效果。

　　綜合從業(yè)者的說法以及Sora最新發(fā)布的功能，我們從兩個維度進行測試。

　　1、基礎(chǔ)功能:主要測試文生視頻的能力，考察產(chǎn)品對文字指令的理解度、運動過程中人物面部的清晰度和多人物的準(zhǔn)確度。為了覆蓋以上三個難點，「定焦One」給出了兩條提示詞:

　　第一條:鏡頭中景拍攝，夕陽下，兩個長頭發(fā)的女生，一個穿著黃裙子，一個穿著藍裙子，手里都拿著胡蘿卜，旁邊還有三只小兔子，小兔子慢慢跑過去吃胡蘿卜，電影級調(diào)色。

　　這條主要測試多主體數(shù)量的準(zhǔn)確度，讓人大跌眼鏡的是，Sora沒能識別出主體數(shù)量，只生成了兩只兔子(測試時已將提示詞轉(zhuǎn)換為英文)，不過，其他的地方都是比較準(zhǔn)確的。

　　Sora提示詞

　　同樣踩坑的還有通義萬相，不僅弄丟了一只兔子，還增加了一個女孩。

　　其他產(chǎn)品表現(xiàn)較好，均能準(zhǔn)確理解提示詞，只是在畫風(fēng)上有所差異。

　　第二條:鏡頭特寫拍攝，燈光，一個有著一頭黑色卷發(fā)的中式少女，穿著一條白裙子，胸前手握一束粉色鮮花，眼睛先低頭看鮮花，然后慢慢抬起頭來微笑，電影級調(diào)色。

　　這條主要測試各工具對于人物面部的特寫，以及對復(fù)雜指令的理解程度。

　　從生成效果來看，幾家都理解了特寫拍攝、少女、裙子、粉色鮮花、低頭看花、微笑等人、物和動作，但問題出在指令解讀上，比如可靈沒有讀懂“一個有著一頭黑色卷發(fā)的中式少女”，隨后我們換成“一個中式少女、黑色長卷發(fā)”才成功生成。

　　可靈提示詞

　　各家對“中式少女”的理解也不盡相同，比如智譜清言生成人物的更像外國女孩，相比之下，在FilmAction里選擇新中式風(fēng)格，先文生圖，再圖生視頻的理解最好，但使用起來也復(fù)雜一些。

　　「定焦One」還對比了AI工具這半年來的進化速度。以即夢為例，和五個月前相比，人物真實感有明顯提高。

　　綜上，在基礎(chǔ)功能上，Sora的表現(xiàn)還談不上驚艷。

　　2、進階功能:主要測試此次Sora發(fā)布的新功能，也是本次Sora宣傳的重點。

　　多位從業(yè)者提及，Remix(重混)功能實現(xiàn)起來比較復(fù)雜，因此我們直接上難度測試了這一項，讓Sora將此前生成視頻中的兔子替換成小狗，結(jié)果出現(xiàn)了胡蘿卜或者小狗起飛的狀況。

　　看來，實際操作遠沒有樣片中絲滑。不過，也有從業(yè)者表示，實測中存在一定偶然因素，最終效果和提示詞、場景、風(fēng)格的關(guān)系比較大。

　　結(jié)語

　　經(jīng)過一番對比，不難發(fā)現(xiàn)，盡管Sora的發(fā)布讓人震撼，但目前其實力還沒強到讓國內(nèi)從業(yè)者恐慌的程度，大家對Sora的整體評價是，效果在預(yù)期之內(nèi)。

　　生數(shù)科技投融資負責(zé)人樊家睿評價，相比今年2月份釋放的demo，Sora在模型效果方面，真實感上并沒有顯著變化。另外，結(jié)合多位網(wǎng)友實測反饋，Sora在長時間處理復(fù)雜動作時還存在一定困難，模擬物理世界時可能會犯錯。

　　至于它發(fā)布的一系列新功能，從業(yè)者們見仁見智。

　　瀚皓科技CEO吳杰茜告訴「定焦One」，和Sora類似的Storyboard(故事板)、Style presets(風(fēng)格預(yù)設(shè))功能在FilmAction中已經(jīng)實現(xiàn)，Blend(混合)功能最先在國外的AI生成視頻工具Luma中亮相，主要原理是首尾幀生成，Re-cut(重新剪輯)功能底層依靠的是視頻續(xù)寫，目前國內(nèi)工具也已經(jīng)具備。

　　不過，AI行業(yè)資深研究者江樹表示，此次Sora發(fā)布的一些功能屬于獨家，國內(nèi)的產(chǎn)品基本沒有。盡管從技術(shù)上來說并不新鮮，比如可靈的運動筆刷、首尾幀功能也能做到視頻銜接和循環(huán)，但他覺得，Sora的實現(xiàn)方式比較高明。

　　他以Remix舉例，用戶想改變視頻中的主體，國內(nèi)基本是通過“替換關(guān)鍵幀”實現(xiàn)，但Sora的Remix不是，因為在直播演示中，猛犸象在變成機器人時，沙子揚起的細節(jié)都能與主體保持一致。

　　“或許Sora目前透露出的最大優(yōu)勢是處理細節(jié)的連貫性。”江樹表示，他舉例，在直播演示中，機器人在沙漠中漫步，這一畫面從遠景到特寫，中間的轉(zhuǎn)換十分自然。Sora的空間感也不錯，攝像機繞著一個物體進行360度旋轉(zhuǎn)，每個角度下的細節(jié)都非常準(zhǔn)確，這說明Sora對三維場景有較為完整的理解。

　　另一個加分項是產(chǎn)品體驗。江樹表示，Sora這次發(fā)布的是一個從視頻生成到制作成品的端到端的完整產(chǎn)品，不像之前ChatGPT發(fā)布時只有一個對話框。

　　“Sora在基礎(chǔ)的文生視頻、圖生視頻以外，提供了一些提升視頻創(chuàng)作體驗的功能，說明OpenAI確實更關(guān)注產(chǎn)品體驗了，”樊家睿覺得，Sora新功能的實現(xiàn)路徑非常明確，對于他們而言，背后不是技術(shù)實現(xiàn)難度問題，主要是時間問題。

　　接下來，AI生成視頻賽道又要卷起來了。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險自擔(dān)。

[No. ]
分享到微信