Sora對(duì)國(guó)內(nèi)大廠(chǎng)是機(jī)會(huì)還是挑戰(zhàn)？

2024年02月26日 13:17:30 來(lái)源：陸玖財(cái)經(jīng)公眾號(hào)

　　龍年的第一個(gè)月，正如去年的ChatGPT，OpenAI開(kāi)年再出一王炸——文生視頻領(lǐng)域的Sora。

　　面對(duì)這樣的AI生成能力，包括幾乎所有類(lèi)型的從業(yè)者都感受到了不小的震動(dòng)。一位IT出身的電影制片人告訴陸玖商業(yè)評(píng)論，Sora的的驚艷表現(xiàn)，讓他周?chē)膹臉I(yè)者都有了不小的危機(jī)感。電影制作成本的急劇下降，和新銳電影人的出頭，將會(huì)比以往更加容易。

　　不過(guò)，在面對(duì)陸玖商業(yè)評(píng)論提出的“Sora是否已具備商業(yè)化條件”“文生視頻對(duì)于算力的要求是否更高，以及如何解決”等問(wèn)題時(shí)，這位制片人則用“發(fā)展問(wèn)題，發(fā)展解決”的說(shuō)法給出回復(fù)。

　　這顯然過(guò)于樂(lè)觀(guān)。畢竟更多從業(yè)者認(rèn)為，從概念到成熟的工業(yè)化商用階段，即便是Sora也有很多不成熟的地方。

　　也因此，拋開(kāi)技術(shù)路線(xiàn)不談，單就實(shí)現(xiàn)效果而言，國(guó)內(nèi)在文生文等通用模型有相關(guān)布局的大模型廠(chǎng)商，是否有著同樣的“飛升機(jī)會(huì)”?文生視頻，到底相比過(guò)去文生文，有哪些實(shí)質(zhì)性的飛躍?這是一個(gè)很有意思的話(huà)題。

　　Sora，革命還是泡沫?

　　必須承認(rèn)，Sora的出現(xiàn)，讓通用人工智能(AGI)的實(shí)現(xiàn)，又近了一步。原因在于，它已經(jīng)做到了模擬真實(shí)物理世界的運(yùn)動(dòng)，譬如物體的移動(dòng)與相互作用。

　　不過(guò)，僅僅是這種程度的改進(jìn)，也算不得“驚艷”。根據(jù)OpenAI的官方報(bào)告，Sora的“革命性”主要體現(xiàn)在下面幾點(diǎn)。

　　首先是時(shí)長(zhǎng)。作為通用的文生視頻大模型，它能根據(jù)用戶(hù)提供的文本描述生成長(zhǎng)達(dá)60秒的視頻，不僅品質(zhì)上乘，且能更完整準(zhǔn)確地還原用戶(hù)輸入的prompt，即提示詞。

　　其次，是在場(chǎng)景的復(fù)雜度和角色生成水平的突破。到目前為止，Sora已經(jīng)能夠生成包括多個(gè)角色、特定運(yùn)動(dòng)類(lèi)型以及主題精確、背景細(xì)節(jié)復(fù)雜的場(chǎng)景。且鏡頭語(yǔ)言也開(kāi)始復(fù)雜，這使得視頻本身開(kāi)始具有一定的敘事功能，而這正是目前短視頻領(lǐng)域所需要的東西。

　　再次，除了文本生視頻，Sora還能做到從靜態(tài)圖像開(kāi)始動(dòng)畫(huà)化圖像，抑或是從已有視頻生成新視頻，實(shí)現(xiàn)填補(bǔ)缺失幀或者延展視頻內(nèi)容的效果。

　　一位資深科技媒體人對(duì)陸玖商業(yè)評(píng)論表示，Sora這類(lèi)AI產(chǎn)品的出現(xiàn)，是一種“思維平權(quán)”的機(jī)會(huì)，因?yàn)橐恍╅L(zhǎng)期跟蹤行業(yè)的科技記者，經(jīng)常會(huì)有一些“腦洞大開(kāi)”的設(shè)想，但沒(méi)有合適的工具讓想法落地。但有了GPT和Sora這類(lèi)AI工具之后，記者們一旦看到了機(jī)會(huì)和想法，AI就可能會(huì)幫助他實(shí)現(xiàn)產(chǎn)品，剩下的就是驗(yàn)證這個(gè)產(chǎn)品的可行性。

　　但陸玖商業(yè)評(píng)論在與多個(gè)行業(yè)人士交流以后發(fā)現(xiàn)，即便是眼下風(fēng)光無(wú)限的Sora，同樣有被高估的可能性。

　　行行AI董事長(zhǎng)李明順對(duì)此較為理性，在他看來(lái)，Sora的出現(xiàn)，很大程度上是文生文的通用模型，延展到視頻領(lǐng)域的階段性技術(shù)迭代。Sora能有如今的質(zhì)變，很大程度上也是算力和資金不設(shè)上限投入，再加以海量訓(xùn)集的不斷重復(fù)訓(xùn)練，這是“大力出奇跡”的結(jié)果。

　　相比技術(shù)實(shí)現(xiàn)上的優(yōu)越，Sora在“資源稟賦”上的優(yōu)越，顯然跟國(guó)內(nèi)一眾“算力荒”廠(chǎng)商拉開(kāi)了更大的距離。這是國(guó)內(nèi)大模型相關(guān)廠(chǎng)商，在相當(dāng)長(zhǎng)時(shí)間里難以逾越的鴻溝。

　　而從投資角度而言，Sora這類(lèi)垂直領(lǐng)域的“通用模型”也算不得熱門(mén)標(biāo)的。

　　一位一級(jí)市場(chǎng)從業(yè)者告訴陸玖商業(yè)評(píng)論，純一級(jí)市場(chǎng)投資，通常只會(huì)投資大概念和高估值標(biāo)的。原因主要在于一級(jí)市場(chǎng)的基金存續(xù)期是7年，投資期2年，5年退出是大概率事件。但文生視頻的垂直模型在5年內(nèi)能否實(shí)現(xiàn)工業(yè)化商用，誰(shuí)都無(wú)法下定論。

　　此外，目前的Sora，所有已知信息只有2月15日發(fā)布的技術(shù)報(bào)告，但在3天后就傳出了融資新聞。在沒(méi)有開(kāi)放使用、外界不知其實(shí)際水平的情況下，在風(fēng)投公司Thrive Capital牽頭融資中，OpenAI的估值已經(jīng)逼近800億美元。這位一級(jí)市場(chǎng)從業(yè)者向陸玖商業(yè)評(píng)論坦言，這次技術(shù)發(fā)布很可能是OpenAI“估值管理”的一部分。

　　昆侖萬(wàn)維的董事長(zhǎng)周亞輝在朋友圈表示，“(硅谷)這邊的Scientist和工程師根本不認(rèn)除了Open Al以外的創(chuàng)業(yè)公司股票價(jià)值，覺(jué)得都是紙面財(cái)富。寧可要OpenAI.谷歌、FB、微軟100萬(wàn)Package(一半股票)的Offer，也不要?jiǎng)?chuàng)業(yè)公司300萬(wàn)(80%股票)的Offer。”

　　可見(jiàn)，Sora之后，OpenAI進(jìn)一步拉大了與其他AI大廠(chǎng)的差距。

　　國(guó)產(chǎn)大模型，廠(chǎng)商們的危與機(jī)

　　盡管Meta、Google以及微軟都在蠢蠢欲動(dòng)，但相較于資本市場(chǎng)對(duì)Sora的瘋狂，國(guó)內(nèi)大模型廠(chǎng)商則顯得冷靜得多。國(guó)內(nèi)大廠(chǎng)大多數(shù)選擇的，仍是立足于自身應(yīng)用的大模型開(kāi)發(fā)，并非去追求所謂的原生態(tài)AI大模型升級(jí)。

　　字節(jié)即是其中之一，其對(duì)于生成式AI的保守態(tài)度，早在文生文階段就已經(jīng)體現(xiàn)。而從入局時(shí)間看，字節(jié)并不晚。據(jù)晚點(diǎn)報(bào)道，2020年6月OpenAI發(fā)布GPT-3后，字節(jié)曾訓(xùn)練了一個(gè)數(shù)十億參數(shù)的生成式語(yǔ)言大模型。

　　如果按部就班開(kāi)發(fā)，到2023年時(shí)，字節(jié)與OpenAI的GPT，距離不會(huì)很遠(yuǎn)。只是在ROI掛帥的業(yè)務(wù)體系下，字節(jié)這筆投資顯然沒(méi)有算過(guò)賬來(lái)。因此，其在生成式AI的探索上，始終相較競(jìng)品慢了一些。

　　從發(fā)布時(shí)間來(lái)看，百度文心一言于2023年3月份發(fā)布，同年10月便迭代至4.0版，緊隨其后的是阿里的通義千問(wèn)、騰訊混元助手，而字節(jié)發(fā)布云雀大模型的發(fā)布時(shí)間是2023年8月。

　　后發(fā)導(dǎo)致的結(jié)果之一，是用戶(hù)量不足——文心一言的月活去年就已經(jīng)破億，字節(jié)的豆包仍然在千萬(wàn)以下。不過(guò)，字節(jié)在選派張楠執(zhí)掌剪映之后，有望在生成式AI的進(jìn)度上更快一點(diǎn)。

　　如果說(shuō)字節(jié)在文生視頻領(lǐng)域暫時(shí)沒(méi)有看到可立即使用的產(chǎn)品，那么百度和阿里則不然。早在去年的百度世界大會(huì)上，百度已經(jīng)演示過(guò)文心一言的文生視頻能力，主要集成在“一鏡流影”插件當(dāng)中。

　　當(dāng)然，出現(xiàn)在世界大會(huì)現(xiàn)場(chǎng)的生成視頻，只是一鏡流影無(wú)數(shù)次抽卡中的成功案例。陸玖商業(yè)評(píng)論經(jīng)過(guò)測(cè)試發(fā)現(xiàn)，一鏡流影仍然存在一些局限。

　　其一是素材庫(kù)。目前一鏡流影使用的是無(wú)版權(quán)素材庫(kù)，這導(dǎo)致無(wú)法用于特定品牌的工業(yè)化商用環(huán)節(jié)。

　　其二是出于可能的肖像權(quán)考慮，目前無(wú)法生成帶人像的視頻，但可用于生成不帶商標(biāo)的商品視頻。

　　其三則是，目前生成的視頻，都是30秒左右的，如果想要達(dá)到與Sora類(lèi)似的效果，還需要做到兩段視頻素材的拼接。如果要保持內(nèi)容和風(fēng)格的一致，顯然變成了難事。

　　通義千問(wèn)目前用的最多，熱度最大的相關(guān)技術(shù)，則是以全民舞王為代表的圖生視頻技術(shù)。只需一張全身照，就可以讓其做出各種熱門(mén)的舞蹈動(dòng)作。在B站，以慈禧等歷史人物跳科目三的二創(chuàng)視頻，加起來(lái)的視頻播放量，大約在千萬(wàn)級(jí)別。

　　雖然還沒(méi)有做到工業(yè)化的水準(zhǔn)，也沒(méi)有與國(guó)外的Sora拉平差距，但國(guó)外的Sora同樣也沒(méi)有做到工業(yè)化，這也就意味著，起碼在商業(yè)化進(jìn)程上，二者仍然沒(méi)有太大的距離。剩下的只需不斷追趕就好。

　　行行AI董事長(zhǎng)李明順也持類(lèi)似的觀(guān)點(diǎn)。他告訴陸玖商業(yè)評(píng)論，目前OpenAI仍然占據(jù)行業(yè)頭部的位置，但很大程度上是建立在此前的算力儲(chǔ)備和技術(shù)積累之上。國(guó)內(nèi)諸如BAT、字節(jié)等通用大模型廠(chǎng)商，也會(huì)不斷去追趕。原因很簡(jiǎn)單，在某種程度上，通用大模型已經(jīng)變成了互聯(lián)網(wǎng)公司基礎(chǔ)能力的一種象征。

　　競(jìng)賽似乎才剛剛開(kāi)始。

　　文生視頻，真正的勝負(fù)手在哪?

　　當(dāng)然，無(wú)論是OpenAI的Sora，還是國(guó)內(nèi)一眾大模型廠(chǎng)商，其最終目的，仍然是工業(yè)化、流水線(xiàn)化生產(chǎn)高質(zhì)量的視頻內(nèi)容。

　　但就目前來(lái)看，即便強(qiáng)如Sora，也是有諸多不成熟的因素，導(dǎo)致其無(wú)法應(yīng)用到工業(yè)化領(lǐng)域。AI動(dòng)態(tài)視頻解決方案產(chǎn)品知行元(www.creatlyai.cn)的產(chǎn)品架構(gòu)師告訴陸玖商業(yè)評(píng)論，雖然目前Sora看起來(lái)很方便，通過(guò)文字能直接生成高質(zhì)量的視頻，且只需要通過(guò)幾個(gè)提示詞來(lái)控制，對(duì)用戶(hù)的心智與操作負(fù)擔(dān)看起來(lái)很小。

　　但由于目前的sora對(duì)真實(shí)物理世界的理解還有限，在某些場(chǎng)景仍然會(huì)出現(xiàn)問(wèn)題。諸如燭光方向錯(cuò)亂、精準(zhǔn)數(shù)量失序，空間物體進(jìn)出畸變等細(xì)節(jié)，這些細(xì)節(jié)到后期剪輯都是很難去改動(dòng)的。

　　這并非沒(méi)有解決方案。因?yàn)镾ora目前已經(jīng)有視頻延展和視頻拼接功能，用戶(hù)完全可以生成數(shù)個(gè)幾秒鐘的視頻進(jìn)行后期裁剪。如果對(duì)于提示詞工程的知識(shí)儲(chǔ)備不足的人來(lái)說(shuō)，多次生成+人工后期是難以避免的。

　　此外，在工業(yè)化的商品宣傳片中，通�？蛻�(hù)會(huì)發(fā)布一些新款商品，譬如新款羽絨服、新車(chē)、新手機(jī)等等。但用戶(hù)的素材并不存在于視頻模型的訓(xùn)練集中，導(dǎo)致只能生成類(lèi)似商品后再二次加工，也就是影視后期。

　　這里同樣有專(zhuān)業(yè)用戶(hù)與非專(zhuān)業(yè)用戶(hù)的需求差別。譬如對(duì)于一般的輕度用戶(hù)，如果沒(méi)有商業(yè)化需求，那么模型就是一個(gè)試玩產(chǎn)品，任何新生成的作品對(duì)他而言都是驚喜。但對(duì)于專(zhuān)業(yè)用戶(hù)(譬如導(dǎo)演)，如果一次生成的不夠滿(mǎn)意，那么還涉及到多次生成和多次后期，對(duì)于算力與人工都是不小的負(fù)擔(dān)。

　　前述電影制片人告訴陸玖商業(yè)評(píng)論，在影視制作流程中，后期最大的成本，就是負(fù)責(zé)剪輯與特效，也就是二次加工的人工成本。如果工作流不夠先進(jìn)，那么很可能會(huì)在后期制作過(guò)程中拉高成本，進(jìn)而影響項(xiàng)目的ROI。

　　如果目前的文生視頻仍然需要大量人工去調(diào)校，且鏡頭和對(duì)物理世界的還原也無(wú)法做到1:1，那么用AI生成視頻素材的性?xún)r(jià)比，其實(shí)是不高的。

　　有基于此，一位影視后期從業(yè)者告訴陸玖商業(yè)評(píng)論，在他看來(lái)，AI能直接替代的，其實(shí)是搭建和拍攝等中期工作。因?yàn)锳I對(duì)物理世界的模擬還原，可以通過(guò)不斷訓(xùn)練來(lái)接近真實(shí)水平。

　　以上僅僅是Sora對(duì)影視產(chǎn)業(yè)的部分改變推演。至于對(duì)于游戲、廣告、短視頻創(chuàng)作等細(xì)分領(lǐng)域，變革肯定遠(yuǎn)大于問(wèn)題。AI的應(yīng)用，其革命性的變化，肯定波瀾壯闊。而國(guó)內(nèi)大廠(chǎng)，在AI應(yīng)用的商業(yè)化探索上，顯然更愿意發(fā)力和嘗試。

　　同樣，根據(jù)周亞輝的朋友圈劇透，“Open AI很快會(huì)發(fā)布GPT4.5，而且估計(jì)會(huì)故意選擇Anthropic發(fā)布Claude3的時(shí)候發(fā)布。”最新迭代版本的Open AI除了Sora生成式視頻外，還有什么令人驚艷的創(chuàng)新，應(yīng)該是國(guó)內(nèi)大廠(chǎng)從事大模型戰(zhàn)略和業(yè)務(wù)部門(mén)，最關(guān)心的事情。

　　最后，對(duì)于文生視頻而言，是立足于+AI做大模型應(yīng)用，還是立足于AI+去訓(xùn)練升級(jí)自己的原生態(tài)大模型。顯然，美國(guó)大公司與中國(guó)大公司已經(jīng)分別做出了自己的選擇。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信