螞蟻集團(tuán)投資視頻生成模型公司愛詩科技

2024年04月24日 11:17:54 來源：DoNews

　　《晚點(diǎn) LatePost》獲悉，螞蟻集團(tuán)已于近期獨(dú)家投資了中國視頻生成大模型公司愛詩科技的 A2 輪，該輪金額超過 1 億元人民幣。

　　接近螞蟻的人士說，螞蟻除自研大模型并落地應(yīng)用外，也在持續(xù)關(guān)注行業(yè)的前瞻探索，圍繞大模型技術(shù)能力、產(chǎn)業(yè)應(yīng)用和 AI 算力等核心技術(shù)和生態(tài)，已陸續(xù)投資了智譜 AI、月之暗面等大模型創(chuàng)業(yè)公司和專注多模態(tài)的生數(shù)科技等。

　　愛詩科技成立于 2023 年 4 月，目前團(tuán)隊(duì)約有 30 人，創(chuàng)始人兼 CEO 王長虎曾任字節(jié)跳動視覺技術(shù)負(fù)責(zé)人，在視頻理解、數(shù)據(jù)處理、內(nèi)容安全和視頻生成等領(lǐng)域都有積累。

　　愛詩科技既做視頻生成大模型，又做面向內(nèi)容創(chuàng)作者和普通人的視頻生成產(chǎn)品。

　　愛詩科技稱自己 2023 年 6 月以來就選擇 DiT(Diffusion Transformer)架構(gòu)，這是一種 2022 年底被提出的新型擴(kuò)散模型，DiT 也被認(rèn)為是 Sora 背后的架構(gòu)。

　　1 月，愛詩科技上線了視頻生成產(chǎn)品 PixVerse，用戶在 PixVerse 網(wǎng)頁版界面里輸入文字或圖片就能生成視頻。目前 PixVerse 生成的視頻時(shí)長為 4 秒，產(chǎn)品免費(fèi)。

　　據(jù)第三方監(jiān)測平臺 SimilarWeb 的數(shù)據(jù)，上線 3 個月來，PixVerse 的月訪問量超過 115 萬，上線早兩個月的 Pika 是 226 萬，2023年中旬就可以生成 18 秒視頻的 Runway 的月訪問量則超過 668 萬，該數(shù)據(jù)不包括 Runway 在 App 端的數(shù)據(jù)，大量 Runway 用戶可能會直接使用 App。目前 PixVerse 和 Pika 尚沒有 App。

　　在廣告、影視等領(lǐng)域，現(xiàn)在不少從業(yè)者已習(xí)慣先用 Midjourney 生成圖片，再轉(zhuǎn)給 PixVerse 生成視頻。

　　Sora 激起了更多視頻模型和應(yīng)用的競爭。

　　據(jù)了解，一季度，字節(jié) AI 研發(fā)團(tuán)隊(duì)提升了視頻生成模型的優(yōu)先級，此前優(yōu)先級最高的是大語言模型和文生圖模型。原 Google 資深科學(xué)家蔣路在 2 月加入字節(jié)跳動，他曾是 Google 視頻生成模型 VideoPoet 項(xiàng)目的負(fù)責(zé)人。字節(jié)此前已推出視頻生成模型 MagicVideo-V2。

　　同樣在視頻領(lǐng)域有數(shù)據(jù)和經(jīng)驗(yàn)積累的騰訊，在 2023 年 12 月和 2024 年 1 月分別發(fā)布了 AnimateZero 和 VideoCrafter2 兩個模型。

　　阿里 2020 年就在做多模態(tài)大模型，它在 2023 年下半年發(fā)布了視頻生成模型 I2VGen-XL。

　　創(chuàng)業(yè)公司中，國內(nèi)的視頻生成產(chǎn)品已有右腦科技的 Vega AI、MewXAI 的藝映 AI、HiDream.ai(智象未來)的 Pixeling、新壹科技的一幀秒創(chuàng)，以及 Never Ends 和 Morph Studio 等。

　　目前大部分視頻生成產(chǎn)品可以生成的時(shí)長大多在 4 到 7 秒，而 Sora 能一次性生成 60 秒視頻。從發(fā)布時(shí)展示的例子看，Sora 生成的視頻在畫面的運(yùn)動平滑度、動作連續(xù)性、物理真實(shí)性和成像質(zhì)量上都表現(xiàn)較好。

　　王長虎認(rèn)為，15 秒的視頻時(shí)長是一個節(jié)點(diǎn)：15 秒意味著能呈現(xiàn)一套完整動作、傳達(dá)一段有意義的內(nèi)容。要把視頻時(shí)長從 4 秒做到 15 秒，考驗(yàn)的是模型能力，包括理解提示指令(prompt)、模擬物理世界的規(guī)律、生成準(zhǔn)確的畫面動作等等。具備生成 15 秒視頻的能力，就具備在更長時(shí)間的視頻里保證畫面主體和背景一致性的能力。從 15 秒再到 60 秒，按照 Scaling Law 逐步擴(kuò)大即可。

　　不少從業(yè)者和投資人認(rèn)為，Sora 之所以會表現(xiàn)出更強(qiáng)的能力，源于背后 OpenAI 的多模態(tài)模型 GPT-4V，而 GPT-4V 的能力又建立在 GPT-4 的理解能力上，所以大語言模型能力強(qiáng)的公司，更有可能做好視頻生成模型等多模態(tài)模型。

　　Sora 雖然發(fā)布效果驚艷，卻至今仍未對更多開發(fā)者和普通用戶開放。這和 OpenAI 以往的風(fēng)格不同——從 2020 年的 GPT-3 開始，OpenAI 每發(fā)布一個產(chǎn)品，都會迅速讓更多人用起來。

　　Sora 的反�？赡芤�?yàn)楫a(chǎn)品還不夠成熟。目前業(yè)界的信息是，Sora 生成 60 秒的視頻需要 20-30 分鐘，這意味著昂貴的運(yùn)算成本，越多人用成本越高。

　　也有人認(rèn)為，Sora 生成視頻的質(zhì)量可能還不夠穩(wěn)定，年初震撼世界的幾個視頻可能是挑選后的最好結(jié)果。

　　提高穩(wěn)定性和效果的同時(shí)降低成本，也是所有視頻模型公司和試圖做視頻生成的大語言模型公司接下來要解決的問題。

　　王長虎此前表示，如果去年有更多的資源和算力，愛詩科技可以比 Sora 更早做出能生成 60 秒視頻的模型。現(xiàn)在，更多的錢已經(jīng)到位。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信