《晚點(diǎn) LatePost》獲悉,螞蟻集團(tuán)已于近期獨(dú)家投資了中國視頻生成大模型公司愛詩科技的 A2 輪,該輪金額超過 1 億元人民幣。
接近螞蟻的人士說,螞蟻除自研大模型并落地應(yīng)用外,也在持續(xù)關(guān)注行業(yè)的前瞻探索,圍繞大模型技術(shù)能力、產(chǎn)業(yè)應(yīng)用和 AI 算力等核心技術(shù)和生態(tài),已陸續(xù)投資了智譜 AI、月之暗面等大模型創(chuàng)業(yè)公司和專注多模態(tài)的生數(shù)科技等。
愛詩科技成立于 2023 年 4 月,目前團(tuán)隊(duì)約有 30 人,創(chuàng)始人兼 CEO 王長虎曾任字節(jié)跳動(dòng)視覺技術(shù)負(fù)責(zé)人,在視頻理解、數(shù)據(jù)處理、內(nèi)容安全和視頻生成等領(lǐng)域都有積累。
愛詩科技既做視頻生成大模型,又做面向內(nèi)容創(chuàng)作者和普通人的視頻生成產(chǎn)品。
愛詩科技稱自己 2023 年 6 月以來就選擇 DiT(Diffusion Transformer)架構(gòu),這是一種 2022 年底被提出的新型擴(kuò)散模型,DiT 也被認(rèn)為是 Sora 背后的架構(gòu)。
1 月,愛詩科技上線了視頻生成產(chǎn)品 PixVerse,用戶在 PixVerse 網(wǎng)頁版界面里輸入文字或圖片就能生成視頻。目前 PixVerse 生成的視頻時(shí)長為 4 秒,產(chǎn)品免費(fèi)。
據(jù)第三方監(jiān)測(cè)平臺(tái) SimilarWeb 的數(shù)據(jù),上線 3 個(gè)月來,PixVerse 的月訪問量超過 115 萬,上線早兩個(gè)月的 Pika 是 226 萬,2023年中旬就可以生成 18 秒視頻的 Runway 的月訪問量則超過 668 萬,該數(shù)據(jù)不包括 Runway 在 App 端的數(shù)據(jù),大量 Runway 用戶可能會(huì)直接使用 App。目前 PixVerse 和 Pika 尚沒有 App。
在廣告、影視等領(lǐng)域,現(xiàn)在不少從業(yè)者已習(xí)慣先用 Midjourney 生成圖片,再轉(zhuǎn)給 PixVerse 生成視頻。
Sora 激起了更多視頻模型和應(yīng)用的競爭。
據(jù)了解,一季度,字節(jié) AI 研發(fā)團(tuán)隊(duì)提升了視頻生成模型的優(yōu)先級(jí),此前優(yōu)先級(jí)最高的是大語言模型和文生圖模型。原 Google 資深科學(xué)家蔣路在 2 月加入字節(jié)跳動(dòng),他曾是 Google 視頻生成模型 VideoPoet 項(xiàng)目的負(fù)責(zé)人。字節(jié)此前已推出視頻生成模型 MagicVideo-V2。
同樣在視頻領(lǐng)域有數(shù)據(jù)和經(jīng)驗(yàn)積累的騰訊,在 2023 年 12 月和 2024 年 1 月分別發(fā)布了 AnimateZero 和 VideoCrafter2 兩個(gè)模型。
阿里 2020 年就在做多模態(tài)大模型,它在 2023 年下半年發(fā)布了視頻生成模型 I2VGen-XL。
創(chuàng)業(yè)公司中,國內(nèi)的視頻生成產(chǎn)品已有右腦科技的 Vega AI、MewXAI 的藝映 AI、HiDream.ai(智象未來)的 Pixeling、新壹科技的一幀秒創(chuàng),以及 Never Ends 和 Morph Studio 等。
目前大部分視頻生成產(chǎn)品可以生成的時(shí)長大多在 4 到 7 秒,而 Sora 能一次性生成 60 秒視頻。從發(fā)布時(shí)展示的例子看,Sora 生成的視頻在畫面的運(yùn)動(dòng)平滑度、動(dòng)作連續(xù)性、物理真實(shí)性和成像質(zhì)量上都表現(xiàn)較好。
王長虎認(rèn)為,15 秒的視頻時(shí)長是一個(gè)節(jié)點(diǎn):15 秒意味著能呈現(xiàn)一套完整動(dòng)作、傳達(dá)一段有意義的內(nèi)容。要把視頻時(shí)長從 4 秒做到 15 秒,考驗(yàn)的是模型能力,包括理解提示指令(prompt)、模擬物理世界的規(guī)律、生成準(zhǔn)確的畫面動(dòng)作等等。具備生成 15 秒視頻的能力,就具備在更長時(shí)間的視頻里保證畫面主體和背景一致性的能力。從 15 秒再到 60 秒,按照 Scaling Law 逐步擴(kuò)大即可。
不少從業(yè)者和投資人認(rèn)為,Sora 之所以會(huì)表現(xiàn)出更強(qiáng)的能力,源于背后 OpenAI 的多模態(tài)模型 GPT-4V,而 GPT-4V 的能力又建立在 GPT-4 的理解能力上,所以大語言模型能力強(qiáng)的公司,更有可能做好視頻生成模型等多模態(tài)模型。
Sora 雖然發(fā)布效果驚艷,卻至今仍未對(duì)更多開發(fā)者和普通用戶開放。這和 OpenAI 以往的風(fēng)格不同——從 2020 年的 GPT-3 開始,OpenAI 每發(fā)布一個(gè)產(chǎn)品,都會(huì)迅速讓更多人用起來。
Sora 的反?赡芤?yàn)楫a(chǎn)品還不夠成熟。目前業(yè)界的信息是,Sora 生成 60 秒的視頻需要 20-30 分鐘,這意味著昂貴的運(yùn)算成本,越多人用成本越高。
也有人認(rèn)為,Sora 生成視頻的質(zhì)量可能還不夠穩(wěn)定,年初震撼世界的幾個(gè)視頻可能是挑選后的最好結(jié)果。
提高穩(wěn)定性和效果的同時(shí)降低成本,也是所有視頻模型公司和試圖做視頻生成的大語言模型公司接下來要解決的問題。
王長虎此前表示,如果去年有更多的資源和算力,愛詩科技可以比 Sora 更早做出能生成 60 秒視頻的模型。現(xiàn)在,更多的錢已經(jīng)到位。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
近日,德國柏林國際電子消費(fèi)品展覽會(huì)(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計(jì)及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)成功斬獲兩項(xiàng)“IFA全球產(chǎn)品設(shè)計(jì)創(chuàng)新大獎(jiǎng)”金獎(jiǎng),有力證明了其在全球市場的強(qiáng)大影響力。
近日,中國家電及消費(fèi)電子博覽會(huì)(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項(xiàng)AWE 2024艾普蘭大獎(jiǎng)。
“以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
由世界人工智能大會(huì)組委會(huì)、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會(huì)共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會(huì)聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開放原子開源基金會(huì)主辦的“2024全球開發(fā)者先鋒大會(huì)”,將于2024年3月23日至24日舉辦。