輕松籌:十年深耕大健康領域,打造全方位健康保障生態(tài)面對承壓的小家電市場,小熊、蘇泊爾上半年為何一降一增?研發(fā)投入高增、占營收比超5%,科沃斯、石頭科技升高技術壁壘激光顯示全面“向新”發(fā)展,未來激光電視主機僅有iPad大小2024年冷年空調市場總結:規(guī)模下探,結構降級,空調行業(yè)邁入新周OpenAI o1全方位SOTA登頂lmsys推薦榜!數(shù)學能力碾壓Claude和谷歌模型,o1-mini并列第一iPhone16系列新品正式發(fā)售 新品爆發(fā)就在抖音電商廣告燒錢過億,70%用戶靠投流,大模型算不過成本賬?PS1經典配色!索尼發(fā)布30周年紀念版PS5、PS5 Pro:限量賣泰順:聚智聚力數(shù)字創(chuàng)客激發(fā)鄉(xiāng)村振興新動能電商12年 ,ALL IN 小紅書,開店3月賣出1100萬Mate 70最受期待!華為三款重磅機型蓄勢待發(fā)云天勵飛“算力積木”架構:引領邊緣AI芯片新變革徹底告別3999元!小米15入網 支持90W快充FF發(fā)布第二品牌Faraday X:對標豐田 專注增程式混動車型黑神話悟空總收入超67億:銷量已超2000萬份通快成立激光業(yè)務區(qū)域中心(中國),強勢布局中國市場Sandalwood Advisors受邀參加第31屆中信里昂投資者論壇淘寶倒逼新風向:一場電商減負運動博浪AI時代,阿里、華為“硬碰硬”
  • 文生視頻,爆發(fā)在六月

    2024年06月28日 10:18:36   來源:數(shù)智前線

      視頻生成模型目前還處于一個相對早期的發(fā)展階段,其情形有點類似于視頻領域的GPT-2時期。

      文|徐鑫

      編|任曉漁

      過去一個月,稱得上文生視頻大模型月。

      愛詩科技PixVerse、快手可靈、Luma AI的Dream Machine、Runway的Gen-3 Alpha、開源項目Open-Sora、谷歌DeepMind的V2A,一眾產品迎來發(fā)布更新潮。

      令不少業(yè)內人士驚訝的是,國內企業(yè)在短短幾個月時間中拿出了一些產品?焓挚伸`文生視頻大模型,作為全球第一個可公開試用的生成時長超過1分鐘的產品,節(jié)奏甚至走在了Sora的前面。

      此前,Sora橫空出世時,國內AI圈人士表現(xiàn)出了濃重的悲觀情緒。當時他們認為Sora加劇了中外的差距,國內與海外有了明顯代差,且國內形成Sora類的產品還遙遙無期。

      現(xiàn)在,文生視頻賽道國產AI正加速趕上來。人工智能企業(yè)精準學AI技術負責人張寧告訴數(shù)智前線,個中緣由在于現(xiàn)在技術路線已沒有秘密,而視頻生成賽道目前階段對算力要求并不及大語言模型,可能在千卡集群規(guī)模,這對國內企業(yè)不構成掣肘。

      數(shù)智前線還觀察到,除了文生視頻大模型領域,在非Sora路線的視頻生成應用,國內有不少企業(yè)在產品化和價值驗證上也邁開了步子,“應用驅動,非常有生機”。

      行業(yè)很熱鬧,不過業(yè)內也坦言,文生視頻大模型在產品一致性、生成時長等角度仍有待進步,行業(yè)仍未迎來ChatGPT時刻。

      01

      國內文生視頻能力追趕海外

      6月6日,快手的文生視頻大模型可靈發(fā)布,一口氣把視頻生成的時長提到了2分鐘級。

      在線上開放版本里,用戶輸入開放式文本描述,等待幾分鐘就能生成時長5秒,幀率30fps,分辨率1080p,且支持多種寬高比的視頻。21日,可靈的功能再度更新,上線了圖生視頻和視頻時間延長功能,用戶添加更多描述,據(jù)稱最長能夠生成長達3分鐘的視頻。

      快手官方將可靈定義為“首個效果對標 Sora且面向用戶開放的文生視頻大模型”,對比今年2月引爆賽道的Sora,目前OpenAI仍沒有推出公開可適用產品,目前對外展示的視頻最長生成時間也僅為60秒水平。

      快手可靈的能力,引發(fā)了業(yè)界的廣泛關注。截至6月26日,有超過18萬人在快影的排隊列表里等待試用。這種熱度可能快手官方也沒有意料到。有一個插曲,快手視覺生成與互動中心負責人萬鵬飛出席北京智源大會時說受到了不少關注,他看起來頗不習慣。論壇主持人打趣讓他“盡快習慣”。

      在社交媒體上,可靈收到了海內外的不少好評。“感覺無論是畫質、運動幅度、人物、場景一致性上完全不輸sora,可靈的生成質量是現(xiàn)在普通用戶能接觸到的天花板”,一位AI行業(yè)人士不吝稱贊。

      可靈的出現(xiàn)明顯提振了國內文生視頻賽道的士氣。

      實際上不止是可靈,過去幾個月里,國內文生視頻賽道上的進展不小,多家企業(yè)都推出了各類文生視頻模型產品。

      比如,愛詩科技的Pixverse也是國內出品,愛詩科技核心團隊是此前的字節(jié)視覺技術團隊而來。4月,生數(shù)科技發(fā)布文生視頻大模型Vidu,可根據(jù)文本描述直接生成長達16秒、分辨率高達1080P的高清視頻內容。一個月前,騰訊也發(fā)布混元最新一代基于DiT架構的視頻生成模型,能生成16秒視頻,預計今年第三季度將推出的下一代文生視頻模型,可生成30秒以上視頻。

      在一眾產品中,為什么國內大廠并不是特別有錢的快手能做到產品化?

      一位資深人士認為,國內加速發(fā)展在于文生視頻賽道自從Sora驗證了Scalling Law之后,技術上已經沒有了秘密。

      愛詩科技創(chuàng)始人王長虎表示,Sora橫空出世生成了新語言。Sora最重要的貢獻是驗證了視頻生成的規(guī)模定律,模型越大,可用的優(yōu)質數(shù)量數(shù)據(jù)越多,產生的效果更好。

      過去十年,Diffusion技術支撐了AIGC圖像視頻生成的發(fā)展。此前視覺生成擴散模型主要基于 U-Net 架構,而Sora采取了Diffusion+Transformer架構(也即業(yè)界提出的DiT架構),去掉了U-NET架構,同時利用了大語言模型幫助增強,以及做訓練數(shù)據(jù)的精細化達標。這個技術也使得眾多視頻生成能力進一步提升。

      除此之外,精準學張寧告訴數(shù)智前線,訓練文生視頻大模型對算力的需求沒有大語言模型那么大,也是國內在模型能力上快速追平的原因。“當下的生成時長和能力,需要的算力可能在千卡規(guī)模,比大語言模型小很多,現(xiàn)在GPT-4訓練時需要的集群規(guī)模在3.2萬張卡水平”。

      02

      應用驅動的另一股流向

      視頻生成領域,另一股趨勢也頗為明顯。在應用驅動下,不少企業(yè)已經把視頻生成技術形成產品和解決方案,去解決行業(yè)問題。

      6月21日,華為盤古大模型5.0發(fā)布,其中多模態(tài)能力里就包括了視頻生成技術。華為一貫強調大模型技術要解決行業(yè)難題,在視頻生成技術上也是如此。

      華為常務董事、華為云CEO張平安介紹,視頻生成技術應用到了自動駕駛的訓練環(huán)節(jié)。自動駕駛應用里的視頻生成,最怕天馬行空。比如多個行駛視角的視頻合并時,車子可能會莫名其妙消失,這樣的視頻明顯不能用于自動駕駛算法訓練。

      盤古5.0基于自研的可控時空生成技術,能理解物理規(guī)律,大規(guī)模的生成和實際場景相一致的駕駛視頻數(shù)據(jù)。像是生成的雨天的汽車行駛視頻里,車子的尾燈都是開啟的。這代表模型通過對海量視頻數(shù)據(jù)的學習,學習到了雨天開車應該開車燈。目前華為沒有透露這種生成能力的技術路線。

      另一些企業(yè),則集成了大模型的能力,根據(jù)文字組裝視頻,幫助一些B端企業(yè)實現(xiàn)更低門檻創(chuàng)作各類視頻。

      特看科技CEO樂乘告訴數(shù)智前線,他們推出視頻AIGC生成平臺,主要是想幫國內出海商家和海外本土企業(yè)降低B端廣告營銷視頻制作門檻。這種做法與基于文字從0~1生成畫面的類Sora產品不是一回事。

      Sora基于文字憑空生成視頻,而特看的文生視頻工具,接入了海外主流的大語言模型和TTS及多模態(tài)大模型。大模型學習爆款視頻的文本結構,生成適合商家產品的文案和腳本,之后自動與商家提供的產品素材匹配,一鍵生成視頻。

      這是在應用層的嘗試。它的Know-How則在于,如何把不同的模型銜接在一起,并實現(xiàn)流暢工作的工程能力。比如在線合成、在線編輯的流暢程度,數(shù)字人的口型和內容的匹配吻合,動作和畫面如何組合等。

      另外面向B端可用的視頻生成產品,也重視內容的可控性,特看的應用從腳本生成到素材匹配,每個環(huán)節(jié)都支持用戶在線編輯調整,“Sora對我們是增強作用,比如視頻某個鏡頭不行,我們未來可以接入它,用Sora生成片段去填充。”樂乘介紹。

      魔琺科技創(chuàng)始人柴金祥則從培訓、電商、金融、快消、廣電等企業(yè)級場景里,企業(yè)對高質量、可編輯、且能精準傳遞信息的內容需求出發(fā),推出有言AIGC一站式3D 視頻創(chuàng)作平臺。

      “以往拍攝一條高質量3D動畫產品,成本按照秒來計算,周期卻要幾個月,幾十萬成本也下不來。”柴金祥說,他們拆解了3D內容所包含的各類要素,將制作3D視頻的流程固化成了軟件化的工業(yè)產線。

      比如面向產品發(fā)布會、匯報視頻,知識分享等不同場景,需求方可以調整3D形象的性別、面部特征、頭發(fā)顏色、外觀、服飾、配飾等各種細節(jié),搭配上不同的場景素材。大語言模型、TTS模型的能力被集成到系統(tǒng)里,與此前搭配的素材組合,生成符合需求、內容可控的高質量3D視頻。

      從應用層發(fā)力,產品在企業(yè)級場景應用和落地速度也推進很快。比如魔琺科技介紹,目前在教育、培訓、文旅、政務、金融、3C、快消等多個行業(yè)都有頭部企業(yè)在用他們的產品,已經完成了價值驗證。而特看科技也透露,一些出海企業(yè)如安克等,已使用這款產品來做網頁和社媒推廣的視頻。

      基于大模型的能力往行業(yè)和應用層挖,“模型崩了應用也不能用了,大模型升級后應用的效果也會增強,比如隨著模型推理的能力增強,生成的速度會越來越快,價格可能也會變便宜,文案質量和視頻的質量也越來越高。”樂乘說。

      03

      熱鬧之下,行業(yè)仍需跨越鴻溝

      國產AI能力加速追趕之外,不得不說整個6月里賽道的另一個特征——產品井噴潮。巨頭谷歌、明星公司Runway、新晉創(chuàng)企Luma AI,再到國內的短視頻企業(yè)快手,都推出了產品或發(fā)布了更新。

      比如硅谷創(chuàng)業(yè)公司Luma AI推出的Dream Machine,可基于文字或圖片輸入,在120 秒內生成長度為5秒的高質量視頻。推出后不少試用者就稱在能力上吊打了老牌AI企業(yè)Runway的文生視頻模型Gen-2。

      幾天后,Runway馬上找回了場子,它宣布即將推出新模型Gen-3 Alpha,相比上一代的Gen-2在保真度、一致性和運動表現(xiàn)方面有重大改進。并且它支持多種創(chuàng)作方式,包括文本到視頻(T2V)、圖像到視頻(I2V)和文本到圖像(T2I) 等能力。雖然未開放試用,但Runway在官網釋出了不少精彩的視頻。

      目前,廠商們都沒有公布文生視頻模型的參數(shù)量級,多是模型即產品模式,主要圍繞生成視頻的時長、視頻的分辨率等指標展開。分鐘級的內容生成能力,之前Sora是獨苗,快手可靈推出后,一下子刷新了這個指標。已公布產品里,騰訊此前宣布過文生視頻模型生成時長達到了16秒,三季度要到20秒。其他各家目前的產品看還停在10秒以內 。

      另外,各家的產品化階段和對公眾可用的進度也不一。

      這種你追我趕的架勢,看起來與大語言模型領域的內卷游戲如出一轍。Sora的DiT路線驗證了文生視頻領域的Scaling law之后,文生視頻賽道底層模型的未來走向也變得明了。

      樂乘認為,Sora和它的追隨者們,后續(xù)的競爭態(tài)勢會跟現(xiàn)在大語言模型一樣。大廠的閉源版產品+開源版,大家一起卷,能力逐漸拉平趨同。

      目前行業(yè)里開源產品的能力也在提升。今年3月18日,潞晨科技旗下Colossal-AI團隊開源了其Open-Sora 1.0視頻生成模型,包括模型權重、訓練源代碼和詳細的架構,目前在GitHub上獲得超過19.6k的星標。

      潞晨科技Open-Sora負責人申琛惠提到,Open-Sora開源項目,經過迭代更新,目前版本能單次生成大概20秒的視頻,針對于最初版本只能生成2秒,有了顯著的提升,基于之前視頻生成的延續(xù)性生成可以長達數(shù)分鐘。

      她也提到了開源項目模型Demo和OpenAI沒有辦法去比。“OpenAI使用到大概2000-4000個H100的GPU,花費5000萬美元到2億美元的訓練成本,我們用了大概1萬美金這樣的范圍成本進行實驗”。

      值得一提的是,快手可靈推出后,已經有不少人士在關注能否“開源白嫖”。萬鵬飛出席北京智源現(xiàn)場兩次被提問模型的開源打算。他回應稱,他們暫時不考慮開源,目前已經放出了一些關鍵的判斷和設計,未來也會把一些硬核的東西逐步釋放出來,大家一起交流學習。

      當下業(yè)界普遍意識到,文生視頻產品距離商用仍然有不小的鴻溝需要跨越。

      一個突出的問題是效果不穩(wěn)定,有人將之類比為“抽卡”。“在限定的語句和限定的訓練樣本內,可以獲得很好的效果,但是一超過邊界就會天馬行空,甚至群魔亂舞,超越人類常識和認知。”一位人士使用后評價。

      為了減少“抽卡”,企業(yè)也在想辦法提升體驗,比如愛詩科技用到了圖生視頻這種“墊圖”的方法。王長虎提到,如果用文生視頻,需要嘗試 25 次才能生成一次可用的,文生圖每生成 5 次就能有一次可用的,再用這張圖通過技術把它動起來,抽卡成功概率就從 1/25 提升到了 1/10。

      另外,如何對運動規(guī)律和物理世界實現(xiàn)更好的建模,如何生成更長的可用視頻,以及如何能夠表達鏡頭語言,生成多鏡頭內容,都是未來AI視頻要解決的問題。業(yè)界已有共識,目前視頻生成還沒有到ChatGPT階段。

      “視頻生成模型目前還處于一個相對早期的發(fā)展階段,其情形有點類似于視頻領域的GPT-2時期。市場上尚未出現(xiàn)一個完全成熟且廣泛可用的視頻生成應用。”潞晨科技創(chuàng)始人兼董事長尤洋今年4月指出。

      文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。

    即時

    TCL實業(yè)榮獲IFA2024多項大獎,展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術、產品設計及應用方面的創(chuàng)新變革,全球領先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產品設計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強大影響力。

    新聞

    敢闖技術無人區(qū) TCL實業(yè)斬獲多項AWE 2024艾普蘭獎

    近日,中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術和新品亮相,以敢為精神勇闖技術無人區(qū),斬獲四項AWE 2024艾普蘭大獎。

    企業(yè)IT

    重慶創(chuàng)新公積金應用,“區(qū)塊鏈+政務服務”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    “純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

    2024年3月12日,由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會在上海盛大舉行。

    研究

    2024全球開發(fā)者先鋒大會即將開幕

    由世界人工智能大會組委會、上海市經信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導,由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經濟發(fā)展(集團)有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。