這幾天的視頻生成AI一經(jīng)推出就好評(píng)不斷。無論是Runaway新模型Gen-3 Alpha,還是Luma AI推出的Dream Machine,都有著逼真的畫面、多樣的電影敘事手法,藝術(shù)氣息拉滿。
目前最頂尖的工具如Sora生成的視頻都是沒有聲音的,而聲音是讓AI視頻變得更為真實(shí)的重要一步。如果AI能完成從腳本/圖片-視頻-配音的工作流,那才是真的完美。
昨日凌晨,谷歌DeepMind悄悄發(fā)布了V2A(Video-to-Audio)系統(tǒng)。這個(gè)系統(tǒng)能根據(jù)畫面內(nèi)容或者手動(dòng)輸入的提示詞直接為視頻配音。
沒過幾小時(shí),另一個(gè)AI音頻克隆“扛把子”ElevenLabs就發(fā)布了文字到音頻模型的API,并基于這一API做了一個(gè)Demo應(yīng)用。這是當(dāng)前唯一一個(gè)全自動(dòng)將視頻與音頻相結(jié)合的AI工具,且完全開源、免費(fèi)在線使用。
花開兩朵,各表一枝。由于谷歌并不打算向公眾開放V2A系統(tǒng),那我們就先試用一下ElevenLabs的這個(gè)版本~
/ 01 / 看懂+對(duì)齊,生成全自動(dòng),但不能理解復(fù)雜畫面
AI視頻告別無聲,ElevenLabs為“徒手”制作大片的AI工作流補(bǔ)上最后一筆,我已經(jīng)迫不及待,馬上就要為前幾天做出來的AI生產(chǎn)視頻加上配音了。
▲ElevenLabs生成配音視頻step1→step2
我將luma生成的著火meme視頻、OpenAI成員暴走視頻、電影《閃靈》視頻等,以及Gen-3的示例視頻都投喂給了ElevenLabs,看看它會(huì)為這些畫面配上什么聲音。
效果還不錯(cuò)呀!其中,“某個(gè)歌手在獨(dú)唱”、“一個(gè)女人奔向正在發(fā)射的火箭”、“白頭發(fā)女人大笑”等等配音跟場(chǎng)景很契合,“水下呼吸的女人”、“一個(gè)男人身后燃起大火”的視頻配音逼真細(xì)膩,非常有大片感。
經(jīng)過約20個(gè)視頻的試煉,ElevenLabs能自動(dòng)生成與視頻內(nèi)容同步的音軌,而且生成配音基本已覆蓋影視配音的全部類型:
- 環(huán)境聲,例如水下呼吸聲、燃燒聲、滾輪聲、爆竹聲、樂器演奏、白噪音、嘈雜人聲等;
- 人聲,哭聲/笑聲、對(duì)白/獨(dú)白和歌聲等,但不能生成旁白;
- 音樂,比如馬戲團(tuán)插畫的歡樂音樂、閃靈雙胞胎鏡頭的恐怖音樂等;
- 音效,例如槍聲、喜劇效果的搓碟聲、“OpneAI成員打架”時(shí)的機(jī)械崩壞聲等。
對(duì)比其他AI配音工具,ElevenLabs是第一個(gè)做到全自動(dòng)為視頻結(jié)合生成式配音的工具,無需人工輸入提示詞也可以為視頻配音,且使用AI創(chuàng)建4個(gè)音軌供選擇,無需人工對(duì)齊音頻與視頻。
ElevenLabs能理解視頻的畫面,讀懂里面的元素,知道畫面里正在發(fā)生什么,應(yīng)該出現(xiàn)什么聲音,自動(dòng)匹配上環(huán)境音、人聲、音樂和音效,在口型同步上表現(xiàn)也不錯(cuò)。
再?gòu)穆曇舯旧韥碚f,烏鴉君發(fā)現(xiàn)ElevenLabs在聲音保真度方面表現(xiàn)不錯(cuò),水下呼吸聲、燃燒聲、滾輪聲、爆竹聲,甚至白噪音、嘈雜人聲等聲音都非常逼真,且音源豐富、音質(zhì)尚可。
令人最想吐槽的一點(diǎn)是,ElevenLabs的音軌選擇較少(只有4條),我用同一個(gè)視頻多次投喂給ElevenLabs,始終只能得到相同的4個(gè)音軌。
音軌選擇少意味著使用者的控制范圍小、創(chuàng)作靈活度低,這使得ElevenLabs在一致性和運(yùn)動(dòng)性方面不穩(wěn)定的缺陷被暴露無疑。理解簡(jiǎn)單的畫面對(duì)ElevenLabs來說不是難題,但一旦畫面元素有了動(dòng)態(tài),配音時(shí)常出現(xiàn)節(jié)奏韻律不對(duì)、不能貼合畫面內(nèi)容的情況,例如腳步聲不能符合人物走動(dòng)的節(jié)奏等。
不過,這還只是ElevenLabs做視頻配音的一個(gè)Demo程序,期待它后續(xù)增加可選擇的音軌條數(shù),提高理解復(fù)雜畫面的能力。
/ 02 / 完全開源,理解畫面能力弱于V2A
不到一天,ElevenLabs研究人員說這是他們的視頻到聲音應(yīng)用的開發(fā)用時(shí)。這個(gè)敢直接硬剛谷歌的AI語音公司由前Google機(jī)器學(xué)習(xí)工程師Piotr Dabkowski和前Palantir策略分析師Staniszewski于2022年1月共同創(chuàng)立,自2022年以來一直從事生成AI語音。
對(duì)比谷歌V2A示例視頻和ElevenLabs的生成視頻,我們發(fā)現(xiàn)后者要遜色前者不少,這可能是由于二者的工作原理存在的本質(zhì)的差別。Demo是基于公司在5月底發(fā)布的文字到音頻模型打造的,工作原理如下:
- 以1秒鐘的間隔從視頻中提取4幀圖像(全部在客戶端提取)
- 將幀和提示發(fā)送到 GPT-4o,以創(chuàng)建自定義的文本音效提示
- 使用 ElevenLabs 文本轉(zhuǎn)聲音特效API創(chuàng)建提示音效
- 在客戶端使用 ffmpeg.wasm 將視頻和音頻合并為一個(gè)文件供下載
- 托管于vercel
ElevenLabs并不能直接實(shí)現(xiàn)畫面到音頻的轉(zhuǎn)換,而是利用了GPT-4o將視頻截圖轉(zhuǎn)換為文字提示詞,之后再輸入文字轉(zhuǎn)在幾秒內(nèi)生成多條與畫面內(nèi)容匹配的音頻。而DeepMind在博客中稱V2A能依靠自己的視覺能力理解視頻中的像素,這意味著ElevenLabs理解視頻的能力可能會(huì)弱于V2A。
另外,在API使用過程中,Elevenlabs按每次生成100個(gè)字符收費(fèi),在設(shè)置持續(xù)時(shí)間時(shí)按每秒生成25個(gè)字符收費(fèi)。(開源地址:https://github.com/elevenlabs/elevenlabs-examples/tree/main/examples/sound-effects/video-to-sfx)
/ 03 / 結(jié)語:視頻生成帶飛音頻生成,深度偽造技術(shù)帶來自檢挑戰(zhàn)
一方面,OpenAI不斷推出高品質(zhì)AI視頻生成模型Sora的新演示,另一方面目前這項(xiàng)技術(shù)對(duì)公眾仍然不可見,包括谷歌V2A。然而為了解決視頻配音這個(gè)問題,競(jìng)爭(zhēng)對(duì)手Pika研究名叫“Lip Sync”的對(duì)口型功能。
AI視頻賽道在“百團(tuán)大戰(zhàn)”的同時(shí),AI音頻生成企業(yè)也正在扶搖直上。
ElevenLabs今年2月獲得了8000萬美元的B輪融資,估值超過10億美元,躋身獨(dú)角獸行列,估值在半年多的時(shí)間暴增10倍,包括像網(wǎng)易等游戲開發(fā)商、《華盛頓郵報(bào)》等傳統(tǒng)媒體,都已經(jīng)在大量使用ElevenLabs的文生語音技術(shù)。
聲音是影視作品給人以身臨其境之感的元素,未來,AI音頻生成可能會(huì)細(xì)化到人聲模擬、對(duì)口型、方言等各個(gè)部分,無限逼近真實(shí)世界。
與此同時(shí),企業(yè)需要研究更多類似生物指紋嵌入應(yīng)用的技術(shù),來防范Deepfake(深度偽造)技術(shù)被用作不法用途。ElevenLabs曾表示將會(huì)推出新的措施,克隆聲音僅供付費(fèi)用戶使用,禁止多次違反平臺(tái)協(xié)議的用戶使用這種功能,將會(huì)推出一種新的AI檢測(cè)工具。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
2024年的Adobe MAX 2024發(fā)布會(huì)上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專題論壇在沈陽成功舉辦。