AI音頻“扛把子”剛上谷歌V2A！第一個(gè)視頻+音頻全自動(dòng)AI工具，完全開源免費(fèi)

2024年06月20日 18:58:47 來源：烏鴉智能說

　　這幾天的視頻生成AI一經(jīng)推出就好評(píng)不斷。無論是Runaway新模型Gen-3 Alpha，還是Luma AI推出的Dream Machine，都有著逼真的畫面、多樣的電影敘事手法，藝術(shù)氣息拉滿。

　　目前最頂尖的工具如Sora生成的視頻都是沒有聲音的，而聲音是讓AI視頻變得更為真實(shí)的重要一步。如果AI能完成從腳本/圖片-視頻-配音的工作流，那才是真的完美。

　　昨日凌晨，谷歌DeepMind悄悄發(fā)布了V2A(Video-to-Audio)系統(tǒng)。這個(gè)系統(tǒng)能根據(jù)畫面內(nèi)容或者手動(dòng)輸入的提示詞直接為視頻配音。

　　沒過幾小時(shí)，另一個(gè)AI音頻克隆“扛把子”ElevenLabs就發(fā)布了文字到音頻模型的API，并基于這一API做了一個(gè)Demo應(yīng)用。這是當(dāng)前唯一一個(gè)全自動(dòng)將視頻與音頻相結(jié)合的AI工具，且完全開源、免費(fèi)在線使用。

　　花開兩朵，各表一枝。由于谷歌并不打算向公眾開放V2A系統(tǒng)，那我們就先試用一下ElevenLabs的這個(gè)版本~

　　/ 01 / 看懂+對(duì)齊，生成全自動(dòng)，但不能理解復(fù)雜畫面

　　AI視頻告別無聲，ElevenLabs為“徒手”制作大片的AI工作流補(bǔ)上最后一筆，我已經(jīng)迫不及待，馬上就要為前幾天做出來的AI生產(chǎn)視頻加上配音了。

　　▲ElevenLabs生成配音視頻step1→step2

　　我將luma生成的著火meme視頻、OpenAI成員暴走視頻、電影《閃靈》視頻等，以及Gen-3的示例視頻都投喂給了ElevenLabs，看看它會(huì)為這些畫面配上什么聲音。

　　效果還不錯(cuò)呀!其中，“某個(gè)歌手在獨(dú)唱”、“一個(gè)女人奔向正在發(fā)射的火箭”、“白頭發(fā)女人大笑”等等配音跟場(chǎng)景很契合，“水下呼吸的女人”、“一個(gè)男人身后燃起大火”的視頻配音逼真細(xì)膩，非常有大片感。

　　經(jīng)過約20個(gè)視頻的試煉，ElevenLabs能自動(dòng)生成與視頻內(nèi)容同步的音軌，而且生成配音基本已覆蓋影視配音的全部類型：

　　- 環(huán)境聲，例如水下呼吸聲、燃燒聲、滾輪聲、爆竹聲、樂器演奏、白噪音、嘈雜人聲等;

　　- 人聲，哭聲/笑聲、對(duì)白/獨(dú)白和歌聲等，但不能生成旁白;

　　- 音樂，比如馬戲團(tuán)插畫的歡樂音樂、閃靈雙胞胎鏡頭的恐怖音樂等;

　　- 音效，例如槍聲、喜劇效果的搓碟聲、“OpneAI成員打架”時(shí)的機(jī)械崩壞聲等。

　　對(duì)比其他AI配音工具，ElevenLabs是第一個(gè)做到全自動(dòng)為視頻結(jié)合生成式配音的工具，無需人工輸入提示詞也可以為視頻配音，且使用AI創(chuàng)建4個(gè)音軌供選擇，無需人工對(duì)齊音頻與視頻。

　　ElevenLabs能理解視頻的畫面，讀懂里面的元素，知道畫面里正在發(fā)生什么，應(yīng)該出現(xiàn)什么聲音，自動(dòng)匹配上環(huán)境音、人聲、音樂和音效，在口型同步上表現(xiàn)也不錯(cuò)。

　　再?gòu)穆曇舯旧韥碚f，烏鴉君發(fā)現(xiàn)ElevenLabs在聲音保真度方面表現(xiàn)不錯(cuò)，水下呼吸聲、燃燒聲、滾輪聲、爆竹聲，甚至白噪音、嘈雜人聲等聲音都非常逼真，且音源豐富、音質(zhì)尚可。

　　令人最想吐槽的一點(diǎn)是，ElevenLabs的音軌選擇較少(只有4條)，我用同一個(gè)視頻多次投喂給ElevenLabs，始終只能得到相同的4個(gè)音軌。

　　音軌選擇少意味著使用者的控制范圍小、創(chuàng)作靈活度低，這使得ElevenLabs在一致性和運(yùn)動(dòng)性方面不穩(wěn)定的缺陷被暴露無疑。理解簡(jiǎn)單的畫面對(duì)ElevenLabs來說不是難題，但一旦畫面元素有了動(dòng)態(tài)，配音時(shí)常出現(xiàn)節(jié)奏韻律不對(duì)、不能貼合畫面內(nèi)容的情況，例如腳步聲不能符合人物走動(dòng)的節(jié)奏等。

　　不過，這還只是ElevenLabs做視頻配音的一個(gè)Demo程序，期待它后續(xù)增加可選擇的音軌條數(shù)，提高理解復(fù)雜畫面的能力。

　　/ 02 / 完全開源，理解畫面能力弱于V2A

　　不到一天，ElevenLabs研究人員說這是他們的視頻到聲音應(yīng)用的開發(fā)用時(shí)。這個(gè)敢直接硬剛谷歌的AI語音公司由前Google機(jī)器學(xué)習(xí)工程師Piotr Dabkowski和前Palantir策略分析師Staniszewski于2022年1月共同創(chuàng)立，自2022年以來一直從事生成AI語音。

　　對(duì)比谷歌V2A示例視頻和ElevenLabs的生成視頻，我們發(fā)現(xiàn)后者要遜色前者不少，這可能是由于二者的工作原理存在的本質(zhì)的差別。Demo是基于公司在5月底發(fā)布的文字到音頻模型打造的，工作原理如下：

　　- 以1秒鐘的間隔從視頻中提取4幀圖像(全部在客戶端提取)

　　- 將幀和提示發(fā)送到 GPT-4o，以創(chuàng)建自定義的文本音效提示

　　- 使用 ElevenLabs 文本轉(zhuǎn)聲音特效API創(chuàng)建提示音效

　　- 在客戶端使用 ffmpeg.wasm 將視頻和音頻合并為一個(gè)文件供下載

　　- 托管于vercel

　　ElevenLabs并不能直接實(shí)現(xiàn)畫面到音頻的轉(zhuǎn)換，而是利用了GPT-4o將視頻截圖轉(zhuǎn)換為文字提示詞，之后再輸入文字轉(zhuǎn)在幾秒內(nèi)生成多條與畫面內(nèi)容匹配的音頻。而DeepMind在博客中稱V2A能依靠自己的視覺能力理解視頻中的像素，這意味著ElevenLabs理解視頻的能力可能會(huì)弱于V2A。

　　另外，在API使用過程中，Elevenlabs按每次生成100個(gè)字符收費(fèi)，在設(shè)置持續(xù)時(shí)間時(shí)按每秒生成25個(gè)字符收費(fèi)。(開源地址：https://github.com/elevenlabs/elevenlabs-examples/tree/main/examples/sound-effects/video-to-sfx)

　　/ 03 / 結(jié)語：視頻生成帶飛音頻生成，深度偽造技術(shù)帶來自檢挑戰(zhàn)

　　一方面，OpenAI不斷推出高品質(zhì)AI視頻生成模型Sora的新演示，另一方面目前這項(xiàng)技術(shù)對(duì)公眾仍然不可見，包括谷歌V2A。然而為了解決視頻配音這個(gè)問題，競(jìng)爭(zhēng)對(duì)手Pika研究名叫“Lip Sync”的對(duì)口型功能。

　　AI視頻賽道在“百團(tuán)大戰(zhàn)”的同時(shí)，AI音頻生成企業(yè)也正在扶搖直上。

　　ElevenLabs今年2月獲得了8000萬美元的B輪融資，估值超過10億美元，躋身獨(dú)角獸行列，估值在半年多的時(shí)間暴增10倍，包括像網(wǎng)易等游戲開發(fā)商、《華盛頓郵報(bào)》等傳統(tǒng)媒體，都已經(jīng)在大量使用ElevenLabs的文生語音技術(shù)。

　　聲音是影視作品給人以身臨其境之感的元素，未來，AI音頻生成可能會(huì)細(xì)化到人聲模擬、對(duì)口型、方言等各個(gè)部分，無限逼近真實(shí)世界。

　　與此同時(shí)，企業(yè)需要研究更多類似生物指紋嵌入應(yīng)用的技術(shù)，來防范Deepfake(深度偽造)技術(shù)被用作不法用途。ElevenLabs曾表示將會(huì)推出新的措施，克隆聲音僅供付費(fèi)用戶使用，禁止多次違反平臺(tái)協(xié)議的用戶使用這種功能，將會(huì)推出一種新的AI檢測(cè)工具。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信