三星沒放棄曲面屏開發(fā)!最新專利曝光暗示有望回歸三大運(yùn)營(yíng)商11月成績(jī)單:用戶數(shù)據(jù)增幅放緩打造下一個(gè)英偉達(dá),孫正義的2026芯片計(jì)劃曝光瞭望2025全球6G技術(shù)發(fā)展趨勢(shì)AI時(shí)代云安全新范式,暢捷通智能守護(hù)小微企業(yè)安全上云百川智能發(fā)布全鏈路領(lǐng)域增強(qiáng)金融大模型 Baichuan4-Finance年末家電消費(fèi)觀察:品質(zhì)生活類產(chǎn)品熱賣,將持續(xù)迎來剛需式普及?GPT-5研發(fā)受阻:OpenAI 新一代模型難見突破性進(jìn)展新一代語言模型ModernBERT發(fā)布,RAG等任務(wù)處理速度快四倍、成本低新研究顯示:Anthropic 的 Claude AI 在合作能力上領(lǐng)先于 OpenAI 和谷歌模型谷歌向投資者保證人工智能本月將迎來“驚人”表現(xiàn)多模態(tài)大模型引爆應(yīng)用場(chǎng)景 階躍星辰完成數(shù)億美元融資星動(dòng)紀(jì)元發(fā)布端到端原生機(jī)器人大模型ERA-42 實(shí)現(xiàn)機(jī)器人復(fù)雜場(chǎng)景操作免費(fèi)模式強(qiáng)攻下,快手、抖音用“短劇VIP”反擊?低碳存儲(chǔ)助力算力產(chǎn)業(yè) 富士膠片首次亮相IDC大會(huì)行業(yè)唯一!海爾熱聲熱泵技術(shù)獲全國(guó)顛覆性技術(shù)創(chuàng)新大賽最高獎(jiǎng)OPPO A5 Pro首創(chuàng)獵手天線架構(gòu):信號(hào)能穿十堵墻一加 Ace 5 Pro首發(fā)電競(jìng)Wi-Fi芯片G1 帶來「穿墻王」和「搶網(wǎng)王」般的網(wǎng)絡(luò)體驗(yàn)電視市場(chǎng)又出黑馬!TCL同檔Mini LED音畫王P12K,萬象分區(qū)打造超強(qiáng)控光!零下25℃如何取暖?海爾水暖通溫暖驛站亮相冰雪大世界
  • 首頁 > 云計(jì)算頻道 > 大模型

    AI音頻“扛把子”剛上谷歌V2A!第一個(gè)視頻+音頻全自動(dòng)AI工具,完全開源免費(fèi)

    2024年06月20日 18:58:47   來源:烏鴉智能說

      這幾天的視頻生成AI一經(jīng)推出就好評(píng)不斷。無論是Runaway新模型Gen-3 Alpha,還是Luma AI推出的Dream Machine,都有著逼真的畫面、多樣的電影敘事手法,藝術(shù)氣息拉滿。

      目前最頂尖的工具如Sora生成的視頻都是沒有聲音的,而聲音是讓AI視頻變得更為真實(shí)的重要一步。如果AI能完成從腳本/圖片-視頻-配音的工作流,那才是真的完美。

      昨日凌晨,谷歌DeepMind悄悄發(fā)布了V2A(Video-to-Audio)系統(tǒng)。這個(gè)系統(tǒng)能根據(jù)畫面內(nèi)容或者手動(dòng)輸入的提示詞直接為視頻配音。

      沒過幾小時(shí),另一個(gè)AI音頻克隆“扛把子”ElevenLabs就發(fā)布了文字到音頻模型的API,并基于這一API做了一個(gè)Demo應(yīng)用。這是當(dāng)前唯一一個(gè)全自動(dòng)將視頻與音頻相結(jié)合的AI工具,且完全開源、免費(fèi)在線使用。

      花開兩朵,各表一枝。由于谷歌并不打算向公眾開放V2A系統(tǒng),那我們就先試用一下ElevenLabs的這個(gè)版本~

      / 01 / 看懂+對(duì)齊,生成全自動(dòng),但不能理解復(fù)雜畫面

      AI視頻告別無聲,ElevenLabs為“徒手”制作大片的AI工作流補(bǔ)上最后一筆,我已經(jīng)迫不及待,馬上就要為前幾天做出來的AI生產(chǎn)視頻加上配音了。

    圖片

      ▲ElevenLabs生成配音視頻step1→step2

      我將luma生成的著火meme視頻、OpenAI成員暴走視頻、電影《閃靈》視頻等,以及Gen-3的示例視頻都投喂給了ElevenLabs,看看它會(huì)為這些畫面配上什么聲音。

      效果還不錯(cuò)呀!其中,“某個(gè)歌手在獨(dú)唱”、“一個(gè)女人奔向正在發(fā)射的火箭”、“白頭發(fā)女人大笑”等等配音跟場(chǎng)景很契合,“水下呼吸的女人”、“一個(gè)男人身后燃起大火”的視頻配音逼真細(xì)膩,非常有大片感。

      經(jīng)過約20個(gè)視頻的試煉,ElevenLabs能自動(dòng)生成與視頻內(nèi)容同步的音軌,而且生成配音基本已覆蓋影視配音的全部類型:

      - 環(huán)境聲,例如水下呼吸聲、燃燒聲、滾輪聲、爆竹聲、樂器演奏、白噪音、嘈雜人聲等;

      - 人聲,哭聲/笑聲、對(duì)白/獨(dú)白和歌聲等,但不能生成旁白;

      - 音樂,比如馬戲團(tuán)插畫的歡樂音樂、閃靈雙胞胎鏡頭的恐怖音樂等;

      - 音效,例如槍聲、喜劇效果的搓碟聲、“OpneAI成員打架”時(shí)的機(jī)械崩壞聲等。

      對(duì)比其他AI配音工具,ElevenLabs是第一個(gè)做到全自動(dòng)為視頻結(jié)合生成式配音的工具,無需人工輸入提示詞也可以為視頻配音,且使用AI創(chuàng)建4個(gè)音軌供選擇,無需人工對(duì)齊音頻與視頻。

      ElevenLabs能理解視頻的畫面,讀懂里面的元素,知道畫面里正在發(fā)生什么,應(yīng)該出現(xiàn)什么聲音,自動(dòng)匹配上環(huán)境音、人聲、音樂和音效,在口型同步上表現(xiàn)也不錯(cuò)。

      再?gòu)穆曇舯旧韥碚f,烏鴉君發(fā)現(xiàn)ElevenLabs在聲音保真度方面表現(xiàn)不錯(cuò),水下呼吸聲、燃燒聲、滾輪聲、爆竹聲,甚至白噪音、嘈雜人聲等聲音都非常逼真,且音源豐富、音質(zhì)尚可。

      令人最想吐槽的一點(diǎn)是,ElevenLabs的音軌選擇較少(只有4條),我用同一個(gè)視頻多次投喂給ElevenLabs,始終只能得到相同的4個(gè)音軌。

      音軌選擇少意味著使用者的控制范圍小、創(chuàng)作靈活度低,這使得ElevenLabs在一致性和運(yùn)動(dòng)性方面不穩(wěn)定的缺陷被暴露無疑。理解簡(jiǎn)單的畫面對(duì)ElevenLabs來說不是難題,但一旦畫面元素有了動(dòng)態(tài),配音時(shí)常出現(xiàn)節(jié)奏韻律不對(duì)、不能貼合畫面內(nèi)容的情況,例如腳步聲不能符合人物走動(dòng)的節(jié)奏等。

      不過,這還只是ElevenLabs做視頻配音的一個(gè)Demo程序,期待它后續(xù)增加可選擇的音軌條數(shù),提高理解復(fù)雜畫面的能力。

      / 02 / 完全開源,理解畫面能力弱于V2A

      不到一天,ElevenLabs研究人員說這是他們的視頻到聲音應(yīng)用的開發(fā)用時(shí)。這個(gè)敢直接硬剛谷歌的AI語音公司由前Google機(jī)器學(xué)習(xí)工程師Piotr Dabkowski和前Palantir策略分析師Staniszewski于2022年1月共同創(chuàng)立,自2022年以來一直從事生成AI語音。

      對(duì)比谷歌V2A示例視頻和ElevenLabs的生成視頻,我們發(fā)現(xiàn)后者要遜色前者不少,這可能是由于二者的工作原理存在的本質(zhì)的差別。Demo是基于公司在5月底發(fā)布的文字到音頻模型打造的,工作原理如下:

      - 以1秒鐘的間隔從視頻中提取4幀圖像(全部在客戶端提取)

      - 將幀和提示發(fā)送到 GPT-4o,以創(chuàng)建自定義的文本音效提示

      - 使用 ElevenLabs 文本轉(zhuǎn)聲音特效API創(chuàng)建提示音效

      - 在客戶端使用 ffmpeg.wasm 將視頻和音頻合并為一個(gè)文件供下載

      - 托管于vercel

      ElevenLabs并不能直接實(shí)現(xiàn)畫面到音頻的轉(zhuǎn)換,而是利用了GPT-4o將視頻截圖轉(zhuǎn)換為文字提示詞,之后再輸入文字轉(zhuǎn)在幾秒內(nèi)生成多條與畫面內(nèi)容匹配的音頻。而DeepMind在博客中稱V2A能依靠自己的視覺能力理解視頻中的像素,這意味著ElevenLabs理解視頻的能力可能會(huì)弱于V2A。

      另外,在API使用過程中,Elevenlabs按每次生成100個(gè)字符收費(fèi),在設(shè)置持續(xù)時(shí)間時(shí)按每秒生成25個(gè)字符收費(fèi)。(開源地址:https://github.com/elevenlabs/elevenlabs-examples/tree/main/examples/sound-effects/video-to-sfx)

      / 03 / 結(jié)語:視頻生成帶飛音頻生成,深度偽造技術(shù)帶來自檢挑戰(zhàn)

      一方面,OpenAI不斷推出高品質(zhì)AI視頻生成模型Sora的新演示,另一方面目前這項(xiàng)技術(shù)對(duì)公眾仍然不可見,包括谷歌V2A。然而為了解決視頻配音這個(gè)問題,競(jìng)爭(zhēng)對(duì)手Pika研究名叫“Lip Sync”的對(duì)口型功能。

      AI視頻賽道在“百團(tuán)大戰(zhàn)”的同時(shí),AI音頻生成企業(yè)也正在扶搖直上。

      ElevenLabs今年2月獲得了8000萬美元的B輪融資,估值超過10億美元,躋身獨(dú)角獸行列,估值在半年多的時(shí)間暴增10倍,包括像網(wǎng)易等游戲開發(fā)商、《華盛頓郵報(bào)》等傳統(tǒng)媒體,都已經(jīng)在大量使用ElevenLabs的文生語音技術(shù)。

      聲音是影視作品給人以身臨其境之感的元素,未來,AI音頻生成可能會(huì)細(xì)化到人聲模擬、對(duì)口型、方言等各個(gè)部分,無限逼近真實(shí)世界。

      與此同時(shí),企業(yè)需要研究更多類似生物指紋嵌入應(yīng)用的技術(shù),來防范Deepfake(深度偽造)技術(shù)被用作不法用途。ElevenLabs曾表示將會(huì)推出新的措施,克隆聲音僅供付費(fèi)用戶使用,禁止多次違反平臺(tái)協(xié)議的用戶使用這種功能,將會(huì)推出一種新的AI檢測(cè)工具。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    新聞

    明火炊具市場(chǎng):三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實(shí)力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。

    研究

    中國(guó)信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專題論壇在沈陽成功舉辦。