還能再漲23%!AI寵兒NVIDIA成大摩明年首選AMD FSR 4.0將與RX 9070 XT顯卡同步登場羅永浩細(xì)紅線最新進(jìn)展,暫別AR,迎來AI Jarvis構(gòu)建堅實(shí)數(shù)據(jù)地基,南京打造可信數(shù)據(jù)空間引領(lǐng)數(shù)字城市建設(shè)下單前先比價不花冤枉錢 同款圖書京東價低于抖音6折日媒感慨中國電動汽車/智駕遙遙領(lǐng)先:本田、日產(chǎn)、三菱合并也沒戲消委會吹風(fēng)機(jī)品質(zhì)檢測結(jié)果揭曉 徠芬獨(dú)占鰲頭 共話新質(zhì)營銷力,2024梅花數(shù)據(jù)峰會圓滿落幕索尼影像專業(yè)服務(wù) PRO Support 升級,成為會員至少需注冊 2 臺 α 全畫幅相機(jī)、3 支 G 大師鏡頭消息稱vivo加碼電池軍備競賽:6500mAh 旗艦機(jī)+7500mAh中端機(jī)寶馬M8雙門轎跑車明年年初將停產(chǎn),后續(xù)無2026款車型比亞迪:2025 款漢家族車型城市領(lǐng)航智駕功能開啟內(nèi)測雷神預(yù)告2025年首次出席CES 將發(fā)布三款不同技術(shù)原理智能眼鏡realme真我全球首發(fā)聯(lián)發(fā)科天璣 8400 耐玩戰(zhàn)神共創(chuàng)計劃iQOO Z9 Turbo長續(xù)航版手機(jī)被曝電池加大到6400mAh,搭驍龍 8s Gen 3處理器普及放緩 銷量大跌:曝保時捷將重新評估電動汽車計劃來京東參與榮耀Magic7 RSR 保時捷設(shè)計預(yù)售 享365天只換不修國補(bǔ)期間電視迎來換機(jī)潮,最暢銷MiniLED品牌花落誰家?美團(tuán)旗下微信社群團(tuán)購業(yè)務(wù)“團(tuán)買買”宣布年底停運(yùn)消息稱微軟正與第三方廠商洽談,試圖合作推出Xbox游戲掌機(jī)設(shè)備
  • 首頁 > 云計算頻道 > 大模型

    語音生成的「智能涌現(xiàn)」:10萬小時數(shù)據(jù)訓(xùn)練,亞馬遜祭出10億參數(shù)BASE TTS

    2024年02月15日 16:35:29   來源:機(jī)器之心Pro

      伴隨著生成式深度學(xué)習(xí)模型的飛速發(fā)展,自然語言處理(NLP)和計算機(jī)視覺(CV)已經(jīng)經(jīng)歷了根本性的轉(zhuǎn)變,從有監(jiān)督訓(xùn)練的專門模型,轉(zhuǎn)變?yōu)橹恍栌邢薜拿鞔_指令就能完成各種任務(wù)的通用模型。

      在語音處理和文本到語音(TTS)領(lǐng)域,這樣的轉(zhuǎn)變也正在發(fā)生,模型能夠利用數(shù)千小時的數(shù)據(jù),使合成結(jié)果越來越接近類人語音。

      在最近的一項(xiàng)研究中,亞馬遜正式推出了 BASE TTS,將 TTS 模型的參數(shù)規(guī)模提升到了前所未有的 10 億級別。

      論文標(biāo)題:BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data

      論文鏈接:https://arxiv.org/pdf/2402.08093.pdf

      BASE TTS 是一個多語言、多說話人的大型 TTS(LTTS)系統(tǒng),在約 10 萬小時的公共領(lǐng)域語音數(shù)據(jù)上進(jìn)行了訓(xùn)練,比此前的訓(xùn)練數(shù)據(jù)量最高者 VALL-E 翻了一番。受 LLM 成功經(jīng)驗(yàn)的啟發(fā),BASE TTS 將 TTS 視為下一個 token 預(yù)測的問題。這種方法通常與大量訓(xùn)練數(shù)據(jù)結(jié)合使用,以實(shí)現(xiàn)強(qiáng)大的多語言和多說話人能力。

      本文的主要貢獻(xiàn)概述如下:

      1、提出了 BASE TTS,這是迄今為止最大的 TTS 模型,具有 10 億參數(shù),并在由 10 萬小時公共領(lǐng)域語音數(shù)據(jù)組成的數(shù)據(jù)集上進(jìn)行了訓(xùn)練。在主觀評估中,BASE TTS 的表現(xiàn)優(yōu)于公開的 LTTS 基線模型。

      2、展示了如何將 BASE TTS 擴(kuò)展到更大的數(shù)據(jù)集和模型規(guī)模,以提高其為復(fù)雜文本呈現(xiàn)適當(dāng)韻律的能力。為此,研究者開發(fā)并提供了一個「涌現(xiàn)能力」測試集,可作為大規(guī)模 TTS 模型文本理解和渲染的主觀評估基準(zhǔn)。本文報告了 BASE TTS 的不同變體在該基準(zhǔn)上的表現(xiàn),結(jié)果顯示,隨著數(shù)據(jù)集規(guī)模和參數(shù)量的增加,質(zhì)量也在單調(diào)提升。

      3、提出了建立在 WavLM SSL 模型之上的新型離散語音表示法,旨在只捕捉語音信號的音位和韻律信息。這些表示法優(yōu)于基準(zhǔn)量化方法,盡管壓縮水平很高(僅 400 比特 / 秒),但仍能通過簡單、快速和流式解碼器將其解碼為高質(zhì)量的波形。

      接下來,讓我們看看論文細(xì)節(jié)。

      BASE TTS 模型

      與近期的語音建模工作類似,研究者采用了基于 LLM 的方法來處理 TTS 任務(wù)。文本被輸入到基于 Transformer 的自回歸模型,該模型可預(yù)測離散音頻表示(稱為語音編碼),再通過由線性層和卷積層組成的單獨(dú)訓(xùn)練的解碼器將它們解碼為波形。

      BASE TTS 設(shè)計的目的是模擬文本 token 的聯(lián)合分布,然后是離散的語音表示,研究者稱之為語音編碼。通過音頻編解碼器對語音進(jìn)行離散化是設(shè)計的核心,因?yàn)檫@樣就能直接應(yīng)用為 LLM 開發(fā)的方法,而 LLM 正是 LTTS 最新研究成果的基礎(chǔ)。具體來說,研究者使用具有交叉熵訓(xùn)練目標(biāo)的解碼自回歸 Transformer 對語音編碼進(jìn)行建模。盡管簡單,但這一目標(biāo)可以捕捉到表達(dá)性語音的復(fù)雜概率分布,從而緩解早期神經(jīng) TTS 系統(tǒng)中出現(xiàn)的過度平滑問題。作為一種隱式語言模型,一旦在足夠多的數(shù)據(jù)上訓(xùn)練出足夠大的變體,BASE TTS 在韻律渲染方面也會有質(zhì)的飛躍。

      離散語言表示

      離散表示法是 LLM 取得成功的基礎(chǔ),但在語音中識別緊湊且信息豐富的表示不如在文本中那么明顯,此前的探索也較少。對于 BASE TTS,研究者首先嘗試使用 VQ-VAE 基線(第 2.2.1 節(jié)),該基線基于自動編碼器架構(gòu),通過離散瓶頸重構(gòu) mel 頻譜圖。VQ-VAE 已成為語音和圖像表征的成功范例,尤其是作為 TTS 的建模單元。

      研究者還介紹了一種通過基于 WavLM 的語音編碼學(xué)習(xí)語音表示的新方法(第 2.2.2 節(jié))。在這種方法中,研究者將從 WavLM SSL 模型中提取的特征離散化,以重建 mel 頻譜圖。研究者應(yīng)用了額外的損失函數(shù)來促進(jìn)說話人的分離,并使用字節(jié)對編碼(BPE,Byte-Pair Encoding)壓縮生成的語音代碼,以減少序列長度,從而使得能夠使用 Transformer 對較長的音頻進(jìn)行建模。

      與流行的音頻編解碼器相比,這兩種表示法都經(jīng)過了壓縮(分別為 325 bits/s 和 400 bits/s),以實(shí)現(xiàn)更高效的自回歸建模;谶@種壓縮水平,接下來的目標(biāo)是去除語音編碼中可在解碼過程中重建的信息(說話人、音頻噪聲等),以確保語音編碼的容量主要用于編碼語音和韻律信息。

      自回歸語音建模(SpeechGPT)

      研究者訓(xùn)練了一個 GPT-2 架構(gòu)的自回歸模型「SpeechGPT」,用于預(yù)測以文本和參考語音為條件的語音編碼。參考語音條件包括從同一說話人隨機(jī)選擇的語句,該語句被編碼為固定大小的嵌入。參考語音嵌入、文本和語音編碼被串聯(lián)成一個序列,該序列由一個基于 Transformer 的自回歸模型建模。研究者對文本和語音使用單獨(dú)的位置嵌入和單獨(dú)的預(yù)測頭。他們從頭開始訓(xùn)練了自回歸模型,而不對文本進(jìn)行預(yù)訓(xùn)練。為了保留文本信息以指導(dǎo)擬聲,還對 SpeechGPT 進(jìn)行了訓(xùn)練,目的是預(yù)測輸入序列文本部分的下一個 token,因此 SpeechGPT 部分是純文本 LM。與語音損失相比,此處對文本損失采用了較低的權(quán)重。

      波形生成

      此外,研究者指定了一個單獨(dú)的語音編碼到波形解碼器(稱為「語音編碼解碼器」),負(fù)責(zé)重建說話人身份和錄音條件。為了使模型更具可擴(kuò)展性,他們用卷積層代替了 LSTM 層,對中間表示進(jìn)行解碼。研究表明,這種基于卷積的語音編碼解碼器計算效率高,與基于擴(kuò)散的基線解碼器相比,整個系統(tǒng)的合成時間減少了 70% 以上。

      研究者同時指出,實(shí)際上語音編碼解碼器的輸入并不是語音編碼,而是自回歸 Transformer 的最后一個隱藏狀態(tài)。之所以這樣做,是因?yàn)榇饲?TortoiseTTS 方法中密集的潛在表征提供了比單一語音代碼更豐富的信息。在訓(xùn)練過程中,研究者將文本和目標(biāo)代碼輸入訓(xùn)練好的 SpeechGPT(參數(shù)凍結(jié)),然后根據(jù)最后的隱藏狀態(tài)對解碼器進(jìn)行調(diào)節(jié)。輸入 SpeechGPT 的最后隱藏狀態(tài)有助于提高語音的分段和聲學(xué)質(zhì)量,但也會將解碼器與特定版本的 SpeechGPT 聯(lián)系起來。這使實(shí)驗(yàn)變得復(fù)雜,因?yàn)樗仁箖蓚組件總是按順序構(gòu)建。這一限制需要在今后的工作中加以解決。

      實(shí)驗(yàn)評估

      研究者探索了縮放如何影響模型針對具有挑戰(zhàn)性的文本輸入產(chǎn)生適當(dāng)?shù)捻嵚珊捅磉_(dá)的能力,這與 LLM 通過數(shù)據(jù)和參數(shù)縮放「涌現(xiàn)」新能力的方式類似。為了驗(yàn)證這一假設(shè)是否同樣適用于 LTTS,研究者提出了一個評估方案來評估 TTS 中潛在的涌現(xiàn)能力,確定了七個具有挑戰(zhàn)性的類別:復(fù)合名詞、情感、外來詞、副語言、標(biāo)點(diǎn)符號、問題和句法復(fù)雜性。

      多項(xiàng)實(shí)驗(yàn)驗(yàn)證了 BASE TTS 的結(jié)構(gòu)及其質(zhì)量、功能和計算性能:

      首先,研究者比較了基于自動編碼器和基于 WavLM 的語音編碼所達(dá)到的模型質(zhì)量。

      然后,研究者評估了對語音編碼進(jìn)行聲學(xué)解碼的兩種方法:基于擴(kuò)散的解碼器和語音編碼解碼器。

      在完成這些結(jié)構(gòu)消融后,研究者評估了 BASE TTS 在數(shù)據(jù)集大小和模型參數(shù)的 3 種變體中的涌現(xiàn)能力,并由語言專家進(jìn)行了評估。

      此外,研究者還進(jìn)行了主觀的 MUSHRA 測試以衡量自然度,以及自動可懂度和說話人相似度測量,還報告了與其他開源文本到語音模型的語音質(zhì)量比較。

      VQ-VAE 語音編碼 vs. WavLM 語音編碼

      為了全面測試兩種語音 token 化方法的質(zhì)量和通用性,研究者對 6 位美式英語和 4 位西班牙語說話人進(jìn)行了 MUSHRA 評估。就英語的平均 MUSHRA 分?jǐn)?shù)而言,基于 VQ-VAE 和 WavLM 的系統(tǒng)不相上下(VQ-VAE:74.8 vs WavLM:74.7)。然而,對于西班牙語,基于 WavLM 的模型在統(tǒng)計學(xué)上顯著優(yōu)于 VQ-VAE 模型(VQ-VAE:73.3 vs WavLM:74.7)。請注意,英語數(shù)據(jù)約占數(shù)據(jù)集的 90%,而西班牙語數(shù)據(jù)僅占 2%。

      表 3 顯示了按說話人分類的結(jié)果:

      由于基于 WavLM 的系統(tǒng)表現(xiàn)至少與 VQ-VAE 基線相當(dāng)或更好,因此研究者在進(jìn)一步的實(shí)驗(yàn)中使用它來表示 BASE TTS。

      基于擴(kuò)散的解碼器 vs. 語音代碼解碼器

      如上文所述,BASE TTS 通過提出端到端語音編碼解碼器,簡化了基于擴(kuò)散的基線解碼器。該方法具有流暢性,推理速度提高了 3 倍。為了確保這種方法不會降低質(zhì)量,研究者對所提出的語音編碼解碼器與基線進(jìn)行了評估。表 4 列出了對 4 位說英語的美國人和 2 位說西班牙語的人進(jìn)行的 MUSHRA 評估結(jié)果:

      結(jié)果顯示,語音編碼解碼器是首選方法,因?yàn)樗粫档唾|(zhì)量,而且對大多數(shù)語音而言,它能提高質(zhì)量,同時提供更快的推理。研究者同時表示,結(jié)合兩個強(qiáng)大的生成模型進(jìn)行語音建模是多余的,可以通過放棄擴(kuò)散解碼器來簡化。

      涌現(xiàn)能力:數(shù)據(jù)和模型規(guī)模的消融

      表 1 按 BASE-small、BASE-medium 和 BASE-large 系統(tǒng)報告了所有參數(shù):

      三個系統(tǒng)的語言專家判斷結(jié)果以及每個類別的平均得分如圖 4 所示:

      在表 5 的 MUSHRA 結(jié)果中,可以注意到語音自然度從 BASE-small 到 BASE-medium 有明顯改善,但從 BASE-medium 到 BASE-large 的改善幅度較。

      BASE TTS vs. 行業(yè) baseline

      總體來說,BASE TTS 生成的語音最自然,與輸入文本的錯位最少,與參考說話人的語音最相似,相關(guān)結(jié)果如表 6 和表 7 所示:

    廣告

      語音編碼解碼器帶來的合成效率提升

      語音編碼解碼器能夠進(jìn)行流式處理,即以增量方式生成語音。將這一功能與自回歸 SpeechGPT 相結(jié)合,該系統(tǒng)的首字節(jié)延遲可低至 100 毫秒 —— 只需幾個解碼語音代碼就足以產(chǎn)生可懂的語音。

      這種最低延遲與基于擴(kuò)散的解碼器形成了鮮明對比,后者需要一次性生成整個語音序列(一個或多個句子),而首字節(jié)延遲等于總生成時間。

      此外,研究者還觀察到,與擴(kuò)散基線相比,語音編碼解碼器使整個系統(tǒng)的計算效率提高了 3 倍。他們運(yùn)行了一個基準(zhǔn)測試,在 NVIDIA® V100 GPU 上生成 1000 個持續(xù)時間約為 20 秒的語句,批大小為 1。平均而言,使用擴(kuò)散解碼器的十億參數(shù) SpeechGPT 需要 69.1 秒才能完成合成,而使用語音編碼解碼器的相同 SpeechGPT 只需要 17.8 秒。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。

    即時

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實(shí)力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。