語音生成的「智能涌現(xiàn)」：10萬小時數(shù)據(jù)訓(xùn)練，亞馬遜祭出10億參數(shù)BASE TTS

2024年02月15日 16:35:29 來源：機(jī)器之心Pro

　　伴隨著生成式深度學(xué)習(xí)模型的飛速發(fā)展，自然語言處理(NLP)和計算機(jī)視覺(CV)已經(jīng)經(jīng)歷了根本性的轉(zhuǎn)變，從有監(jiān)督訓(xùn)練的專門模型，轉(zhuǎn)變?yōu)橹恍栌邢薜拿鞔_指令就能完成各種任務(wù)的通用模型。

　　在語音處理和文本到語音(TTS)領(lǐng)域，這樣的轉(zhuǎn)變也正在發(fā)生，模型能夠利用數(shù)千小時的數(shù)據(jù)，使合成結(jié)果越來越接近類人語音。

　　在最近的一項(xiàng)研究中，亞馬遜正式推出了 BASE TTS，將 TTS 模型的參數(shù)規(guī)模提升到了前所未有的 10 億級別。

　　論文標(biāo)題：BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data

　　論文鏈接：https://arxiv.org/pdf/2402.08093.pdf

　　BASE TTS 是一個多語言、多說話人的大型 TTS(LTTS)系統(tǒng)，在約 10 萬小時的公共領(lǐng)域語音數(shù)據(jù)上進(jìn)行了訓(xùn)練，比此前的訓(xùn)練數(shù)據(jù)量最高者 VALL-E 翻了一番。受 LLM 成功經(jīng)驗(yàn)的啟發(fā)，BASE TTS 將 TTS 視為下一個 token 預(yù)測的問題。這種方法通常與大量訓(xùn)練數(shù)據(jù)結(jié)合使用，以實(shí)現(xiàn)強(qiáng)大的多語言和多說話人能力。

　　本文的主要貢獻(xiàn)概述如下：

　　1、提出了 BASE TTS，這是迄今為止最大的 TTS 模型，具有 10 億參數(shù)，并在由 10 萬小時公共領(lǐng)域語音數(shù)據(jù)組成的數(shù)據(jù)集上進(jìn)行了訓(xùn)練。在主觀評估中，BASE TTS 的表現(xiàn)優(yōu)于公開的 LTTS 基線模型。

　　2、展示了如何將 BASE TTS 擴(kuò)展到更大的數(shù)據(jù)集和模型規(guī)模，以提高其為復(fù)雜文本呈現(xiàn)適當(dāng)韻律的能力。為此，研究者開發(fā)并提供了一個「涌現(xiàn)能力」測試集，可作為大規(guī)模 TTS 模型文本理解和渲染的主觀評估基準(zhǔn)。本文報告了 BASE TTS 的不同變體在該基準(zhǔn)上的表現(xiàn)，結(jié)果顯示，隨著數(shù)據(jù)集規(guī)模和參數(shù)量的增加，質(zhì)量也在單調(diào)提升。

　　3、提出了建立在 WavLM SSL 模型之上的新型離散語音表示法，旨在只捕捉語音信號的音位和韻律信息。這些表示法優(yōu)于基準(zhǔn)量化方法，盡管壓縮水平很高(僅 400 比特 / 秒)，但仍能通過簡單、快速和流式解碼器將其解碼為高質(zhì)量的波形。

　　接下來，讓我們看看論文細(xì)節(jié)。

　　BASE TTS 模型

　　與近期的語音建模工作類似，研究者采用了基于 LLM 的方法來處理 TTS 任務(wù)。文本被輸入到基于 Transformer 的自回歸模型，該模型可預(yù)測離散音頻表示(稱為語音編碼)，再通過由線性層和卷積層組成的單獨(dú)訓(xùn)練的解碼器將它們解碼為波形。

　　BASE TTS 設(shè)計的目的是模擬文本 token 的聯(lián)合分布，然后是離散的語音表示，研究者稱之為語音編碼。通過音頻編解碼器對語音進(jìn)行離散化是設(shè)計的核心，因?yàn)檫@樣就能直接應(yīng)用為 LLM 開發(fā)的方法，而 LLM 正是 LTTS 最新研究成果的基礎(chǔ)。具體來說，研究者使用具有交叉熵訓(xùn)練目標(biāo)的解碼自回歸 Transformer 對語音編碼進(jìn)行建模。盡管簡單，但這一目標(biāo)可以捕捉到表達(dá)性語音的復(fù)雜概率分布，從而緩解早期神經(jīng) TTS 系統(tǒng)中出現(xiàn)的過度平滑問題。作為一種隱式語言模型，一旦在足夠多的數(shù)據(jù)上訓(xùn)練出足夠大的變體，BASE TTS 在韻律渲染方面也會有質(zhì)的飛躍。

　　離散語言表示

　　離散表示法是 LLM 取得成功的基礎(chǔ)，但在語音中識別緊湊且信息豐富的表示不如在文本中那么明顯，此前的探索也較少。對于 BASE TTS，研究者首先嘗試使用 VQ-VAE 基線(第 2.2.1 節(jié))，該基線基于自動編碼器架構(gòu)，通過離散瓶頸重構(gòu) mel 頻譜圖。VQ-VAE 已成為語音和圖像表征的成功范例，尤其是作為 TTS 的建模單元。

　　研究者還介紹了一種通過基于 WavLM 的語音編碼學(xué)習(xí)語音表示的新方法(第 2.2.2 節(jié))。在這種方法中，研究者將從 WavLM SSL 模型中提取的特征離散化，以重建 mel 頻譜圖。研究者應(yīng)用了額外的損失函數(shù)來促進(jìn)說話人的分離，并使用字節(jié)對編碼(BPE，Byte-Pair Encoding)壓縮生成的語音代碼，以減少序列長度，從而使得能夠使用 Transformer 對較長的音頻進(jìn)行建模。

　　與流行的音頻編解碼器相比，這兩種表示法都經(jīng)過了壓縮(分別為 325 bits/s 和 400 bits/s)，以實(shí)現(xiàn)更高效的自回歸建模�；谶@種壓縮水平，接下來的目標(biāo)是去除語音編碼中可在解碼過程中重建的信息(說話人、音頻噪聲等)，以確保語音編碼的容量主要用于編碼語音和韻律信息。

　　自回歸語音建模(SpeechGPT)

　　研究者訓(xùn)練了一個 GPT-2 架構(gòu)的自回歸模型「SpeechGPT」，用于預(yù)測以文本和參考語音為條件的語音編碼。參考語音條件包括從同一說話人隨機(jī)選擇的語句，該語句被編碼為固定大小的嵌入。參考語音嵌入、文本和語音編碼被串聯(lián)成一個序列，該序列由一個基于 Transformer 的自回歸模型建模。研究者對文本和語音使用單獨(dú)的位置嵌入和單獨(dú)的預(yù)測頭。他們從頭開始訓(xùn)練了自回歸模型，而不對文本進(jìn)行預(yù)訓(xùn)練。為了保留文本信息以指導(dǎo)擬聲，還對 SpeechGPT 進(jìn)行了訓(xùn)練，目的是預(yù)測輸入序列文本部分的下一個 token，因此 SpeechGPT 部分是純文本 LM。與語音損失相比，此處對文本損失采用了較低的權(quán)重。

　　波形生成

　　此外，研究者指定了一個單獨(dú)的語音編碼到波形解碼器(稱為「語音編碼解碼器」)，負(fù)責(zé)重建說話人身份和錄音條件。為了使模型更具可擴(kuò)展性，他們用卷積層代替了 LSTM 層，對中間表示進(jìn)行解碼。研究表明，這種基于卷積的語音編碼解碼器計算效率高，與基于擴(kuò)散的基線解碼器相比，整個系統(tǒng)的合成時間減少了 70% 以上。

　　研究者同時指出，實(shí)際上語音編碼解碼器的輸入并不是語音編碼，而是自回歸 Transformer 的最后一個隱藏狀態(tài)。之所以這樣做，是因?yàn)榇饲?TortoiseTTS 方法中密集的潛在表征提供了比單一語音代碼更豐富的信息。在訓(xùn)練過程中，研究者將文本和目標(biāo)代碼輸入訓(xùn)練好的 SpeechGPT(參數(shù)凍結(jié))，然后根據(jù)最后的隱藏狀態(tài)對解碼器進(jìn)行調(diào)節(jié)。輸入 SpeechGPT 的最后隱藏狀態(tài)有助于提高語音的分段和聲學(xué)質(zhì)量，但也會將解碼器與特定版本的 SpeechGPT 聯(lián)系起來。這使實(shí)驗(yàn)變得復(fù)雜，因?yàn)樗仁箖蓚€組件總是按順序構(gòu)建。這一限制需要在今后的工作中加以解決。

　　實(shí)驗(yàn)評估

　　研究者探索了縮放如何影響模型針對具有挑戰(zhàn)性的文本輸入產(chǎn)生適當(dāng)?shù)捻嵚珊捅磉_(dá)的能力，這與 LLM 通過數(shù)據(jù)和參數(shù)縮放「涌現(xiàn)」新能力的方式類似。為了驗(yàn)證這一假設(shè)是否同樣適用于 LTTS，研究者提出了一個評估方案來評估 TTS 中潛在的涌現(xiàn)能力，確定了七個具有挑戰(zhàn)性的類別：復(fù)合名詞、情感、外來詞、副語言、標(biāo)點(diǎn)符號、問題和句法復(fù)雜性。

　　多項(xiàng)實(shí)驗(yàn)驗(yàn)證了 BASE TTS 的結(jié)構(gòu)及其質(zhì)量、功能和計算性能：

　　首先，研究者比較了基于自動編碼器和基于 WavLM 的語音編碼所達(dá)到的模型質(zhì)量。

　　然后，研究者評估了對語音編碼進(jìn)行聲學(xué)解碼的兩種方法：基于擴(kuò)散的解碼器和語音編碼解碼器。

　　在完成這些結(jié)構(gòu)消融后，研究者評估了 BASE TTS 在數(shù)據(jù)集大小和模型參數(shù)的 3 種變體中的涌現(xiàn)能力，并由語言專家進(jìn)行了評估。

　　此外，研究者還進(jìn)行了主觀的 MUSHRA 測試以衡量自然度，以及自動可懂度和說話人相似度測量，還報告了與其他開源文本到語音模型的語音質(zhì)量比較。

　　VQ-VAE 語音編碼 vs. WavLM 語音編碼

　　為了全面測試兩種語音 token 化方法的質(zhì)量和通用性，研究者對 6 位美式英語和 4 位西班牙語說話人進(jìn)行了 MUSHRA 評估。就英語的平均 MUSHRA 分?jǐn)?shù)而言，基于 VQ-VAE 和 WavLM 的系統(tǒng)不相上下(VQ-VAE：74.8 vs WavLM：74.7)。然而，對于西班牙語，基于 WavLM 的模型在統(tǒng)計學(xué)上顯著優(yōu)于 VQ-VAE 模型(VQ-VAE：73.3 vs WavLM：74.7)。請注意，英語數(shù)據(jù)約占數(shù)據(jù)集的 90%，而西班牙語數(shù)據(jù)僅占 2%。

　　表 3 顯示了按說話人分類的結(jié)果：

　　由于基于 WavLM 的系統(tǒng)表現(xiàn)至少與 VQ-VAE 基線相當(dāng)或更好，因此研究者在進(jìn)一步的實(shí)驗(yàn)中使用它來表示 BASE TTS。

　　基于擴(kuò)散的解碼器 vs. 語音代碼解碼器

　　如上文所述，BASE TTS 通過提出端到端語音編碼解碼器，簡化了基于擴(kuò)散的基線解碼器。該方法具有流暢性，推理速度提高了 3 倍。為了確保這種方法不會降低質(zhì)量，研究者對所提出的語音編碼解碼器與基線進(jìn)行了評估。表 4 列出了對 4 位說英語的美國人和 2 位說西班牙語的人進(jìn)行的 MUSHRA 評估結(jié)果：

　　結(jié)果顯示，語音編碼解碼器是首選方法，因?yàn)樗粫档唾|(zhì)量，而且對大多數(shù)語音而言，它能提高質(zhì)量，同時提供更快的推理。研究者同時表示，結(jié)合兩個強(qiáng)大的生成模型進(jìn)行語音建模是多余的，可以通過放棄擴(kuò)散解碼器來簡化。

　　涌現(xiàn)能力：數(shù)據(jù)和模型規(guī)模的消融

　　表 1 按 BASE-small、BASE-medium 和 BASE-large 系統(tǒng)報告了所有參數(shù)：

　　三個系統(tǒng)的語言專家判斷結(jié)果以及每個類別的平均得分如圖 4 所示：

　　在表 5 的 MUSHRA 結(jié)果中，可以注意到語音自然度從 BASE-small 到 BASE-medium 有明顯改善，但從 BASE-medium 到 BASE-large 的改善幅度較�。�

　　BASE TTS vs. 行業(yè) baseline

　　總體來說，BASE TTS 生成的語音最自然，與輸入文本的錯位最少，與參考說話人的語音最相似，相關(guān)結(jié)果如表 6 和表 7 所示：

　　語音編碼解碼器帶來的合成效率提升

　　語音編碼解碼器能夠進(jìn)行流式處理，即以增量方式生成語音。將這一功能與自回歸 SpeechGPT 相結(jié)合，該系統(tǒng)的首字節(jié)延遲可低至 100 毫秒 —— 只需幾個解碼語音代碼就足以產(chǎn)生可懂的語音。

　　這種最低延遲與基于擴(kuò)散的解碼器形成了鮮明對比，后者需要一次性生成整個語音序列(一個或多個句子)，而首字節(jié)延遲等于總生成時間。

　　此外，研究者還觀察到，與擴(kuò)散基線相比，語音編碼解碼器使整個系統(tǒng)的計算效率提高了 3 倍。他們運(yùn)行了一個基準(zhǔn)測試，在 NVIDIA® V100 GPU 上生成 1000 個持續(xù)時間約為 20 秒的語句，批大小為 1。平均而言，使用擴(kuò)散解碼器的十億參數(shù) SpeechGPT 需要 69.1 秒才能完成合成，而使用語音編碼解碼器的相同 SpeechGPT 只需要 17.8 秒。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險自擔(dān)。

[No. ]
分享到微信