伴隨著生成式深度學(xué)習(xí)模型的飛速發(fā)展,自然語言處理(NLP)和計算機(jī)視覺(CV)已經(jīng)經(jīng)歷了根本性的轉(zhuǎn)變,從有監(jiān)督訓(xùn)練的專門模型,轉(zhuǎn)變?yōu)橹恍栌邢薜拿鞔_指令就能完成各種任務(wù)的通用模型。
在語音處理和文本到語音(TTS)領(lǐng)域,這樣的轉(zhuǎn)變也正在發(fā)生,模型能夠利用數(shù)千小時的數(shù)據(jù),使合成結(jié)果越來越接近類人語音。
在最近的一項(xiàng)研究中,亞馬遜正式推出了 BASE TTS,將 TTS 模型的參數(shù)規(guī)模提升到了前所未有的 10 億級別。
論文標(biāo)題:BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data
論文鏈接:https://arxiv.org/pdf/2402.08093.pdf
BASE TTS 是一個多語言、多說話人的大型 TTS(LTTS)系統(tǒng),在約 10 萬小時的公共領(lǐng)域語音數(shù)據(jù)上進(jìn)行了訓(xùn)練,比此前的訓(xùn)練數(shù)據(jù)量最高者 VALL-E 翻了一番。受 LLM 成功經(jīng)驗(yàn)的啟發(fā),BASE TTS 將 TTS 視為下一個 token 預(yù)測的問題。這種方法通常與大量訓(xùn)練數(shù)據(jù)結(jié)合使用,以實(shí)現(xiàn)強(qiáng)大的多語言和多說話人能力。
本文的主要貢獻(xiàn)概述如下:
1、提出了 BASE TTS,這是迄今為止最大的 TTS 模型,具有 10 億參數(shù),并在由 10 萬小時公共領(lǐng)域語音數(shù)據(jù)組成的數(shù)據(jù)集上進(jìn)行了訓(xùn)練。在主觀評估中,BASE TTS 的表現(xiàn)優(yōu)于公開的 LTTS 基線模型。
2、展示了如何將 BASE TTS 擴(kuò)展到更大的數(shù)據(jù)集和模型規(guī)模,以提高其為復(fù)雜文本呈現(xiàn)適當(dāng)韻律的能力。為此,研究者開發(fā)并提供了一個「涌現(xiàn)能力」測試集,可作為大規(guī)模 TTS 模型文本理解和渲染的主觀評估基準(zhǔn)。本文報告了 BASE TTS 的不同變體在該基準(zhǔn)上的表現(xiàn),結(jié)果顯示,隨著數(shù)據(jù)集規(guī)模和參數(shù)量的增加,質(zhì)量也在單調(diào)提升。
3、提出了建立在 WavLM SSL 模型之上的新型離散語音表示法,旨在只捕捉語音信號的音位和韻律信息。這些表示法優(yōu)于基準(zhǔn)量化方法,盡管壓縮水平很高(僅 400 比特 / 秒),但仍能通過簡單、快速和流式解碼器將其解碼為高質(zhì)量的波形。
接下來,讓我們看看論文細(xì)節(jié)。
BASE TTS 模型
與近期的語音建模工作類似,研究者采用了基于 LLM 的方法來處理 TTS 任務(wù)。文本被輸入到基于 Transformer 的自回歸模型,該模型可預(yù)測離散音頻表示(稱為語音編碼),再通過由線性層和卷積層組成的單獨(dú)訓(xùn)練的解碼器將它們解碼為波形。
BASE TTS 設(shè)計的目的是模擬文本 token 的聯(lián)合分布,然后是離散的語音表示,研究者稱之為語音編碼。通過音頻編解碼器對語音進(jìn)行離散化是設(shè)計的核心,因?yàn)檫@樣就能直接應(yīng)用為 LLM 開發(fā)的方法,而 LLM 正是 LTTS 最新研究成果的基礎(chǔ)。具體來說,研究者使用具有交叉熵訓(xùn)練目標(biāo)的解碼自回歸 Transformer 對語音編碼進(jìn)行建模。盡管簡單,但這一目標(biāo)可以捕捉到表達(dá)性語音的復(fù)雜概率分布,從而緩解早期神經(jīng) TTS 系統(tǒng)中出現(xiàn)的過度平滑問題。作為一種隱式語言模型,一旦在足夠多的數(shù)據(jù)上訓(xùn)練出足夠大的變體,BASE TTS 在韻律渲染方面也會有質(zhì)的飛躍。
離散語言表示
離散表示法是 LLM 取得成功的基礎(chǔ),但在語音中識別緊湊且信息豐富的表示不如在文本中那么明顯,此前的探索也較少。對于 BASE TTS,研究者首先嘗試使用 VQ-VAE 基線(第 2.2.1 節(jié)),該基線基于自動編碼器架構(gòu),通過離散瓶頸重構(gòu) mel 頻譜圖。VQ-VAE 已成為語音和圖像表征的成功范例,尤其是作為 TTS 的建模單元。
研究者還介紹了一種通過基于 WavLM 的語音編碼學(xué)習(xí)語音表示的新方法(第 2.2.2 節(jié))。在這種方法中,研究者將從 WavLM SSL 模型中提取的特征離散化,以重建 mel 頻譜圖。研究者應(yīng)用了額外的損失函數(shù)來促進(jìn)說話人的分離,并使用字節(jié)對編碼(BPE,Byte-Pair Encoding)壓縮生成的語音代碼,以減少序列長度,從而使得能夠使用 Transformer 對較長的音頻進(jìn)行建模。
與流行的音頻編解碼器相比,這兩種表示法都經(jīng)過了壓縮(分別為 325 bits/s 和 400 bits/s),以實(shí)現(xiàn)更高效的自回歸建模;谶@種壓縮水平,接下來的目標(biāo)是去除語音編碼中可在解碼過程中重建的信息(說話人、音頻噪聲等),以確保語音編碼的容量主要用于編碼語音和韻律信息。
自回歸語音建模(SpeechGPT)
研究者訓(xùn)練了一個 GPT-2 架構(gòu)的自回歸模型「SpeechGPT」,用于預(yù)測以文本和參考語音為條件的語音編碼。參考語音條件包括從同一說話人隨機(jī)選擇的語句,該語句被編碼為固定大小的嵌入。參考語音嵌入、文本和語音編碼被串聯(lián)成一個序列,該序列由一個基于 Transformer 的自回歸模型建模。研究者對文本和語音使用單獨(dú)的位置嵌入和單獨(dú)的預(yù)測頭。他們從頭開始訓(xùn)練了自回歸模型,而不對文本進(jìn)行預(yù)訓(xùn)練。為了保留文本信息以指導(dǎo)擬聲,還對 SpeechGPT 進(jìn)行了訓(xùn)練,目的是預(yù)測輸入序列文本部分的下一個 token,因此 SpeechGPT 部分是純文本 LM。與語音損失相比,此處對文本損失采用了較低的權(quán)重。
波形生成
此外,研究者指定了一個單獨(dú)的語音編碼到波形解碼器(稱為「語音編碼解碼器」),負(fù)責(zé)重建說話人身份和錄音條件。為了使模型更具可擴(kuò)展性,他們用卷積層代替了 LSTM 層,對中間表示進(jìn)行解碼。研究表明,這種基于卷積的語音編碼解碼器計算效率高,與基于擴(kuò)散的基線解碼器相比,整個系統(tǒng)的合成時間減少了 70% 以上。
研究者同時指出,實(shí)際上語音編碼解碼器的輸入并不是語音編碼,而是自回歸 Transformer 的最后一個隱藏狀態(tài)。之所以這樣做,是因?yàn)榇饲?TortoiseTTS 方法中密集的潛在表征提供了比單一語音代碼更豐富的信息。在訓(xùn)練過程中,研究者將文本和目標(biāo)代碼輸入訓(xùn)練好的 SpeechGPT(參數(shù)凍結(jié)),然后根據(jù)最后的隱藏狀態(tài)對解碼器進(jìn)行調(diào)節(jié)。輸入 SpeechGPT 的最后隱藏狀態(tài)有助于提高語音的分段和聲學(xué)質(zhì)量,但也會將解碼器與特定版本的 SpeechGPT 聯(lián)系起來。這使實(shí)驗(yàn)變得復(fù)雜,因?yàn)樗仁箖蓚組件總是按順序構(gòu)建。這一限制需要在今后的工作中加以解決。
實(shí)驗(yàn)評估
研究者探索了縮放如何影響模型針對具有挑戰(zhàn)性的文本輸入產(chǎn)生適當(dāng)?shù)捻嵚珊捅磉_(dá)的能力,這與 LLM 通過數(shù)據(jù)和參數(shù)縮放「涌現(xiàn)」新能力的方式類似。為了驗(yàn)證這一假設(shè)是否同樣適用于 LTTS,研究者提出了一個評估方案來評估 TTS 中潛在的涌現(xiàn)能力,確定了七個具有挑戰(zhàn)性的類別:復(fù)合名詞、情感、外來詞、副語言、標(biāo)點(diǎn)符號、問題和句法復(fù)雜性。
多項(xiàng)實(shí)驗(yàn)驗(yàn)證了 BASE TTS 的結(jié)構(gòu)及其質(zhì)量、功能和計算性能:
首先,研究者比較了基于自動編碼器和基于 WavLM 的語音編碼所達(dá)到的模型質(zhì)量。
然后,研究者評估了對語音編碼進(jìn)行聲學(xué)解碼的兩種方法:基于擴(kuò)散的解碼器和語音編碼解碼器。
在完成這些結(jié)構(gòu)消融后,研究者評估了 BASE TTS 在數(shù)據(jù)集大小和模型參數(shù)的 3 種變體中的涌現(xiàn)能力,并由語言專家進(jìn)行了評估。
此外,研究者還進(jìn)行了主觀的 MUSHRA 測試以衡量自然度,以及自動可懂度和說話人相似度測量,還報告了與其他開源文本到語音模型的語音質(zhì)量比較。
VQ-VAE 語音編碼 vs. WavLM 語音編碼
為了全面測試兩種語音 token 化方法的質(zhì)量和通用性,研究者對 6 位美式英語和 4 位西班牙語說話人進(jìn)行了 MUSHRA 評估。就英語的平均 MUSHRA 分?jǐn)?shù)而言,基于 VQ-VAE 和 WavLM 的系統(tǒng)不相上下(VQ-VAE:74.8 vs WavLM:74.7)。然而,對于西班牙語,基于 WavLM 的模型在統(tǒng)計學(xué)上顯著優(yōu)于 VQ-VAE 模型(VQ-VAE:73.3 vs WavLM:74.7)。請注意,英語數(shù)據(jù)約占數(shù)據(jù)集的 90%,而西班牙語數(shù)據(jù)僅占 2%。
表 3 顯示了按說話人分類的結(jié)果:
由于基于 WavLM 的系統(tǒng)表現(xiàn)至少與 VQ-VAE 基線相當(dāng)或更好,因此研究者在進(jìn)一步的實(shí)驗(yàn)中使用它來表示 BASE TTS。
基于擴(kuò)散的解碼器 vs. 語音代碼解碼器
如上文所述,BASE TTS 通過提出端到端語音編碼解碼器,簡化了基于擴(kuò)散的基線解碼器。該方法具有流暢性,推理速度提高了 3 倍。為了確保這種方法不會降低質(zhì)量,研究者對所提出的語音編碼解碼器與基線進(jìn)行了評估。表 4 列出了對 4 位說英語的美國人和 2 位說西班牙語的人進(jìn)行的 MUSHRA 評估結(jié)果:
結(jié)果顯示,語音編碼解碼器是首選方法,因?yàn)樗粫档唾|(zhì)量,而且對大多數(shù)語音而言,它能提高質(zhì)量,同時提供更快的推理。研究者同時表示,結(jié)合兩個強(qiáng)大的生成模型進(jìn)行語音建模是多余的,可以通過放棄擴(kuò)散解碼器來簡化。
涌現(xiàn)能力:數(shù)據(jù)和模型規(guī)模的消融
表 1 按 BASE-small、BASE-medium 和 BASE-large 系統(tǒng)報告了所有參數(shù):
三個系統(tǒng)的語言專家判斷結(jié)果以及每個類別的平均得分如圖 4 所示:
在表 5 的 MUSHRA 結(jié)果中,可以注意到語音自然度從 BASE-small 到 BASE-medium 有明顯改善,但從 BASE-medium 到 BASE-large 的改善幅度較。
BASE TTS vs. 行業(yè) baseline
總體來說,BASE TTS 生成的語音最自然,與輸入文本的錯位最少,與參考說話人的語音最相似,相關(guān)結(jié)果如表 6 和表 7 所示:
語音編碼解碼器帶來的合成效率提升
語音編碼解碼器能夠進(jìn)行流式處理,即以增量方式生成語音。將這一功能與自回歸 SpeechGPT 相結(jié)合,該系統(tǒng)的首字節(jié)延遲可低至 100 毫秒 —— 只需幾個解碼語音代碼就足以產(chǎn)生可懂的語音。
這種最低延遲與基于擴(kuò)散的解碼器形成了鮮明對比,后者需要一次性生成整個語音序列(一個或多個句子),而首字節(jié)延遲等于總生成時間。
此外,研究者還觀察到,與擴(kuò)散基線相比,語音編碼解碼器使整個系統(tǒng)的計算效率提高了 3 倍。他們運(yùn)行了一個基準(zhǔn)測試,在 NVIDIA® V100 GPU 上生成 1000 個持續(xù)時間約為 20 秒的語句,批大小為 1。平均而言,使用擴(kuò)散解碼器的十億參數(shù) SpeechGPT 需要 69.1 秒才能完成合成,而使用語音編碼解碼器的相同 SpeechGPT 只需要 17.8 秒。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。
2024年的Adobe MAX 2024發(fā)布會上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。