中國品牌,讓東南亞感受“消費升級”小紅書本地“坐抖望團”CrowdStrike“全球滅霸響指”事件后續(xù),德國 10% 企業(yè)更換安全供應(yīng)商導(dǎo)致 1TB 數(shù)據(jù)泄露后,迪士尼宣布棄用 Slack 平臺合合信息啟信產(chǎn)業(yè)大腦攜手市北新區(qū)打造“一企一畫像”平臺,加速數(shù)字化轉(zhuǎn)型重慶:力爭今年智能網(wǎng)聯(lián)新能源汽車產(chǎn)量突破 100 萬輛,到 2027 年建成萬億級產(chǎn)業(yè)集群微信iOS最新版上線:iPhone用戶可在朋友圈發(fā)實況照片了蘋果有線耳機或?qū)⑼.a(chǎn)沖上熱搜!閑魚相關(guān)搜索量暴漲384%2024 vivo開發(fā)者大會官宣:OriginOS 5/自研藍河系統(tǒng)2降臨真·AI程序員來了,阿里云「通義靈碼」全面進化,全流程開發(fā)僅用幾分鐘東方甄選烤腸全網(wǎng)銷量及銷售額領(lǐng)先鴻蒙PC要來了 界面很漂亮!余承東:目前華為PC將是最后一批搭載Windows上半年中國AR/VR出貨23.3萬臺,同比下滑了 29.1%IDC:2024 上半年中國 AR / VR 頭顯出貨 23.3 萬臺,同比下滑 29.1%英特爾AI加速器Gaudi3下周發(fā)布,挑戰(zhàn)NVIDIA統(tǒng)治地位!大屏技術(shù)邂逅千年色彩美學(xué)!海信激光電視成為電影《只此青綠》官方合作伙伴OpenAI將最新AI模型o1擴展到企業(yè)和教育領(lǐng)域三星新專利探索AR技術(shù)新應(yīng)用:檢測屏幕指紋殘留,提高手機安全性猛瑪傳奇C1:直播圖傳技術(shù)的革新者JFrog推出首個運行時安全解決方案,實現(xiàn)從代碼到云的全面軟件完整性和可追溯性
  • 首頁 > 云計算頻道 > 大模型

    語音生成的「智能涌現(xiàn)」:10萬小時數(shù)據(jù)訓(xùn)練,亞馬遜祭出10億參數(shù)BASE TTS

    2024年02月15日 16:35:29   來源:機器之心Pro

      伴隨著生成式深度學(xué)習(xí)模型的飛速發(fā)展,自然語言處理(NLP)和計算機視覺(CV)已經(jīng)經(jīng)歷了根本性的轉(zhuǎn)變,從有監(jiān)督訓(xùn)練的專門模型,轉(zhuǎn)變?yōu)橹恍栌邢薜拿鞔_指令就能完成各種任務(wù)的通用模型。

      在語音處理和文本到語音(TTS)領(lǐng)域,這樣的轉(zhuǎn)變也正在發(fā)生,模型能夠利用數(shù)千小時的數(shù)據(jù),使合成結(jié)果越來越接近類人語音。

      在最近的一項研究中,亞馬遜正式推出了 BASE TTS,將 TTS 模型的參數(shù)規(guī)模提升到了前所未有的 10 億級別。

      論文標題:BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data

      論文鏈接:https://arxiv.org/pdf/2402.08093.pdf

      BASE TTS 是一個多語言、多說話人的大型 TTS(LTTS)系統(tǒng),在約 10 萬小時的公共領(lǐng)域語音數(shù)據(jù)上進行了訓(xùn)練,比此前的訓(xùn)練數(shù)據(jù)量最高者 VALL-E 翻了一番。受 LLM 成功經(jīng)驗的啟發(fā),BASE TTS 將 TTS 視為下一個 token 預(yù)測的問題。這種方法通常與大量訓(xùn)練數(shù)據(jù)結(jié)合使用,以實現(xiàn)強大的多語言和多說話人能力。

      本文的主要貢獻概述如下:

      1、提出了 BASE TTS,這是迄今為止最大的 TTS 模型,具有 10 億參數(shù),并在由 10 萬小時公共領(lǐng)域語音數(shù)據(jù)組成的數(shù)據(jù)集上進行了訓(xùn)練。在主觀評估中,BASE TTS 的表現(xiàn)優(yōu)于公開的 LTTS 基線模型。

      2、展示了如何將 BASE TTS 擴展到更大的數(shù)據(jù)集和模型規(guī)模,以提高其為復(fù)雜文本呈現(xiàn)適當韻律的能力。為此,研究者開發(fā)并提供了一個「涌現(xiàn)能力」測試集,可作為大規(guī)模 TTS 模型文本理解和渲染的主觀評估基準。本文報告了 BASE TTS 的不同變體在該基準上的表現(xiàn),結(jié)果顯示,隨著數(shù)據(jù)集規(guī)模和參數(shù)量的增加,質(zhì)量也在單調(diào)提升。

      3、提出了建立在 WavLM SSL 模型之上的新型離散語音表示法,旨在只捕捉語音信號的音位和韻律信息。這些表示法優(yōu)于基準量化方法,盡管壓縮水平很高(僅 400 比特 / 秒),但仍能通過簡單、快速和流式解碼器將其解碼為高質(zhì)量的波形。

      接下來,讓我們看看論文細節(jié)。

      BASE TTS 模型

      與近期的語音建模工作類似,研究者采用了基于 LLM 的方法來處理 TTS 任務(wù)。文本被輸入到基于 Transformer 的自回歸模型,該模型可預(yù)測離散音頻表示(稱為語音編碼),再通過由線性層和卷積層組成的單獨訓(xùn)練的解碼器將它們解碼為波形。

      BASE TTS 設(shè)計的目的是模擬文本 token 的聯(lián)合分布,然后是離散的語音表示,研究者稱之為語音編碼。通過音頻編解碼器對語音進行離散化是設(shè)計的核心,因為這樣就能直接應(yīng)用為 LLM 開發(fā)的方法,而 LLM 正是 LTTS 最新研究成果的基礎(chǔ)。具體來說,研究者使用具有交叉熵訓(xùn)練目標的解碼自回歸 Transformer 對語音編碼進行建模。盡管簡單,但這一目標可以捕捉到表達性語音的復(fù)雜概率分布,從而緩解早期神經(jīng) TTS 系統(tǒng)中出現(xiàn)的過度平滑問題。作為一種隱式語言模型,一旦在足夠多的數(shù)據(jù)上訓(xùn)練出足夠大的變體,BASE TTS 在韻律渲染方面也會有質(zhì)的飛躍。

      離散語言表示

      離散表示法是 LLM 取得成功的基礎(chǔ),但在語音中識別緊湊且信息豐富的表示不如在文本中那么明顯,此前的探索也較少。對于 BASE TTS,研究者首先嘗試使用 VQ-VAE 基線(第 2.2.1 節(jié)),該基線基于自動編碼器架構(gòu),通過離散瓶頸重構(gòu) mel 頻譜圖。VQ-VAE 已成為語音和圖像表征的成功范例,尤其是作為 TTS 的建模單元。

      研究者還介紹了一種通過基于 WavLM 的語音編碼學(xué)習(xí)語音表示的新方法(第 2.2.2 節(jié))。在這種方法中,研究者將從 WavLM SSL 模型中提取的特征離散化,以重建 mel 頻譜圖。研究者應(yīng)用了額外的損失函數(shù)來促進說話人的分離,并使用字節(jié)對編碼(BPE,Byte-Pair Encoding)壓縮生成的語音代碼,以減少序列長度,從而使得能夠使用 Transformer 對較長的音頻進行建模。

      與流行的音頻編解碼器相比,這兩種表示法都經(jīng)過了壓縮(分別為 325 bits/s 和 400 bits/s),以實現(xiàn)更高效的自回歸建模;谶@種壓縮水平,接下來的目標是去除語音編碼中可在解碼過程中重建的信息(說話人、音頻噪聲等),以確保語音編碼的容量主要用于編碼語音和韻律信息。

      自回歸語音建模(SpeechGPT)

      研究者訓(xùn)練了一個 GPT-2 架構(gòu)的自回歸模型「SpeechGPT」,用于預(yù)測以文本和參考語音為條件的語音編碼。參考語音條件包括從同一說話人隨機選擇的語句,該語句被編碼為固定大小的嵌入。參考語音嵌入、文本和語音編碼被串聯(lián)成一個序列,該序列由一個基于 Transformer 的自回歸模型建模。研究者對文本和語音使用單獨的位置嵌入和單獨的預(yù)測頭。他們從頭開始訓(xùn)練了自回歸模型,而不對文本進行預(yù)訓(xùn)練。為了保留文本信息以指導(dǎo)擬聲,還對 SpeechGPT 進行了訓(xùn)練,目的是預(yù)測輸入序列文本部分的下一個 token,因此 SpeechGPT 部分是純文本 LM。與語音損失相比,此處對文本損失采用了較低的權(quán)重。

      波形生成

      此外,研究者指定了一個單獨的語音編碼到波形解碼器(稱為「語音編碼解碼器」),負責(zé)重建說話人身份和錄音條件。為了使模型更具可擴展性,他們用卷積層代替了 LSTM 層,對中間表示進行解碼。研究表明,這種基于卷積的語音編碼解碼器計算效率高,與基于擴散的基線解碼器相比,整個系統(tǒng)的合成時間減少了 70% 以上。

      研究者同時指出,實際上語音編碼解碼器的輸入并不是語音編碼,而是自回歸 Transformer 的最后一個隱藏狀態(tài)。之所以這樣做,是因為此前 TortoiseTTS 方法中密集的潛在表征提供了比單一語音代碼更豐富的信息。在訓(xùn)練過程中,研究者將文本和目標代碼輸入訓(xùn)練好的 SpeechGPT(參數(shù)凍結(jié)),然后根據(jù)最后的隱藏狀態(tài)對解碼器進行調(diào)節(jié)。輸入 SpeechGPT 的最后隱藏狀態(tài)有助于提高語音的分段和聲學(xué)質(zhì)量,但也會將解碼器與特定版本的 SpeechGPT 聯(lián)系起來。這使實驗變得復(fù)雜,因為它迫使兩個組件總是按順序構(gòu)建。這一限制需要在今后的工作中加以解決。

      實驗評估

      研究者探索了縮放如何影響模型針對具有挑戰(zhàn)性的文本輸入產(chǎn)生適當?shù)捻嵚珊捅磉_的能力,這與 LLM 通過數(shù)據(jù)和參數(shù)縮放「涌現(xiàn)」新能力的方式類似。為了驗證這一假設(shè)是否同樣適用于 LTTS,研究者提出了一個評估方案來評估 TTS 中潛在的涌現(xiàn)能力,確定了七個具有挑戰(zhàn)性的類別:復(fù)合名詞、情感、外來詞、副語言、標點符號、問題和句法復(fù)雜性。

      多項實驗驗證了 BASE TTS 的結(jié)構(gòu)及其質(zhì)量、功能和計算性能:

      首先,研究者比較了基于自動編碼器和基于 WavLM 的語音編碼所達到的模型質(zhì)量。

      然后,研究者評估了對語音編碼進行聲學(xué)解碼的兩種方法:基于擴散的解碼器和語音編碼解碼器。

      在完成這些結(jié)構(gòu)消融后,研究者評估了 BASE TTS 在數(shù)據(jù)集大小和模型參數(shù)的 3 種變體中的涌現(xiàn)能力,并由語言專家進行了評估。

      此外,研究者還進行了主觀的 MUSHRA 測試以衡量自然度,以及自動可懂度和說話人相似度測量,還報告了與其他開源文本到語音模型的語音質(zhì)量比較。

      VQ-VAE 語音編碼 vs. WavLM 語音編碼

      為了全面測試兩種語音 token 化方法的質(zhì)量和通用性,研究者對 6 位美式英語和 4 位西班牙語說話人進行了 MUSHRA 評估。就英語的平均 MUSHRA 分數(shù)而言,基于 VQ-VAE 和 WavLM 的系統(tǒng)不相上下(VQ-VAE:74.8 vs WavLM:74.7)。然而,對于西班牙語,基于 WavLM 的模型在統(tǒng)計學(xué)上顯著優(yōu)于 VQ-VAE 模型(VQ-VAE:73.3 vs WavLM:74.7)。請注意,英語數(shù)據(jù)約占數(shù)據(jù)集的 90%,而西班牙語數(shù)據(jù)僅占 2%。

      表 3 顯示了按說話人分類的結(jié)果:

      由于基于 WavLM 的系統(tǒng)表現(xiàn)至少與 VQ-VAE 基線相當或更好,因此研究者在進一步的實驗中使用它來表示 BASE TTS。

      基于擴散的解碼器 vs. 語音代碼解碼器

      如上文所述,BASE TTS 通過提出端到端語音編碼解碼器,簡化了基于擴散的基線解碼器。該方法具有流暢性,推理速度提高了 3 倍。為了確保這種方法不會降低質(zhì)量,研究者對所提出的語音編碼解碼器與基線進行了評估。表 4 列出了對 4 位說英語的美國人和 2 位說西班牙語的人進行的 MUSHRA 評估結(jié)果:

      結(jié)果顯示,語音編碼解碼器是首選方法,因為它不會降低質(zhì)量,而且對大多數(shù)語音而言,它能提高質(zhì)量,同時提供更快的推理。研究者同時表示,結(jié)合兩個強大的生成模型進行語音建模是多余的,可以通過放棄擴散解碼器來簡化。

      涌現(xiàn)能力:數(shù)據(jù)和模型規(guī)模的消融

      表 1 按 BASE-small、BASE-medium 和 BASE-large 系統(tǒng)報告了所有參數(shù):

      三個系統(tǒng)的語言專家判斷結(jié)果以及每個類別的平均得分如圖 4 所示:

      在表 5 的 MUSHRA 結(jié)果中,可以注意到語音自然度從 BASE-small 到 BASE-medium 有明顯改善,但從 BASE-medium 到 BASE-large 的改善幅度較。

      BASE TTS vs. 行業(yè) baseline

      總體來說,BASE TTS 生成的語音最自然,與輸入文本的錯位最少,與參考說話人的語音最相似,相關(guān)結(jié)果如表 6 和表 7 所示:

    廣告

      語音編碼解碼器帶來的合成效率提升

      語音編碼解碼器能夠進行流式處理,即以增量方式生成語音。將這一功能與自回歸 SpeechGPT 相結(jié)合,該系統(tǒng)的首字節(jié)延遲可低至 100 毫秒 —— 只需幾個解碼語音代碼就足以產(chǎn)生可懂的語音。

      這種最低延遲與基于擴散的解碼器形成了鮮明對比,后者需要一次性生成整個語音序列(一個或多個句子),而首字節(jié)延遲等于總生成時間。

      此外,研究者還觀察到,與擴散基線相比,語音編碼解碼器使整個系統(tǒng)的計算效率提高了 3 倍。他們運行了一個基準測試,在 NVIDIA® V100 GPU 上生成 1000 個持續(xù)時間約為 20 秒的語句,批大小為 1。平均而言,使用擴散解碼器的十億參數(shù) SpeechGPT 需要 69.1 秒才能完成合成,而使用語音編碼解碼器的相同 SpeechGPT 只需要 17.8 秒。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。

    即時

    TCL實業(yè)榮獲IFA2024多項大獎,展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產(chǎn)品設(shè)計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強大影響力。

    新聞

    敢闖技術(shù)無人區(qū) TCL實業(yè)斬獲多項AWE 2024艾普蘭獎

    近日,中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項AWE 2024艾普蘭大獎。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    “純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

    2024年3月12日,由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會在上海盛大舉行。

    研究

    2024全球開發(fā)者先鋒大會即將開幕

    由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經(jīng)濟發(fā)展(集團)有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。