NaturalSpeech 3：可克隆音色和感情的語音合成系統(tǒng)

2024年03月08日 10:57:52 來源：站長之家

　　隨著大規(guī)模文本到語音(TTS)模型的發(fā)展，取得了顯著進展，但在語音質(zhì)量、相似度和韻律方面仍存在不足�？紤]到語音涉及到多個屬性(例如內(nèi)容、韻律、音色和聲學細節(jié))，這為生成帶來了巨大挑戰(zhàn)。

　　為了解決這一問題，NaturalSpeech3提出了一種創(chuàng)新的TTS系統(tǒng)，采用了新穎的分解擴散模型，以零樣本的方式生成自然語音。也就是提供文本和參考音頻，可以克隆音色和感情，值得注意的是，NaturalSpeech3目前只有論文。

　　語音建模的關鍵創(chuàng)新點之一是使用神經(jīng)編解碼器，包含分解的向量量化(FVQ)，將語音波形分解成內(nèi)容、韻律、音色和聲學細節(jié)等子空間。** 這種分解設計使得NaturalSpeech3能夠以分治的方式高效地建模復雜的語音。此外，他們還提出了分解的擴散模型，用于根據(jù)相應提示生成每個子空間中的屬性。實驗證明，NaturalSpeech3在質(zhì)量、相似度、韻律和可懂度等方面優(yōu)于現(xiàn)有TTS系統(tǒng)。

　　在LibriSpeech基準測試中，NaturalSpeech3的性能明顯超越了其他系統(tǒng)。對比結(jié)果顯示，NaturalSpeech3在相似度(Sim-O)、錯誤率(WER)、音質(zhì)(CMOS)、語音質(zhì)量(SMOS)等方面均取得了顯著的優(yōu)勢。此外，通過擴大模型規(guī)模和訓練數(shù)據(jù)，NaturalSpeech3在200K小時的訓練數(shù)據(jù)和10億參數(shù)的規(guī)模下取得了更好的性能。

　　除了LibriSpeech基準測試，NaturalSpeech3還在Ravdess基準測試上表現(xiàn)出色。在MCD(Mel頻率倒譜系數(shù))方面，相較于其他系統(tǒng)，NaturalSpeech3的平均MCD顯著降低，表現(xiàn)出更好的語音合成效果。

　　值得注意的是，由于該模型能夠以高度相似的說話者模仿真實語音，存在潛在的濫用風險，例如欺騙語音識別或冒充特定說話者。因此，在實驗中，假定用戶同意成為語音合成的目標說話者。為了防止濫用，研究者呼吁開發(fā)強大的合成語音檢測模型，并建立一個系統(tǒng)，讓個體報告任何疑似濫用行為。這一研究符合微軟的負責任AI原則。

　　文章內(nèi)容僅供閱讀，不構成投資建議，請謹慎對待。投資者據(jù)此操作，風險自擔。

[No. ]
分享到微信