MyShell TTS 開發(fā)的 OpenVoice 是一項創(chuàng)新的聲音克隆技術(shù),它能夠通過僅使用一小段參考發(fā)言者的音頻片段來復(fù)制其聲音,并生成多種語言的語音。
目前,MyShell TTS 已經(jīng)推出了全新的OpenVoice V2版本。這個版本能夠直接支持英語、西班牙語、法語、中文、日語以及韓語,并且顯著提高了音頻輸出的質(zhì)量。OpenVoice V2擁有復(fù)制任意聲音的能力,能以多種語言進行語音輸出,并具備情感和口音的控制功能。它不但可以準確模仿特定的聲音色彩,還允許對聲音的風(fēng)格,包括情感、口音、節(jié)奏、停頓及語調(diào)等進行細致調(diào)整。
主要功能:
準確的音色克隆: OpenVoice 能夠精確地克隆參考音色,并在多種語言和口音中生成語音。
靈活的聲音風(fēng)格控制: 用戶可以對聲音的情緒、口音、節(jié)奏、停頓和語調(diào)進行詳細調(diào)整,實現(xiàn)個性化的聲音輸出。
零樣本跨語言聲音克隆: 即使某些語言未在訓(xùn)練集中出現(xiàn),OpenVoice 也能實現(xiàn)聲音復(fù)制。
高效的計算性能: 相比于市場上現(xiàn)有的商業(yè)API,OpenVoice 在保持高性能的同時,計算成本大大降低。
OpenVoice V2新特性:
更好的音頻質(zhì)量: 采用新的訓(xùn)練策略提升音頻質(zhì)量。
原生多語言支持: 原生支持英語、西班牙語、法語、中文、日語和韓語。
集成 MeloTTS: V2版本引入了 MeloTTS 技術(shù),增強了聲音的自然度和表現(xiàn)力。
免費商業(yè)使用: 自2024年4月起,V1和V2版本均以 MIT 許可證發(fā)布,支持商業(yè)和研究用途的免費使用。
技術(shù)方法:
聲音樣式和語言的解耦設(shè)計: OpenVoice 的設(shè)計哲學(xué)是將聲音的不同特性進行解耦,使得可以獨立控制各個參數(shù),提高操作的靈活性和推斷速度。
基礎(chǔ)發(fā)音者 TTS 模型與音色轉(zhuǎn)換器: 包括允許對風(fēng)格參數(shù)進行控制的基礎(chǔ)發(fā)音者 TTS 模型,以及采用編碼器-解碼器結(jié)構(gòu)的音色轉(zhuǎn)換器。
訓(xùn)練策略和數(shù)據(jù)處理: 在訓(xùn)練過程中,使用了大量的多語種、多風(fēng)格的音頻樣本,并采用特定的損失函數(shù)確保在保留風(fēng)格的同時去除或轉(zhuǎn)換音色。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。
近日,德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產(chǎn)品設(shè)計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強大影響力。
近日,中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項AWE 2024艾普蘭大獎。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經(jīng)濟發(fā)展(集團)有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。