• 首頁 > 云計算頻道 > 大模型

    新語音轉(zhuǎn)換技術(shù)CoMoSVC :速度飆升500倍,高質(zhì)量歌聲轉(zhuǎn)換

    2024年01月11日 17:27:32   來源:站長之家

      近日,香港科技大學(xué)與微軟亞洲研究院的研究團隊聯(lián)手開發(fā)的CoMoSVC技術(shù)在歌聲轉(zhuǎn)換領(lǐng)域取得了革命性突破。

      歌聲轉(zhuǎn)換技術(shù)一直致力于在保持歌曲內(nèi)容和旋律不變的前提下,將一個歌手的聲音轉(zhuǎn)換為另一個歌手的聲音,為音樂娛樂和藝術(shù)創(chuàng)作提供了廣泛應(yīng)用。然而,傳統(tǒng)的擴散式歌聲轉(zhuǎn)換方法由于其迭代采樣過程而處理速度緩慢,尤其在實時應(yīng)用方面表現(xiàn)不佳。

    image.png

    image.png

      CoMoSVC采用了一種全新的方法,借助一致性模型,旨在實現(xiàn)高質(zhì)量音頻生成和快速采樣的雙重目標。該技術(shù)通過兩個關(guān)鍵階段的處理,即編碼和解碼,來完成歌聲的轉(zhuǎn)換過程。在編碼階段,CoMoSVC從波形中提取特征,并將歌手身份編碼到嵌入中。而在解碼階段,該技術(shù)創(chuàng)新性地使用學(xué)生模型,該模型是從預(yù)訓(xùn)練的教師模型中提煉而來,實現(xiàn)了一步到位的音頻采樣,這在傳統(tǒng)方法中是難以實現(xiàn)的。

      CoMoSVC在性能方面表現(xiàn)出色。與當(dāng)前擴散式歌聲轉(zhuǎn)換系統(tǒng)相比,其推理速度顯著提高,最高可達500倍之多,同時保持或超越它們的音頻質(zhì)量表現(xiàn)。這一平衡速度與質(zhì)量的創(chuàng)新,使CoMoSVC在歌聲轉(zhuǎn)換技術(shù)領(lǐng)域取得了里程碑式的成就。

      CoMoSVC的問世為實時應(yīng)用帶來了新的可能性,尤其在音樂娛樂等領(lǐng)域具有廣泛的應(yīng)用前景。這一突破性進展成功解決了傳統(tǒng)歌聲轉(zhuǎn)換方法中一直存在的處理速度瓶頸,為該技術(shù)的未來發(fā)展打開了新的篇章。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。

    即時

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標識解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標識解析專題論壇在沈陽成功舉辦。