1元鎖定早鳥權(quán)益包解鎖實在好禮 CES 2025新品可在京東搶先預(yù)約聯(lián)發(fā)科技攜手Cocos共建端側(cè)生成式AI游戲開發(fā)生態(tài),推動行業(yè)升級阿里 無憂傳媒等聯(lián)合發(fā)起杭州市生產(chǎn)性服務(wù)業(yè)促進會智能駕駛的中場戰(zhàn)事,如何降本增效穿越周期?多款產(chǎn)品燃爆CES 2025,透視涂鴉的長期主義價值淘寶又來微信挖流量了世界經(jīng)濟論壇研究:企業(yè)更傾向于 AI 培訓(xùn)而非裁員 ​TECNO攬獲CES 2024-2025 年度全球智能手機領(lǐng)先品牌TOP10及兩項產(chǎn)品創(chuàng)新大獎英偉達(dá)發(fā)布Groot Teleop 技術(shù) 允許通過Apple Vision Pro來訓(xùn)練機器人2024胡潤中國人工智能企業(yè)50強榜單:科大訊飛第二、商湯科技第三Stability AI 推出 SPAR3D:單圖像生成3D 對象一秒鐘搞定水軍黑產(chǎn)瞄上了視頻創(chuàng)作者 抖音提醒:謹(jǐn)慎甄別“詐騙廣告”字節(jié)聯(lián)合高校出品!STAR 模型:提升視頻清晰度和分辨率Adobe 的 TransPixar將煙霧、反射等透明效果無縫融入場景810 億元,財政部已預(yù)下達(dá) 2025 年消費品以舊換新資金全新視頻修復(fù)技術(shù) SeedVR:模糊變高清,可處理任意長度視頻微軟正式開源超強小模型Phi-4通義萬相推2.1視頻模型 大幅提升復(fù)雜運動能力保險極客受邀出席2025年分子保險科技節(jié),暢談團險全流程數(shù)智升級2nm 半導(dǎo)體爭奪戰(zhàn):日本 Rapidus 試制博通芯片,計劃 6 月交付 1元鎖定早鳥權(quán)益包解鎖實在好禮 CES 2025新品可在京東搶先預(yù)約聯(lián)發(fā)科技攜手Cocos共建端側(cè)生成式AI游戲開發(fā)生態(tài),推動行業(yè)升級阿里 無憂傳媒等聯(lián)合發(fā)起杭州市生產(chǎn)性服務(wù)業(yè)促進會智能駕駛的中場戰(zhàn)事,如何降本增效穿越周期?多款產(chǎn)品燃爆CES 2025,透視涂鴉的長期主義價值淘寶又來微信挖流量了世界經(jīng)濟論壇研究:企業(yè)更傾向于 AI 培訓(xùn)而非裁員 ​TECNO攬獲CES 2024-2025 年度全球智能手機領(lǐng)先品牌TOP10及兩項產(chǎn)品創(chuàng)新大獎英偉達(dá)發(fā)布Groot Teleop 技術(shù) 允許通過Apple Vision Pro來訓(xùn)練機器人2024胡潤中國人工智能企業(yè)50強榜單:科大訊飛第二、商湯科技第三Stability AI 推出 SPAR3D:單圖像生成3D 對象一秒鐘搞定水軍黑產(chǎn)瞄上了視頻創(chuàng)作者 抖音提醒:謹(jǐn)慎甄別“詐騙廣告”字節(jié)聯(lián)合高校出品!STAR 模型:提升視頻清晰度和分辨率Adobe 的 TransPixar將煙霧、反射等透明效果無縫融入場景810 億元,財政部已預(yù)下達(dá) 2025 年消費品以舊換新資金全新視頻修復(fù)技術(shù) SeedVR:模糊變高清,可處理任意長度視頻微軟正式開源超強小模型Phi-4通義萬相推2.1視頻模型 大幅提升復(fù)雜運動能力保險極客受邀出席2025年分子保險科技節(jié),暢談團險全流程數(shù)智升級2nm 半導(dǎo)體爭奪戰(zhàn):日本 Rapidus 試制博通芯片,計劃 6 月交付
  • 首頁 > 云計算頻道 > 大模型

    阿里通義實驗室語音生成大模型CosyVoice升級2.0版本

    2024年12月16日 15:00:47   來源:AIbase基地

      阿里巴巴通義實驗室語音團隊宣布,其開源的語音生成大模型CosyVoice已升級至2.0版本,這一升級標(biāo)志著語音生成技術(shù)在準(zhǔn)確性、穩(wěn)定性和自然體驗方面的顯著進步。CosyVoice2.0通過采用離線和流式一體化建模的語音生成大模型技術(shù),實現(xiàn)了雙向流式語音合成,首包合成延遲可達(dá)到150ms,顯著提升了語音合成的響應(yīng)速度。

      在發(fā)音準(zhǔn)確性方面,CosyVoice2.0相比于前一版本錯誤率下降了30%至50%,在Seed-TTS測試集的hard測試集上取得了當(dāng)前最低的字錯誤率,尤其在合成繞口令、多音字、生僻字方面表現(xiàn)出色。此外,2.0版本在零樣本語音生成和跨語言語音合成上保持了音色一致性,特別是跨語言語音合成能力相較于1.0版本有了明顯提升。

      CosyVoice2.0在合成音頻的韻律、音質(zhì)、情感匹配方面也有所增強,MOS評測分從5.4提升至5.53,接近某商業(yè)化語音合成大模型的評分。同時,2.0版本支持更多細(xì)粒度的情感控制和方言口音控制,為用戶提供了更豐富的語言選擇,包括粵語、四川話、鄭州話、天津話和長沙話等主要方言,以及角色扮演功能,如模仿機器人、小豬佩奇的風(fēng)格講話等。

      CosyVoice2.0的升級,不僅提升了語音合成的技術(shù)和體驗,也進一步推動了開源社區(qū)的發(fā)展,鼓勵更多的開發(fā)者參與到語音處理技術(shù)的創(chuàng)新和應(yīng)用中來。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。

    即時

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。