豆包實時語音大模型正式上線！端到端語音對話情商智商雙高

2025年01月20日 18:30:56 來源：快科技

　　今日，字節(jié)跳動豆包大模型團隊宣布，豆包實時語音大模型今日正式上線，并在豆包App全量開放，將App升級至7.2.0版本即可體驗。

　　據(jù)介紹，豆包實時語音大模型是一款語音理解和生成一體化的模型，實現(xiàn)了端到端語音對話。

　　相比傳統(tǒng)級聯(lián)模式，在語音表現(xiàn)力、控制力、情緒承接方面表現(xiàn)驚艷，并具備低時延、對話中可隨時打斷等特性，號稱情商智商雙高”。

　　該模型是真正意義上的端到端語音系統(tǒng)，主要面向中文語境和場景(可進行英語對話，暫不支持多語種)。

　　豆包表示，依托于語音和語義聯(lián)合建模，豆包實時語音大模型擁有豐富表現(xiàn)力，呈現(xiàn)出接近真人的語音表達水準。

　　通過學習角色語音和情感特點，模型具備強大講故事能力，在對話或內(nèi)容演繹中，可生動切換成不同角色/狀態(tài)，配合不同情緒表達，增強交互趣味性和沉浸感。

　　聯(lián)合建模后，模型涌現(xiàn)出超出預期的指令理解、聲音扮演和聲音控制能力。

　　比如，目前模型部分方言和口音，主要源自于Pretrain階段數(shù)據(jù)泛化，而非針對性訓練。

　　豆包實時語音大模型輸出語音表現(xiàn)力高度逼近真人，包括類人的副語言特征（如語氣詞、停頓思考等），同時賦予模型實時聯(lián)網(wǎng)功能，能根據(jù)問題，動態(tài)獲取最新信息，對時效問題給到精準、及時的回應。

　　從豆包發(fā)布的技術展示來看，該模型語音語氣自然度和情緒飽滿度逼近真人，對話風格更加擬人，情感理解更加深刻，對用戶的情緒做到較好承接。

　　豆包大模型團隊也坦言，現(xiàn)階段的模型主要支持中文，其他語種尚未較好支持，中文范圍內(nèi)，模型也僅支持小部分方言和地方口音的理解和表達。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹慎對待。投資者據(jù)此操作，風險自擔。

即時

2024年的Adobe MAX 2024發(fā)布會上，Adobe推出了最新版本的Adobe Creative Cloud。

奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示，2024年1-9月明火炊具線上零售額94.2億元，同比增加3.1%，其中抖音渠道表現(xiàn)優(yōu)異，同比有14%的漲幅，傳統(tǒng)電商略有下滑，同比降低2.3%。

“以前都要去窗口辦，一套流程下來都要半個月了，現(xiàn)在方便多了!”打開“重慶公積金”微信小程序，按照提示流程提交相關材料，僅幾秒鐘，重慶市民曾某的賬戶就打進了21600元。

華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器，憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力，為您的創(chuàng)作工作帶來實質(zhì)性的幫助，雙十一期間低至2799元，性價比很高，簡直是創(chuàng)作者們的首選。

9月14日，2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標識解析專題論壇在沈陽成功舉辦。

感谢您访问我们的网站，您可能还对以下资源感兴趣：
台湾中文娱乐网