Blizzard Challenge 2020國際語音合成大賽剛剛落下帷幕。由云知聲-上海師范大學(xué)自然人機交互聯(lián)合實驗室申報的系統(tǒng)在強敵環(huán)伺的賽場中突出重圍,首次參賽即斬獲中文普通話、上海話多項關(guān)鍵指標(biāo)第一,再一次印證了云知聲語音合成技術(shù)在業(yè)界的領(lǐng)先水準(zhǔn)。
Blizzard Challenge 國際語音合成大賽是由美國卡耐基-梅隆大學(xué)和日本名古屋工業(yè)大學(xué)聯(lián)合發(fā)起的公開的語音合成技術(shù)評測平臺,是語音合成領(lǐng)域最具權(quán)威性的技術(shù)評測比賽。比賽旨在構(gòu)建一個公開、統(tǒng)一的語音合成技術(shù)評測平臺,加強世界各地語音合成研究機構(gòu)之間的技術(shù)交流與溝通,共同推動語音技術(shù)的快速發(fā)展。
其作為國際上規(guī)模最大、影響力最大的語音合成大賽,至今已成功舉辦過15屆,每年都吸引眾多國際一流的科研單位和企業(yè)參賽。以往參賽隊伍包括 CMU(美國卡耐基-梅隆大學(xué))、Cambridge University(英國劍橋大學(xué))、University of Edinburge(英國愛丁堡大學(xué))、Nitech (日本名古屋工業(yè)大學(xué))、科大訊飛、中科院自動化所等國內(nèi)外語音合成領(lǐng)域的頂尖高手。
多指標(biāo)領(lǐng)跑,強勁的綜合實力
語音作為人工智能技術(shù)發(fā)展的三大方向之一,在應(yīng)用落地過程中,受外部環(huán)境影響極大,因此對語音系統(tǒng)模型、引擎等要求極為嚴(yán)苛。從語音合成需求的角度來看,自然度、相似度和可懂度是實際應(yīng)用中最為核心的三大核心指標(biāo)。
Blizzard Challenge 2020分兩個任務(wù):
1)中文普通話合成(Hub task),以高表現(xiàn)力的聲音作為合成樣本,充分考察參賽者對復(fù)雜多變的韻律節(jié)奏的把控能力,旨在輸出高真實感的合成語音,另外這次比賽還考察參賽者對段落韻律的把控能力;
2)上海話合成(Spoke task),提供的聲音數(shù)據(jù)較少,充分考察參賽者在小樣本上的學(xué)習(xí)能力。
本次比賽中,聯(lián)合實驗室團隊?wèi){借在合成領(lǐng)域的深厚積累,中文普通話合成自然度 MOS 達到4.2,段落合成所有指標(biāo)(Overrall impression\pleasantness\speech pauses\stress\intonation\emotion\listening effort)位列第一,并且通過遷移學(xué)習(xí),從零開始快速構(gòu)建了上海話合成系統(tǒng),合成自然度 MOS 達到4.0,雙雙領(lǐng)跑;與此同時,普通話相似度、上海話可懂度兩項指標(biāo)亦領(lǐng)跑榜單,充分體現(xiàn)了團隊合成技術(shù)的綜合實力。
注:A 為真人聲,B-Q 為參賽隊伍,云知聲-上海師范大學(xué)聯(lián)合實驗室隊伍代碼為 I
注:自然度主要評價合成語音是否像真人說話一樣自然流暢,相似度主要評價合成語音與目標(biāo)說話人在音色和韻律上的相似程度,自然度和相似度是合成系統(tǒng)的最重要的兩個評測指標(biāo),分數(shù)越高,說明效果越好。一般大學(xué)生發(fā)音自然度為4.0分。由于上海話原始數(shù)據(jù)質(zhì)量較低,團隊為了獲得更好的聽感,對原始語音進行了升采樣率的處理,所以相似度方向會有損傷。
本次大賽上,團隊采用業(yè)界主流的端到端合成技術(shù),并針對端到端合成系統(tǒng)普遍存在的穩(wěn)定性和效率問題進行了較多優(yōu)化,在解決穩(wěn)定性的同時,可以實現(xiàn)高效率的合成。目前,該項技術(shù)已經(jīng)在云知聲家居、金融、兒童機器人等業(yè)務(wù)領(lǐng)域合作伙伴的產(chǎn)品中廣泛使用,并取得良好反響。
另外,本次比賽涉及大規(guī)模高復(fù)雜度的模型訓(xùn)練,在這過程充分體現(xiàn)了云知聲計算資源優(yōu)勢。實際上,從2012年開始,云知聲便開始搭建自身的 DeepFlow 集群,該異構(gòu)化硬件服務(wù)器集群可向上提供密集的計算和存儲能力,保證云知聲研發(fā)團隊充足算力的支持。目前該集群規(guī)模為1000GPU 以上,計算能力達1億億次/秒,在以美國的 IBM Summit 超算平臺、我國的神威太湖之光超算平臺為代表的全球超算平臺算力排名中位列前20位。
在 DeepFlow 集群的支撐下,云知聲建設(shè)完成了 Atlas 分布式機器學(xué)習(xí)并行計算平臺,可內(nèi)部協(xié)同共享 AI 底層研發(fā)技術(shù)成果,遷移復(fù)用至各領(lǐng)域應(yīng)用,最終完成 ASR、TTS、NLU 等頂層 AI 技術(shù)的輸出與應(yīng)用。
參賽只是一場自我測試,技術(shù)研究的終點一定是應(yīng)用。未來,云知聲將以此實驗室研究成果為支撐,生成有溫度的聲音,幫助客戶打造完美的人際交互體驗。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。
2024年的Adobe MAX 2024發(fā)布會上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。