近日,語音研究領域頂級會議Interspeech2020召開,在本次大會的口音英語語音識別挑戰(zhàn)賽上,騰訊云小微&騰訊云智能鈦聯合團隊在口音英語語音識別賽道中以大幅領先的成績獲得冠軍。
Interspeech是由國際語音通信協會ISCA組織的語音研究領域的頂級會議之一。本次大會上提出,在全球范圍內,標準英文ASR系統(tǒng)已經具備較高的識別正確率,但口音英語識別仍然是具有挑戰(zhàn)性的課題,也是技術應用中亟待克服的最大挑戰(zhàn)。為此,大會特別設置了口音英語語音識別挑戰(zhàn)賽 ,正是為了促進行業(yè)技術交流,展示最新技術突破。
在本次口音英語語音識別挑戰(zhàn)賽中,向參賽者開放了來自不同國家的共八種口音英文數據,覆蓋了各種發(fā)音特點、口音輕重等典型難點。騰訊云小微&騰訊云智能鈦聯合團隊的技術方案,以識別錯誤率最低且優(yōu)于第二名10%的好成績獲得賽道第一。
采用探索性語音識別方案,騰訊聯合團隊展示技術研究實力
口音語音識別難點主要源于口音本身的不一致性、語速與音素發(fā)音的多變性難以建模等問題。另外,帶有口音標注的語音數據的短缺也嚴重限制了相關研究的開展。作為在業(yè)內頗具代表性的AI語音技術團隊,騰訊云小微&騰訊云智能鈦聯合團隊在此次比賽中,突破性的選擇了基于Wav2Vector無監(jiān)督預訓練+CTC Fine-tuning的Wav2Vec方案。該方案的原型是Facebook公司在今年首次提出的。在本次比賽前,幾乎沒有其他關于Wav2Vector的成功應用。因此,此次比賽是騰訊云小微團隊在語音識別方案上的全新探索。
在這個方案中,騰訊團隊首先使用Librispeech無監(jiān)督預訓練的Wav2Vector模型進行模型初始化,之后在預訓練模型上添加一層輸出層,采用英文字母作為建模單元,并使用CTC損失函數進行訓練。由于模型采用的是字母建模,識別結果隨機性較大,容易引入過多錯誤。因此,團隊引入了語言模型進行約束,大幅提高了識別性能。經實驗發(fā)現,解碼時引入N元文法(N-Gram)語言模型,可以下降30%的識別錯誤率。同時,進一步采用基于Transformer的語言模型對解碼的候選結果進行重打分,錯誤率可以下降7%。
大規(guī)模分布式訓練加速,騰訊云智能鈦為AI研究與應用提供極致的平臺支撐
此次比賽由云小微團隊與智能鈦團隊合力完成,是智能鈦平臺繼2020年8月21日與騰訊機智團隊一道打破128卡訓練ImageNet的業(yè)界新記錄后,在大規(guī)模分布式訓練加速場景上的又一個成功案例。智能鈦平臺整合了騰訊內部各業(yè)務團隊的豐富經驗,針對大規(guī)模分布式訓練加速場景,在單機性能、多機擴展、AutoML等三個方面進行了深度優(yōu)化,可以有效地支撐各AI團隊的研究與應用。具體如下:
極致的單機性能:智能鈦團隊協同內部的開源團隊,推出了深度定制版TensorFlow(TI-TensorFlow),在高維動態(tài)稀疏特征支持、編譯優(yōu)化、自動混合精度訓練等特性上對社區(qū)版TensorFlow進行了深度優(yōu)化,大大提升了模型單機性能。
線性多機擴展:智能鈦TI-Horovod在開源框架的基礎上,結合騰訊云的軟硬件環(huán)境進行了深度優(yōu)化。通過自研的自適應梯度融合、2D AllReduce和多流通信等技術,實現了近千卡的線性擴展加速。通過首創(chuàng)的層級Topk技術,突破了弱網環(huán)境下的帶寬瓶頸。
高效AutoML: 針對深度學習訓練規(guī)模大、超參數范圍廣和人工調參效率低的問題,智能鈦TI-AutoML內置了騰訊自研的高效自動化搜索技術,充分利用騰訊云的海量算力,讓算法工程師從繁瑣的手工調參中解放出來。
語音技術持續(xù)突破,加速各行業(yè)落地應用
在AI語音助手的實際應用中,如何提高口音識別成功率,是業(yè)內一直在關注和探索的問題。在中英文翻譯方面,騰訊云小微輸出的技術方案,旨在提高英語語音識別的準確率,進而提升翻譯效率和準確性。已經在騰訊翻譯君、騰訊同傳等各行業(yè)方案中廣泛應用。
除了中英文翻譯領域,騰訊云小微AI助手,已經在智能網聯汽車、智慧文旅、智慧教育、智能家居等多行業(yè)領域落地,服務廣泛的用戶群體。口音語音識別的突破,對于中文語音助手的技術提升也有很大的價值。比如在車載語音助手的應用上,一款汽車產品需要滿足全國范圍不同區(qū)域、不同口音用戶的交互需求。比如車載語音助手上,由于用戶來自全國不同區(qū)域,用戶的口音將直接影響識別的準確性,特別是對于口音較重的用戶。本次挑戰(zhàn)賽中,騰訊云小微參賽團隊探索端到的AI訓練方法,為日后的方案應用落地和迭代提供了更有價值的技術助力,將推動AI語音助手方案為用戶帶來更好的服務體驗。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
2024年的Adobe MAX 2024發(fā)布會上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(AVC)推總數據顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現能力,為您的創(chuàng)作工作帶來實質性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。