CES 2025有哪些新品值得關(guān)注?京東采銷攜影視颶風(fēng)帶來(lái)科技最新資訊智算中心,為何比拼拎包入住報(bào)道稱2025年百度OKR更新:降本增效、KPI化雷克沙SILVER PRO,定義攝影新速度:從4K到高速連拍1月20日起來(lái)京東購(gòu)手機(jī)、平板享國(guó)家補(bǔ)貼每件最高500元小紅書(shū)回應(yīng)增加一鍵翻譯功能:已收到相關(guān)反饋 正在跟進(jìn)iPhone 16系列能疊加手機(jī)“國(guó)家補(bǔ)貼”嗎?看完這些就懂了任天堂Switch 2神秘“C”按鈕功能曝光!與付費(fèi)訂閱相關(guān)小紅書(shū)崩了上熱搜:部分網(wǎng)友APP首頁(yè)圖片不顯示2024年國(guó)內(nèi)日系車銷量排行:僅豐田有所增長(zhǎng),其余均遭滑鐵盧同比增長(zhǎng)71.8% 比亞迪2024年汽車出口增速位列中國(guó)汽車品牌第一消息稱去年全球PC GPU出貨超2.5億顆 較CPU高出兩成蘋果迎頭趕上:iPhone 17系列將搭載VC均熱板,提升散熱性能2024年中國(guó)智能手機(jī)市場(chǎng)回暖:vivo領(lǐng)跑,華為增長(zhǎng)37%,蘋果下滑17%英偉達(dá)與聯(lián)發(fā)科聯(lián)手打造Windows on Arm旗艦SoC,瞄準(zhǔn)PC市場(chǎng)新藍(lán)海三星Exynos旗艦芯片量產(chǎn)受阻,臺(tái)積電拒絕為其代工 擔(dān)憂商業(yè)機(jī)密泄露M4芯片MacBook Air有望成蘋果今年首款新品 最快1月份發(fā)布微軟入局量子計(jì)算 帶動(dòng)量子概念股暴力反彈消息稱東鵬飲料正與大摩和瑞銀接觸 即將赴港上市盒馬換帥300天:狂飆拓店、加速下沉、開(kāi)放加盟
  • 首頁(yè) > 延展閱讀 > 2016歸檔

    ISCSLP2016 思必馳俞凱解析深度學(xué)習(xí)領(lǐng)域的智能語(yǔ)音技術(shù)

    2016年10月22日 19:07:35   來(lái)源:齊魯晚報(bào)網(wǎng)

       ISCSLP中文口語(yǔ)語(yǔ)言處理會(huì)議由國(guó)際著名學(xué)術(shù)協(xié)會(huì)ISCA的中文學(xué)術(shù)小組SIG-CSLP主辦,為全球針對(duì)中文語(yǔ)言處理技術(shù)所舉辦的大型國(guó)際研討會(huì),并由新加坡、中國(guó)大陸、臺(tái)灣及香港等四個(gè)國(guó)家和地區(qū)輪流舉辦,該會(huì)議已經(jīng)發(fā)展成為中文語(yǔ)言處理技術(shù)相關(guān)領(lǐng)域最重要的國(guó)際研討會(huì)。

      圖1 ISCSLP2016大會(huì)現(xiàn)場(chǎng)

      2016年10月17日至20日,第十屆中文口語(yǔ)語(yǔ)言處理國(guó)際會(huì)議ISCSLP2016 在天津召開(kāi),會(huì)議聚集了來(lái)自全球各地學(xué)界和產(chǎn)業(yè)界的人士,并向全球征集業(yè)界前沿學(xué)術(shù)論文稿件,展示前沿科技成果,結(jié)合當(dāng)前產(chǎn)業(yè)發(fā)展態(tài)勢(shì),共同探討語(yǔ)言處理的未來(lái)發(fā)展趨勢(shì)。

      圖2 思必馳首席科學(xué)家俞凱現(xiàn)場(chǎng)

      10月18日下午,思必馳首席科學(xué)家/聯(lián)合創(chuàng)始人、上海交通大學(xué)俞凱教授,在大會(huì)新技術(shù)產(chǎn)業(yè)論壇上,進(jìn)行了題為《基礎(chǔ)技術(shù)創(chuàng)新推動(dòng)產(chǎn)業(yè)進(jìn)步》的主題分享。俞凱教授表示,智能語(yǔ)音在經(jīng)歷著從感知智能到認(rèn)知智能的飛躍,解決如何使智能語(yǔ)音進(jìn)行理解、決策及表述的問(wèn)題非常重要。俞凱教授強(qiáng)調(diào)技術(shù)型公司原始創(chuàng)新的重要性,著重介紹了思必馳基于深度學(xué)習(xí)的語(yǔ)音識(shí)別技術(shù),如,VDCNN算法在降噪處理上表現(xiàn)出不可取代的優(yōu)勢(shì);幀同步解碼轉(zhuǎn)換為音素同步解碼搜索空間減少80%以上等技術(shù)成果。依托穩(wěn)健的研究實(shí)力,思必馳用實(shí)際行動(dòng)踐行著作為技術(shù)型公司應(yīng)有的創(chuàng)新、原創(chuàng)精神。

      思必馳專注為智能硬件提供自然語(yǔ)言交互方案,為智能車載、智能家居、智能機(jī)器人三個(gè)垂直領(lǐng)域定制基于交互場(chǎng)景的語(yǔ)音方案。根據(jù)不同應(yīng)用場(chǎng)景,思必馳依托強(qiáng)大的研發(fā)實(shí)力滿足用戶在不同場(chǎng)景下的個(gè)性化需求。雖然目前國(guó)內(nèi)智能語(yǔ)音領(lǐng)域,通用的開(kāi)源工具應(yīng)用較多,難度較低,但通用的開(kāi)源工具在效率和權(quán)限上有極大局限性,既無(wú)法滿足特定的前沿算法需求,也常常無(wú)法滿足用戶基于場(chǎng)景的個(gè)性化需求,不同專業(yè)領(lǐng)域的算法、數(shù)據(jù)、架構(gòu)等都要依托實(shí)際應(yīng)用進(jìn)行搭建及優(yōu)化。因此,思必馳專注技術(shù)研發(fā),用技術(shù)實(shí)力說(shuō)話,通過(guò)定制方案滿足用戶個(gè)性化需求。

      如何確保技術(shù)的專業(yè)性與前沿性呢?思必馳成立之初即與上海交大成立聯(lián)合實(shí)驗(yàn)室“Speech Lab”,由思必馳聯(lián)合創(chuàng)始人,上海交通大學(xué)教授俞凱全權(quán)負(fù)責(zé),專注智能語(yǔ)音技術(shù)的研發(fā)與應(yīng)用,思必馳擁有獨(dú)立知識(shí)產(chǎn)權(quán),并積極促進(jìn)前端科研成果的商業(yè)化轉(zhuǎn)化與應(yīng)用。正如俞凱教授在演講中所提,近期,思必馳上海交大聯(lián)合實(shí)驗(yàn)室的科研工作又取得了極大突破。

      1. 抗噪處理:VDCNN算法模型結(jié)構(gòu)

      噪聲環(huán)境下的語(yǔ)音識(shí)別一直以來(lái)是一個(gè)難題。目前基于深度學(xué)習(xí)的主流語(yǔ)音識(shí)別技術(shù)及引擎,已經(jīng)可以在很多信噪比相對(duì)比較好的環(huán)境下取得良好的準(zhǔn)確率,但是在面對(duì)真實(shí)環(huán)境下的多類別強(qiáng)噪聲情況環(huán)境(比如車載噪聲、家居遠(yuǎn)場(chǎng)回聲等),性能變會(huì)急劇下降,遠(yuǎn)遠(yuǎn)不能滿足實(shí)際應(yīng)用的需求。

      思必馳和上海交大聯(lián)合實(shí)驗(yàn)室,對(duì)基于噪聲條件下的語(yǔ)音識(shí)別問(wèn)題進(jìn)行了深入的研究,歷時(shí)一年多以來(lái),提出了VDCNN算法模型結(jié)構(gòu)。相比于傳統(tǒng)語(yǔ)音模型僅使用1至2層卷積層,思必馳通過(guò)堆疊較小的卷積層和池化層,將語(yǔ)音模型中的卷積層的深度提高到了10層以上。利用小卷積核更加精細(xì)的局部刻畫(huà)能力和頻率不變性描述,能夠更好地在語(yǔ)音模型的內(nèi)部實(shí)現(xiàn)了聲學(xué)自動(dòng)降噪的能力。

      思必馳上海交大聯(lián)合實(shí)驗(yàn)室目前所提出的模型和架構(gòu),在噪聲環(huán)境語(yǔ)音識(shí)別的業(yè)界基準(zhǔn)庫(kù)Aurora4上,取得了7.09%的詞錯(cuò)誤率。相比于世界其他機(jī)構(gòu)目前10%左右的最好結(jié)果,有一個(gè)大幅度的明顯優(yōu)勢(shì),在抗噪語(yǔ)音識(shí)別上是一個(gè)新的里程碑。此外,除了多類別的加性噪聲,此模型也被驗(yàn)證在遠(yuǎn)場(chǎng)識(shí)別環(huán)境下也具有明顯的優(yōu)勢(shì)。近5年,在Aurora4噪聲數(shù)據(jù)庫(kù)上,公開(kāi)可查的世界上著名研究機(jī)構(gòu)最好語(yǔ)音識(shí)別系統(tǒng)對(duì)比如下圖所示:

      圖3 Aurura WER{%)

      思必馳上海交大聯(lián)合實(shí)驗(yàn)室VDCNN算法模型結(jié)構(gòu),不但在噪聲環(huán)境下具有非常好的準(zhǔn)確率,還具有訓(xùn)練收斂速度快,模型參數(shù)規(guī)模小等優(yōu)勢(shì),這些特點(diǎn)都為VDCNN的真實(shí)使用提供了便利。

      2. 新型解碼框架:Phone Synchronous Decoding

      大詞匯連續(xù)語(yǔ)音識(shí)別由于詞匯量龐大且沒(méi)有固定語(yǔ)法,會(huì)造成搜索空間非常龐大。目前,通過(guò)很多傳統(tǒng)做法可以加快語(yǔ)音識(shí)別速度,如,離線基于WFST的搜索空間預(yù)優(yōu)化,在線逐幀同步維特比解碼,結(jié)合可變幀率分析等方法。但是,離線優(yōu)化效果有限,逐幀搜索計(jì)算量大,而大量剪枝算法會(huì)引入搜索誤差。因此目前主流的大詞匯連續(xù)語(yǔ)音識(shí)別系統(tǒng)只能工作在云端。

      近來(lái),連接時(shí)序模型(CTC)取代傳統(tǒng)隱馬爾科夫模型(HMM),被應(yīng)用到語(yǔ)音識(shí)別中,其特點(diǎn)顯著,能夠針對(duì)識(shí)別序列進(jìn)行整體建模,帶來(lái)更好的前后文建模能力,使語(yǔ)音識(shí)別的建模單元顯著減少,并使龐大搜索空間相應(yīng)減小。另一方面,模型本身建模了多幀對(duì)一個(gè)音素的映射關(guān)系,使得模型輸出的聲學(xué)信息集中。根據(jù)模型輸出特點(diǎn),適宜采用更長(zhǎng)的搜索步長(zhǎng),由逐幀同步解碼,轉(zhuǎn)變?yōu)橐羲赝浇獯a,從而減少了搜索計(jì)算量。

      思必馳結(jié)合以上兩點(diǎn)改進(jìn),使語(yǔ)音識(shí)別系統(tǒng)的速度累積提高20-30倍,內(nèi)存下降50%以上,從而使得大詞匯連續(xù)語(yǔ)音識(shí)別可以應(yīng)用于離線手持設(shè)備;而基于該系統(tǒng)提出的置信度算法,得益于集中的聲學(xué)信息和相應(yīng)設(shè)計(jì)的優(yōu)化算法,取得近一倍的提升。顯著改善了語(yǔ)音識(shí)別系統(tǒng)的用戶體驗(yàn)。

      近年來(lái),思必馳憑借原始技術(shù)創(chuàng)新,在智能車載、智能家居、智能機(jī)器人等領(lǐng)域的語(yǔ)音市場(chǎng)展開(kāi)了布局,與阿里、小米、聯(lián)想、海爾、美的、慶科、浙江大華等企業(yè)建立了戰(zhàn)略合作關(guān)系,為廣大用戶帶來(lái)流暢的語(yǔ)音交互體驗(yàn);A(chǔ)技術(shù)創(chuàng)新必定會(huì)推動(dòng)產(chǎn)業(yè)化進(jìn)步,思必馳重視技術(shù)及人才價(jià)值,打造更人性化的語(yǔ)音交互。

      來(lái)源:XXX(非中文科技資訊)的作品均轉(zhuǎn)載自其它媒體,轉(zhuǎn)載請(qǐng)尊重版權(quán)保留出處,一切法律責(zé)任自負(fù)。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

      如發(fā)現(xiàn)本站文章存在問(wèn)題,提供版權(quán)疑問(wèn)、身份證明、版權(quán)證明、聯(lián)系方式等發(fā)郵件至news@citnews.com.cn。

    [編輯: admin ]
    分享到微信

    即時(shí)

    新聞

    明火炊具市場(chǎng):三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開(kāi)“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實(shí)力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來(lái)實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。

    研究

    中國(guó)信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專題論壇在沈陽(yáng)成功舉辦。