66元搶爆款A(yù)R眼鏡!京東AR眼鏡超級新品日30天無憂適用等你來攜手共進(jìn),智啟未來 —— 華為與CypressTel賽柏特成立 SD-WAN 聯(lián)合創(chuàng)新實驗合合信息成功IPO開啟新篇章全球首款第二代酷睿Ultra處理器筆記本!聯(lián)想YOGA Air 15 Aura AI元啟版開啟預(yù)售中國品牌,讓東南亞感受“消費升級”小紅書本地“坐抖望團”CrowdStrike“全球滅霸響指”事件后續(xù),德國 10% 企業(yè)更換安全供應(yīng)商導(dǎo)致 1TB 數(shù)據(jù)泄露后,迪士尼宣布棄用 Slack 平臺合合信息啟信產(chǎn)業(yè)大腦攜手市北新區(qū)打造“一企一畫像”平臺,加速數(shù)字化轉(zhuǎn)型重慶:力爭今年智能網(wǎng)聯(lián)新能源汽車產(chǎn)量突破 100 萬輛,到 2027 年建成萬億級產(chǎn)業(yè)集群微信iOS最新版上線:iPhone用戶可在朋友圈發(fā)實況照片了蘋果有線耳機或?qū)⑼.a(chǎn)沖上熱搜!閑魚相關(guān)搜索量暴漲384%2024 vivo開發(fā)者大會官宣:OriginOS 5/自研藍(lán)河系統(tǒng)2降臨真·AI程序員來了,阿里云「通義靈碼」全面進(jìn)化,全流程開發(fā)僅用幾分鐘東方甄選烤腸全網(wǎng)銷量及銷售額領(lǐng)先鴻蒙PC要來了 界面很漂亮!余承東:目前華為PC將是最后一批搭載Windows上半年中國AR/VR出貨23.3萬臺,同比下滑了 29.1%IDC:2024 上半年中國 AR / VR 頭顯出貨 23.3 萬臺,同比下滑 29.1%英特爾AI加速器Gaudi3下周發(fā)布,挑戰(zhàn)NVIDIA統(tǒng)治地位!大屏技術(shù)邂逅千年色彩美學(xué)!海信激光電視成為電影《只此青綠》官方合作伙伴
  • 首頁 > 延展閱讀 > 2016歸檔

    ISCSLP2016 思必馳俞凱解析深度學(xué)習(xí)領(lǐng)域的智能語音技術(shù)

    2016年10月22日 19:07:35   來源:齊魯晚報網(wǎng)

       ISCSLP中文口語語言處理會議由國際著名學(xué)術(shù)協(xié)會ISCA的中文學(xué)術(shù)小組SIG-CSLP主辦,為全球針對中文語言處理技術(shù)所舉辦的大型國際研討會,并由新加坡、中國大陸、臺灣及香港等四個國家和地區(qū)輪流舉辦,該會議已經(jīng)發(fā)展成為中文語言處理技術(shù)相關(guān)領(lǐng)域最重要的國際研討會。

      圖1 ISCSLP2016大會現(xiàn)場

      2016年10月17日至20日,第十屆中文口語語言處理國際會議ISCSLP2016 在天津召開,會議聚集了來自全球各地學(xué)界和產(chǎn)業(yè)界的人士,并向全球征集業(yè)界前沿學(xué)術(shù)論文稿件,展示前沿科技成果,結(jié)合當(dāng)前產(chǎn)業(yè)發(fā)展態(tài)勢,共同探討語言處理的未來發(fā)展趨勢。

      圖2 思必馳首席科學(xué)家俞凱現(xiàn)場

      10月18日下午,思必馳首席科學(xué)家/聯(lián)合創(chuàng)始人、上海交通大學(xué)俞凱教授,在大會新技術(shù)產(chǎn)業(yè)論壇上,進(jìn)行了題為《基礎(chǔ)技術(shù)創(chuàng)新推動產(chǎn)業(yè)進(jìn)步》的主題分享。俞凱教授表示,智能語音在經(jīng)歷著從感知智能到認(rèn)知智能的飛躍,解決如何使智能語音進(jìn)行理解、決策及表述的問題非常重要。俞凱教授強調(diào)技術(shù)型公司原始創(chuàng)新的重要性,著重介紹了思必馳基于深度學(xué)習(xí)的語音識別技術(shù),如,VDCNN算法在降噪處理上表現(xiàn)出不可取代的優(yōu)勢;幀同步解碼轉(zhuǎn)換為音素同步解碼搜索空間減少80%以上等技術(shù)成果。依托穩(wěn)健的研究實力,思必馳用實際行動踐行著作為技術(shù)型公司應(yīng)有的創(chuàng)新、原創(chuàng)精神。

      思必馳專注為智能硬件提供自然語言交互方案,為智能車載、智能家居、智能機器人三個垂直領(lǐng)域定制基于交互場景的語音方案。根據(jù)不同應(yīng)用場景,思必馳依托強大的研發(fā)實力滿足用戶在不同場景下的個性化需求。雖然目前國內(nèi)智能語音領(lǐng)域,通用的開源工具應(yīng)用較多,難度較低,但通用的開源工具在效率和權(quán)限上有極大局限性,既無法滿足特定的前沿算法需求,也常常無法滿足用戶基于場景的個性化需求,不同專業(yè)領(lǐng)域的算法、數(shù)據(jù)、架構(gòu)等都要依托實際應(yīng)用進(jìn)行搭建及優(yōu)化。因此,思必馳專注技術(shù)研發(fā),用技術(shù)實力說話,通過定制方案滿足用戶個性化需求。

      如何確保技術(shù)的專業(yè)性與前沿性呢?思必馳成立之初即與上海交大成立聯(lián)合實驗室“Speech Lab”,由思必馳聯(lián)合創(chuàng)始人,上海交通大學(xué)教授俞凱全權(quán)負(fù)責(zé),專注智能語音技術(shù)的研發(fā)與應(yīng)用,思必馳擁有獨立知識產(chǎn)權(quán),并積極促進(jìn)前端科研成果的商業(yè)化轉(zhuǎn)化與應(yīng)用。正如俞凱教授在演講中所提,近期,思必馳上海交大聯(lián)合實驗室的科研工作又取得了極大突破。

      1. 抗噪處理:VDCNN算法模型結(jié)構(gòu)

      噪聲環(huán)境下的語音識別一直以來是一個難題。目前基于深度學(xué)習(xí)的主流語音識別技術(shù)及引擎,已經(jīng)可以在很多信噪比相對比較好的環(huán)境下取得良好的準(zhǔn)確率,但是在面對真實環(huán)境下的多類別強噪聲情況環(huán)境(比如車載噪聲、家居遠(yuǎn)場回聲等),性能變會急劇下降,遠(yuǎn)遠(yuǎn)不能滿足實際應(yīng)用的需求。

      思必馳和上海交大聯(lián)合實驗室,對基于噪聲條件下的語音識別問題進(jìn)行了深入的研究,歷時一年多以來,提出了VDCNN算法模型結(jié)構(gòu)。相比于傳統(tǒng)語音模型僅使用1至2層卷積層,思必馳通過堆疊較小的卷積層和池化層,將語音模型中的卷積層的深度提高到了10層以上。利用小卷積核更加精細(xì)的局部刻畫能力和頻率不變性描述,能夠更好地在語音模型的內(nèi)部實現(xiàn)了聲學(xué)自動降噪的能力。

      思必馳上海交大聯(lián)合實驗室目前所提出的模型和架構(gòu),在噪聲環(huán)境語音識別的業(yè)界基準(zhǔn)庫Aurora4上,取得了7.09%的詞錯誤率。相比于世界其他機構(gòu)目前10%左右的最好結(jié)果,有一個大幅度的明顯優(yōu)勢,在抗噪語音識別上是一個新的里程碑。此外,除了多類別的加性噪聲,此模型也被驗證在遠(yuǎn)場識別環(huán)境下也具有明顯的優(yōu)勢。近5年,在Aurora4噪聲數(shù)據(jù)庫上,公開可查的世界上著名研究機構(gòu)最好語音識別系統(tǒng)對比如下圖所示:

      圖3 Aurura WER{%)

      思必馳上海交大聯(lián)合實驗室VDCNN算法模型結(jié)構(gòu),不但在噪聲環(huán)境下具有非常好的準(zhǔn)確率,還具有訓(xùn)練收斂速度快,模型參數(shù)規(guī)模小等優(yōu)勢,這些特點都為VDCNN的真實使用提供了便利。

      2. 新型解碼框架:Phone Synchronous Decoding

      大詞匯連續(xù)語音識別由于詞匯量龐大且沒有固定語法,會造成搜索空間非常龐大。目前,通過很多傳統(tǒng)做法可以加快語音識別速度,如,離線基于WFST的搜索空間預(yù)優(yōu)化,在線逐幀同步維特比解碼,結(jié)合可變幀率分析等方法。但是,離線優(yōu)化效果有限,逐幀搜索計算量大,而大量剪枝算法會引入搜索誤差。因此目前主流的大詞匯連續(xù)語音識別系統(tǒng)只能工作在云端。

      近來,連接時序模型(CTC)取代傳統(tǒng)隱馬爾科夫模型(HMM),被應(yīng)用到語音識別中,其特點顯著,能夠針對識別序列進(jìn)行整體建模,帶來更好的前后文建模能力,使語音識別的建模單元顯著減少,并使龐大搜索空間相應(yīng)減小。另一方面,模型本身建模了多幀對一個音素的映射關(guān)系,使得模型輸出的聲學(xué)信息集中。根據(jù)模型輸出特點,適宜采用更長的搜索步長,由逐幀同步解碼,轉(zhuǎn)變?yōu)橐羲赝浇獯a,從而減少了搜索計算量。

      思必馳結(jié)合以上兩點改進(jìn),使語音識別系統(tǒng)的速度累積提高20-30倍,內(nèi)存下降50%以上,從而使得大詞匯連續(xù)語音識別可以應(yīng)用于離線手持設(shè)備;而基于該系統(tǒng)提出的置信度算法,得益于集中的聲學(xué)信息和相應(yīng)設(shè)計的優(yōu)化算法,取得近一倍的提升。顯著改善了語音識別系統(tǒng)的用戶體驗。

      近年來,思必馳憑借原始技術(shù)創(chuàng)新,在智能車載、智能家居、智能機器人等領(lǐng)域的語音市場展開了布局,與阿里、小米、聯(lián)想、海爾、美的、慶科、浙江大華等企業(yè)建立了戰(zhàn)略合作關(guān)系,為廣大用戶帶來流暢的語音交互體驗;A(chǔ)技術(shù)創(chuàng)新必定會推動產(chǎn)業(yè)化進(jìn)步,思必馳重視技術(shù)及人才價值,打造更人性化的語音交互。

      來源:XXX(非中文科技資訊)的作品均轉(zhuǎn)載自其它媒體,轉(zhuǎn)載請尊重版權(quán)保留出處,一切法律責(zé)任自負(fù)。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。

      如發(fā)現(xiàn)本站文章存在問題,提供版權(quán)疑問、身份證明、版權(quán)證明、聯(lián)系方式等發(fā)郵件至news@citnews.com.cn。

    [編輯: admin ]
    分享到微信

    即時

    TCL實業(yè)榮獲IFA2024多項大獎,展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產(chǎn)品設(shè)計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強大影響力。

    新聞

    敢闖技術(shù)無人區(qū) TCL實業(yè)斬獲多項AWE 2024艾普蘭獎

    近日,中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項AWE 2024艾普蘭大獎。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費

    “純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

    2024年3月12日,由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會在上海盛大舉行。

    研究

    2024全球開發(fā)者先鋒大會即將開幕

    由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經(jīng)濟發(fā)展(集團)有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。