66元搶爆款A(yù)R眼鏡!京東AR眼鏡超級新品日30天無憂適用等你來攜手共進(jìn),智啟未來 —— 華為與CypressTel賽柏特成立 SD-WAN 聯(lián)合創(chuàng)新實驗合合信息成功IPO開啟新篇章全球首款第二代酷睿Ultra處理器筆記本!聯(lián)想YOGA Air 15 Aura AI元啟版開啟預(yù)售中國品牌,讓東南亞感受“消費升級”小紅書本地“坐抖望團(tuán)”CrowdStrike“全球滅霸響指”事件后續(xù),德國 10% 企業(yè)更換安全供應(yīng)商導(dǎo)致 1TB 數(shù)據(jù)泄露后,迪士尼宣布棄用 Slack 平臺合合信息啟信產(chǎn)業(yè)大腦攜手市北新區(qū)打造“一企一畫像”平臺,加速數(shù)字化轉(zhuǎn)型重慶:力爭今年智能網(wǎng)聯(lián)新能源汽車產(chǎn)量突破 100 萬輛,到 2027 年建成萬億級產(chǎn)業(yè)集群微信iOS最新版上線:iPhone用戶可在朋友圈發(fā)實況照片了蘋果有線耳機或?qū)⑼.a(chǎn)沖上熱搜!閑魚相關(guān)搜索量暴漲384%2024 vivo開發(fā)者大會官宣:OriginOS 5/自研藍(lán)河系統(tǒng)2降臨真·AI程序員來了,阿里云「通義靈碼」全面進(jìn)化,全流程開發(fā)僅用幾分鐘東方甄選烤腸全網(wǎng)銷量及銷售額領(lǐng)先鴻蒙PC要來了 界面很漂亮!余承東:目前華為PC將是最后一批搭載Windows上半年中國AR/VR出貨23.3萬臺,同比下滑了 29.1%IDC:2024 上半年中國 AR / VR 頭顯出貨 23.3 萬臺,同比下滑 29.1%英特爾AI加速器Gaudi3下周發(fā)布,挑戰(zhàn)NVIDIA統(tǒng)治地位!大屏技術(shù)邂逅千年色彩美學(xué)!海信激光電視成為電影《只此青綠》官方合作伙伴
首頁 > 延展閱讀 > 2016歸檔

97%之后 百度再尋語音突破口——Deep CNN

2016年11月03日 14:01:37 中文科技資訊

  近日,百度在語音識別技術(shù)方面再獲突破,將圖像識別技術(shù)成功“跨界”到語音領(lǐng)域,利用深層卷積神經(jīng)網(wǎng)絡(luò)(Deep CNN)應(yīng)用于語音識別聲學(xué)建模中,將其與基于長短時記憶單元(LSTM)和連接時序分類(CTC)的端對端語音識別技術(shù)相結(jié)合,錯誤率相對降低10%,大幅度提升語音識別產(chǎn)品性能,是繼端對端語音識別后取得的另一次重大技術(shù)突破。

  Deep CNN語音識別的建模過程

  近年來,運用CNN技術(shù)的圖像識別成果頗豐,越來越深的CNN不斷刷新著圖像識別的精準(zhǔn)度,以人臉識別為例,識別準(zhǔn)確率高達(dá)99.7%。但CNN的進(jìn)展在語音識別方面沒有得到充分的應(yīng)用。作為一家在語音技術(shù)上有著深入研究的人工智能公司,百度將Deep CNN視為語音識別技術(shù)的下一個突破口。

  ImageNet競賽中,越來越深的CNN不斷刷新著其性能

  在商用領(lǐng)域的端對端語音識別技術(shù)中,百度首次嘗試引入更深層的CNN神經(jīng)網(wǎng)絡(luò),使錯誤率相對降低10%。端對端技術(shù)則使用一個單獨的學(xué)習(xí)算法來完成從任務(wù)輸入端到輸出端的所有過程,減少了中間單元以及人為干預(yù),在海量數(shù)據(jù)的支持下模型效果提升明顯。目前,百度的端對端技術(shù)處于業(yè)界領(lǐng)先水平。值得一提的是,語音識別都是基于時頻分析后的語音譜完成的,將整個語音信號分析得到的時頻譜當(dāng)作一張圖像,就可以采用圖像中已廣泛應(yīng)用的CNN進(jìn)行識別,克服了語音信號多樣性的問題,且通過引入更深層的CNN,使語音識別性能得到顯著提升,正如百度語音技術(shù)部識別技術(shù)負(fù)責(zé)人李先剛博士所言:‘The Deeper,The Better’。

  與學(xué)術(shù)研究不同,百度語音的研發(fā)立足點,聚焦于技術(shù)的實際應(yīng)用,技術(shù)難度和實現(xiàn)程度更高。針對語音識別產(chǎn)品而言,必須具備在大規(guī)模語音數(shù)據(jù)庫上體現(xiàn)性能提升以及具有適合語音在線識別產(chǎn)品運行的模型。百度采用數(shù)千小時進(jìn)行實驗的研究,并在近十萬小時的產(chǎn)品語音數(shù)據(jù)庫中進(jìn)行驗證,且充足的語音數(shù)據(jù)資源,使基于端對端技術(shù)的語音識別系統(tǒng)明顯優(yōu)于以往的框架性能。

  百度語音識別技術(shù)每年迭代算法模型

  除此之外,百度語音技術(shù)在數(shù)據(jù)、計算能力、算法等三方面優(yōu)勢顯著。百度擁有約10萬小時的精準(zhǔn)標(biāo)注語音數(shù)據(jù),以及基于數(shù)百個GPU的高性能計算平臺。在算法方面,百度每年都在不斷優(yōu)化、迭代模型算法,語音識別效果顯著提升,領(lǐng)先業(yè)界。

  此前,百度便利用端對端技術(shù)研發(fā)了Deep Speech 2深度語音識別技術(shù),用于提高在嘈雜環(huán)境下語音識別的準(zhǔn)確率。在噪音環(huán)境下,其錯誤率低于谷歌、微軟以及蘋果的語音系統(tǒng)。目前,百度語音識別準(zhǔn)確率高達(dá)97%,并被美國權(quán)威科技雜志《麻省理工評論》列為2016年十大突破技術(shù)之一。另據(jù)李先剛博士透露,目前的確正在加緊Deep Speech 3 的研發(fā)工作,而本次公布的Deep CNN不排除將會是Deep Speech 3的核心組成部分。

  除了技術(shù)突破,百度還積極推動用戶使用語音交互的普及,手機百度、百度輸入法、百度地圖、度秘等產(chǎn)品都已支持語音輸入功能,而此次“跨界”的Deep CNN相信很快會應(yīng)用到擁有龐大用戶體量的百度產(chǎn)品中。

  來源:XXX(非中文科技資訊)的作品均轉(zhuǎn)載自其它媒體,轉(zhuǎn)載請尊重版權(quán)保留出處,一切法律責(zé)任自負(fù)。

  文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。有事發(fā)郵件至news#citnews.com.cn(發(fā)送時將#替換為@)。

[信息來源:中國網(wǎng)]

[上傳用戶: ]

[轉(zhuǎn)載標(biāo)題:]
分享到微信

即時

TCL實業(yè)榮獲IFA2024多項大獎,展示全球科技創(chuàng)新力量

近日,德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產(chǎn)品設(shè)計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強大影響力。

新聞

敢闖技術(shù)無人區(qū) TCL實業(yè)斬獲多項AWE 2024艾普蘭獎

近日,中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項AWE 2024艾普蘭大獎。

企業(yè)IT

重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

3C消費

“純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

2024年3月12日,由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會在上海盛大舉行。

研究

2024全球開發(fā)者先鋒大會即將開幕

由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。