CES 2025有哪些新品值得關(guān)注?京東采銷(xiāo)攜影視颶風(fēng)帶來(lái)科技最新資訊智算中心,為何比拼拎包入住報(bào)道稱(chēng)2025年百度OKR更新:降本增效、KPI化雷克沙SILVER PRO,定義攝影新速度:從4K到高速連拍1月20日起來(lái)京東購(gòu)手機(jī)、平板享國(guó)家補(bǔ)貼每件最高500元小紅書(shū)回應(yīng)增加一鍵翻譯功能:已收到相關(guān)反饋 正在跟進(jìn)iPhone 16系列能疊加手機(jī)“國(guó)家補(bǔ)貼”嗎?看完這些就懂了任天堂Switch 2神秘“C”按鈕功能曝光!與付費(fèi)訂閱相關(guān)小紅書(shū)崩了上熱搜:部分網(wǎng)友APP首頁(yè)圖片不顯示2024年國(guó)內(nèi)日系車(chē)銷(xiāo)量排行:僅豐田有所增長(zhǎng),其余均遭滑鐵盧同比增長(zhǎng)71.8% 比亞迪2024年汽車(chē)出口增速位列中國(guó)汽車(chē)品牌第一消息稱(chēng)去年全球PC GPU出貨超2.5億顆 較CPU高出兩成蘋(píng)果迎頭趕上:iPhone 17系列將搭載VC均熱板,提升散熱性能2024年中國(guó)智能手機(jī)市場(chǎng)回暖:vivo領(lǐng)跑,華為增長(zhǎng)37%,蘋(píng)果下滑17%英偉達(dá)與聯(lián)發(fā)科聯(lián)手打造Windows on Arm旗艦SoC,瞄準(zhǔn)PC市場(chǎng)新藍(lán)海三星Exynos旗艦芯片量產(chǎn)受阻,臺(tái)積電拒絕為其代工 擔(dān)憂(yōu)商業(yè)機(jī)密泄露M4芯片MacBook Air有望成蘋(píng)果今年首款新品 最快1月份發(fā)布微軟入局量子計(jì)算 帶動(dòng)量子概念股暴力反彈消息稱(chēng)東鵬飲料正與大摩和瑞銀接觸 即將赴港上市盒馬換帥300天:狂飆拓店、加速下沉、開(kāi)放加盟
  • 首頁(yè) > 延展閱讀 > 2016歸檔

    百度 NLP:先解決語(yǔ)義理解,再談機(jī)器翻譯取代人類(lèi)

    2016年12月06日 13:44:27   來(lái)源:機(jī)器之心

      9 月 28 日,Google 在 Research Blog 中介紹其神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng)(GNMT)進(jìn)展,譯文質(zhì)量的大幅提升引發(fā)業(yè)內(nèi)極大關(guān)注。據(jù)稱(chēng),在雙語(yǔ)評(píng)估者的幫助下,通過(guò)對(duì)維基百科和新聞網(wǎng)站的例句測(cè)定,在多個(gè)樣本的翻譯中谷歌神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng)將錯(cuò)誤降低了 55-85%甚至更多。

      翻譯質(zhì)量對(duì)比,來(lái)自 Google Research Blog

      即便如此,網(wǎng)友發(fā)現(xiàn)其翻譯效果雖有顯著提升,但仍未避免將「我想下班」翻譯為「I want to work」等低級(jí)錯(cuò)誤(第二天已被修復(fù))。

      事實(shí)上百度的在線(xiàn)翻譯系統(tǒng),一年前就應(yīng)用了基于神經(jīng)網(wǎng)絡(luò)的翻譯方法(NMT)。去年百度曾在 ACL 會(huì)議上發(fā)表論文《Multi-Task Learning for Multiple Language Translation》,探討用 NMT 技術(shù)解決多語(yǔ)言翻譯及語(yǔ)料稀疏的問(wèn)題。該論文得到業(yè)內(nèi)研究人員的極大關(guān)注,并被 ACL2016 的 NMT Tutorial 列為研究方向。Google 和 Bengio 的研究團(tuán)隊(duì)都在此論文的基礎(chǔ)上進(jìn)一步擴(kuò)展了研究。

      為此,機(jī)器之心專(zhuān)訪(fǎng)百度自然語(yǔ)言處理部技術(shù)負(fù)責(zé)人吳華、高級(jí)總監(jiān)吳甜,就神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng)的優(yōu)缺點(diǎn)、如何獲得高質(zhì)量訓(xùn)練數(shù)據(jù)及百度翻譯目前進(jìn)展展開(kāi)話(huà)題。同時(shí)也借此機(jī)會(huì)了解百度自然語(yǔ)言處理部及其開(kāi)展的 NLP 技術(shù)研發(fā)工作。以下為采訪(fǎng)內(nèi)容整理,以饗讀者。

      NMT、SMT 的優(yōu)與缺

      機(jī)器之心:能請(qǐng)您先介紹一下百度 NLP 部門(mén)嗎?

      答:百度 NLP 部門(mén)在公司內(nèi)部是具有較長(zhǎng)歷史的部門(mén),從最初搜索誕生時(shí),就已經(jīng)有 NLP 方面的工作。2010年初,百度正式成立自然語(yǔ)言處理部,F(xiàn)在,這個(gè)團(tuán)隊(duì)人員構(gòu)成非常多元,有自然語(yǔ)言處理、機(jī)器學(xué)習(xí)、信息檢索、數(shù)據(jù)挖掘、機(jī)器翻譯等多領(lǐng)域的專(zhuān)業(yè)性人才,擅長(zhǎng)工程實(shí)踐和擅長(zhǎng)科學(xué)研究的人才都能夠在團(tuán)隊(duì)中發(fā)揮重要作用。同時(shí),架構(gòu)開(kāi)發(fā)、前端開(kāi)發(fā)、客戶(hù)端等軟件開(kāi)發(fā)和硬件開(kāi)發(fā)工程師,產(chǎn)品設(shè)計(jì)及語(yǔ)言學(xué)專(zhuān)業(yè)人才也是團(tuán)隊(duì)的重要組成部分。

      整個(gè)部門(mén)的大方向有幾個(gè)。第一是為百度的眾多產(chǎn)品提供最基礎(chǔ)的、NLP 模型算法,包括百度所有產(chǎn)品都在用的分詞算法、專(zhuān)名識(shí)別、詞性分析、語(yǔ)義理解、篇章理解等等一些基礎(chǔ)的一些工具。目前 NLP 部門(mén)為整個(gè)公司提供一個(gè)大型平臺(tái) NLP 云,未來(lái)這個(gè)平臺(tái)也會(huì)對(duì)公司外有所開(kāi)放,目前(這個(gè)平臺(tái))每天都有千億量級(jí)的調(diào)動(dòng)量。還有貼近應(yīng)用的一些大型的應(yīng)用系統(tǒng),比如說(shuō)深度問(wèn)答系統(tǒng)。NLP 開(kāi)發(fā)的深度問(wèn)答系統(tǒng)在百度的搜索產(chǎn)品上,會(huì)有一些直接展示。比如在搜索引擎中提出一個(gè)問(wèn)題,用戶(hù)可以不需要打開(kāi)網(wǎng)頁(yè),直觀的得到答案。

      第二大方向是語(yǔ)義理解,實(shí)際上從最初期開(kāi)始,NLP 就一直在致力于這樣的一個(gè)方向。在原來(lái)的搜索時(shí)代,會(huì)分析用戶(hù)的搜索 Query 含義是什么。到今天新的產(chǎn)品形態(tài)產(chǎn)生之后,已經(jīng)不僅僅是分析搜索的意圖。越來(lái)越多的用戶(hù)會(huì)開(kāi)始嘗試有上下文的、更積極的交互方式,這就需要有上下文的理解。

      第三個(gè)方向是對(duì)話(huà)系統(tǒng)。對(duì)話(huà)系統(tǒng)就是讓機(jī)器能像人一樣,和用戶(hù)有對(duì)話(huà)性質(zhì)的交互。NLP 過(guò)去幾年一直在積累相應(yīng)的技術(shù),通過(guò)對(duì)話(huà)引導(dǎo)讓用戶(hù)和機(jī)器人能一句一句的交流下去。這部分實(shí)際上已經(jīng)應(yīng)用在百度的度秘產(chǎn)品中。

      第四個(gè)就是機(jī)器翻譯。百度在機(jī)器翻譯上已有 6 年的積累,每天有大量用戶(hù)使用線(xiàn)上機(jī)器翻譯產(chǎn)品,翻譯 API 也有很多外部的企業(yè)開(kāi)發(fā)者在使用。從 2014 年開(kāi)始,百度嘗試做基于神經(jīng)網(wǎng)絡(luò)的翻譯系統(tǒng),正式上線(xiàn)發(fā)布時(shí)間要早于 Google 一年。并且我們?cè)诎l(fā)布的同時(shí),還開(kāi)發(fā)了離線(xiàn)版本,可以在手機(jī)上使用。

      還有一些是更前瞻的探索。比如小度機(jī)器人。機(jī)器人能看、能寫(xiě)、能聽(tīng),和人相比它還需要一個(gè)特別重要的能力就是思考。思考的前提,是先能聽(tīng)得懂語(yǔ)言。所以從 NLP 角度來(lái)說(shuō),更多的是希望機(jī)器人能懂語(yǔ)言、理解語(yǔ)言,然后能夠跟人交流。那這款小度機(jī)器人,過(guò)去的幾年也有頻繁的亮相。

      領(lǐng)導(dǎo)百度 NLP 工作的百度副總裁王海峰博士,已于近日當(dāng)選 ACL Fellow

      機(jī)器之心:谷歌最近發(fā)布了神經(jīng)網(wǎng)絡(luò)翻譯系統(tǒng),我們?cè)趺纯催@個(gè)系統(tǒng)?

      答:Google 發(fā)布的系統(tǒng)綜合了 NMT(Neural Machine Translation,神經(jīng)機(jī)器翻譯)領(lǐng)域近年來(lái)的研究成果。其所使用的 Seq2Seq 翻譯模型、Attention 機(jī)制、以及深層 LSTM,在此前已有 Bengio 團(tuán)隊(duì)等多篇論文提及,從 Google 發(fā)布的論文的參考文獻(xiàn)中可以看到。

      此外,Google 針對(duì)大數(shù)據(jù)和深層模型的訓(xùn)練,進(jìn)行了諸多工程方面的優(yōu)化。例如,其使用了自身研發(fā)的針對(duì)深度學(xué)習(xí)的計(jì)算機(jī)器—TPU,加速了訓(xùn)練和解碼。

      機(jī)器之心:那么百度是否有相關(guān)的研究?

      答:百度在這方面的研究起步很早,成果也非常多。而且,我們的神經(jīng)網(wǎng)絡(luò)翻譯系統(tǒng)早在 2015 年 5 月就正式上線(xiàn)發(fā)布了。

      我們從 2014 年開(kāi)始便嘗試做基于神經(jīng)網(wǎng)絡(luò)的翻譯系統(tǒng),2015 年發(fā)布在線(xiàn)翻譯系統(tǒng)的時(shí),BLEU(Bilingual Evaluation Understudy)指標(biāo)已經(jīng)比傳統(tǒng)的 SMT(統(tǒng)計(jì)機(jī)器翻譯)系統(tǒng)高六、七個(gè)點(diǎn)。我們同時(shí)還開(kāi)發(fā)了離線(xiàn)版本,可以在手機(jī)上使用,

      當(dāng)時(shí)學(xué)術(shù)界對(duì)于深度學(xué)習(xí)的翻譯方法到底是否實(shí)用還有一番爭(zhēng)論,我們很早就發(fā)現(xiàn)基于 Attention 機(jī)制的 Seq2Seq 深度學(xué)習(xí)模型是有用的,經(jīng)過(guò)多次實(shí)驗(yàn)驗(yàn)證,在很多集合上超過(guò)了傳統(tǒng)方法。同時(shí),針對(duì) NMT 本身存在的一些問(wèn)題,進(jìn)行了技術(shù)攻關(guān),短短 3 個(gè)月的時(shí)間便完成了開(kāi)發(fā)和上線(xiàn)。當(dāng)大家還在討論 Attention 機(jī)制時(shí),我們已經(jīng)結(jié)合了原有的統(tǒng)計(jì)方法上線(xiàn)?梢哉f(shuō),百度翻譯是全球首個(gè)互聯(lián)網(wǎng)神經(jīng)網(wǎng)絡(luò)翻譯系統(tǒng)。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    [編號(hào): ]
    分享到微信

    即時(shí)

    新聞

    明火炊具市場(chǎng):三季度健康屬性貫穿全類(lèi)目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線(xiàn)上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開(kāi)“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶(hù)就打進(jìn)了21600元。

    3C消費(fèi)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實(shí)力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來(lái)實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性?xún)r(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。

    研究

    中國(guó)信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專(zhuān)題論壇在沈陽(yáng)成功舉辦。