66元搶爆款A(yù)R眼鏡!京東AR眼鏡超級新品日30天無憂適用等你來攜手共進(jìn),智啟未來 —— 華為與CypressTel賽柏特成立 SD-WAN 聯(lián)合創(chuàng)新實驗合合信息成功IPO開啟新篇章全球首款第二代酷睿Ultra處理器筆記本!聯(lián)想YOGA Air 15 Aura AI元啟版開啟預(yù)售中國品牌,讓東南亞感受“消費升級”小紅書本地“坐抖望團(tuán)”CrowdStrike“全球滅霸響指”事件后續(xù),德國 10% 企業(yè)更換安全供應(yīng)商導(dǎo)致 1TB 數(shù)據(jù)泄露后,迪士尼宣布棄用 Slack 平臺合合信息啟信產(chǎn)業(yè)大腦攜手市北新區(qū)打造“一企一畫像”平臺,加速數(shù)字化轉(zhuǎn)型重慶:力爭今年智能網(wǎng)聯(lián)新能源汽車產(chǎn)量突破 100 萬輛,到 2027 年建成萬億級產(chǎn)業(yè)集群微信iOS最新版上線:iPhone用戶可在朋友圈發(fā)實況照片了蘋果有線耳機(jī)或?qū)⑼.a(chǎn)沖上熱搜!閑魚相關(guān)搜索量暴漲384%2024 vivo開發(fā)者大會官宣:OriginOS 5/自研藍(lán)河系統(tǒng)2降臨真·AI程序員來了,阿里云「通義靈碼」全面進(jìn)化,全流程開發(fā)僅用幾分鐘東方甄選烤腸全網(wǎng)銷量及銷售額領(lǐng)先鴻蒙PC要來了 界面很漂亮!余承東:目前華為PC將是最后一批搭載Windows上半年中國AR/VR出貨23.3萬臺,同比下滑了 29.1%IDC:2024 上半年中國 AR / VR 頭顯出貨 23.3 萬臺,同比下滑 29.1%英特爾AI加速器Gaudi3下周發(fā)布,挑戰(zhàn)NVIDIA統(tǒng)治地位!大屏技術(shù)邂逅千年色彩美學(xué)!海信激光電視成為電影《只此青綠》官方合作伙伴
  • 首頁 > 延展閱讀 > 2016歸檔

    百度 NLP:先解決語義理解,再談機(jī)器翻譯取代人類

    2016年12月06日 13:44:27   來源:機(jī)器之心

      9 月 28 日,Google 在 Research Blog 中介紹其神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng)(GNMT)進(jìn)展,譯文質(zhì)量的大幅提升引發(fā)業(yè)內(nèi)極大關(guān)注。據(jù)稱,在雙語評估者的幫助下,通過對維基百科和新聞網(wǎng)站的例句測定,在多個樣本的翻譯中谷歌神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng)將錯誤降低了 55-85%甚至更多。

      翻譯質(zhì)量對比,來自 Google Research Blog

      即便如此,網(wǎng)友發(fā)現(xiàn)其翻譯效果雖有顯著提升,但仍未避免將「我想下班」翻譯為「I want to work」等低級錯誤(第二天已被修復(fù))。

      事實上百度的在線翻譯系統(tǒng),一年前就應(yīng)用了基于神經(jīng)網(wǎng)絡(luò)的翻譯方法(NMT)。去年百度曾在 ACL 會議上發(fā)表論文《Multi-Task Learning for Multiple Language Translation》,探討用 NMT 技術(shù)解決多語言翻譯及語料稀疏的問題。該論文得到業(yè)內(nèi)研究人員的極大關(guān)注,并被 ACL2016 的 NMT Tutorial 列為研究方向。Google 和 Bengio 的研究團(tuán)隊都在此論文的基礎(chǔ)上進(jìn)一步擴(kuò)展了研究。

      為此,機(jī)器之心專訪百度自然語言處理部技術(shù)負(fù)責(zé)人吳華、高級總監(jiān)吳甜,就神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng)的優(yōu)缺點、如何獲得高質(zhì)量訓(xùn)練數(shù)據(jù)及百度翻譯目前進(jìn)展展開話題。同時也借此機(jī)會了解百度自然語言處理部及其開展的 NLP 技術(shù)研發(fā)工作。以下為采訪內(nèi)容整理,以饗讀者。

      NMT、SMT 的優(yōu)與缺

      機(jī)器之心:能請您先介紹一下百度 NLP 部門嗎?

      答:百度 NLP 部門在公司內(nèi)部是具有較長歷史的部門,從最初搜索誕生時,就已經(jīng)有 NLP 方面的工作。2010年初,百度正式成立自然語言處理部。現(xiàn)在,這個團(tuán)隊人員構(gòu)成非常多元,有自然語言處理、機(jī)器學(xué)習(xí)、信息檢索、數(shù)據(jù)挖掘、機(jī)器翻譯等多領(lǐng)域的專業(yè)性人才,擅長工程實踐和擅長科學(xué)研究的人才都能夠在團(tuán)隊中發(fā)揮重要作用。同時,架構(gòu)開發(fā)、前端開發(fā)、客戶端等軟件開發(fā)和硬件開發(fā)工程師,產(chǎn)品設(shè)計及語言學(xué)專業(yè)人才也是團(tuán)隊的重要組成部分。

      整個部門的大方向有幾個。第一是為百度的眾多產(chǎn)品提供最基礎(chǔ)的、NLP 模型算法,包括百度所有產(chǎn)品都在用的分詞算法、專名識別、詞性分析、語義理解、篇章理解等等一些基礎(chǔ)的一些工具。目前 NLP 部門為整個公司提供一個大型平臺 NLP 云,未來這個平臺也會對公司外有所開放,目前(這個平臺)每天都有千億量級的調(diào)動量。還有貼近應(yīng)用的一些大型的應(yīng)用系統(tǒng),比如說深度問答系統(tǒng)。NLP 開發(fā)的深度問答系統(tǒng)在百度的搜索產(chǎn)品上,會有一些直接展示。比如在搜索引擎中提出一個問題,用戶可以不需要打開網(wǎng)頁,直觀的得到答案。

      第二大方向是語義理解,實際上從最初期開始,NLP 就一直在致力于這樣的一個方向。在原來的搜索時代,會分析用戶的搜索 Query 含義是什么。到今天新的產(chǎn)品形態(tài)產(chǎn)生之后,已經(jīng)不僅僅是分析搜索的意圖。越來越多的用戶會開始嘗試有上下文的、更積極的交互方式,這就需要有上下文的理解。

      第三個方向是對話系統(tǒng)。對話系統(tǒng)就是讓機(jī)器能像人一樣,和用戶有對話性質(zhì)的交互。NLP 過去幾年一直在積累相應(yīng)的技術(shù),通過對話引導(dǎo)讓用戶和機(jī)器人能一句一句的交流下去。這部分實際上已經(jīng)應(yīng)用在百度的度秘產(chǎn)品中。

      第四個就是機(jī)器翻譯。百度在機(jī)器翻譯上已有 6 年的積累,每天有大量用戶使用線上機(jī)器翻譯產(chǎn)品,翻譯 API 也有很多外部的企業(yè)開發(fā)者在使用。從 2014 年開始,百度嘗試做基于神經(jīng)網(wǎng)絡(luò)的翻譯系統(tǒng),正式上線發(fā)布時間要早于 Google 一年。并且我們在發(fā)布的同時,還開發(fā)了離線版本,可以在手機(jī)上使用。

      還有一些是更前瞻的探索。比如小度機(jī)器人。機(jī)器人能看、能寫、能聽,和人相比它還需要一個特別重要的能力就是思考。思考的前提,是先能聽得懂語言。所以從 NLP 角度來說,更多的是希望機(jī)器人能懂語言、理解語言,然后能夠跟人交流。那這款小度機(jī)器人,過去的幾年也有頻繁的亮相。

      領(lǐng)導(dǎo)百度 NLP 工作的百度副總裁王海峰博士,已于近日當(dāng)選 ACL Fellow

      機(jī)器之心:谷歌最近發(fā)布了神經(jīng)網(wǎng)絡(luò)翻譯系統(tǒng),我們怎么看這個系統(tǒng)?

      答:Google 發(fā)布的系統(tǒng)綜合了 NMT(Neural Machine Translation,神經(jīng)機(jī)器翻譯)領(lǐng)域近年來的研究成果。其所使用的 Seq2Seq 翻譯模型、Attention 機(jī)制、以及深層 LSTM,在此前已有 Bengio 團(tuán)隊等多篇論文提及,從 Google 發(fā)布的論文的參考文獻(xiàn)中可以看到。

      此外,Google 針對大數(shù)據(jù)和深層模型的訓(xùn)練,進(jìn)行了諸多工程方面的優(yōu)化。例如,其使用了自身研發(fā)的針對深度學(xué)習(xí)的計算機(jī)器—TPU,加速了訓(xùn)練和解碼。

      機(jī)器之心:那么百度是否有相關(guān)的研究?

      答:百度在這方面的研究起步很早,成果也非常多。而且,我們的神經(jīng)網(wǎng)絡(luò)翻譯系統(tǒng)早在 2015 年 5 月就正式上線發(fā)布了。

      我們從 2014 年開始便嘗試做基于神經(jīng)網(wǎng)絡(luò)的翻譯系統(tǒng),2015 年發(fā)布在線翻譯系統(tǒng)的時,BLEU(Bilingual Evaluation Understudy)指標(biāo)已經(jīng)比傳統(tǒng)的 SMT(統(tǒng)計機(jī)器翻譯)系統(tǒng)高六、七個點。我們同時還開發(fā)了離線版本,可以在手機(jī)上使用,

      當(dāng)時學(xué)術(shù)界對于深度學(xué)習(xí)的翻譯方法到底是否實用還有一番爭論,我們很早就發(fā)現(xiàn)基于 Attention 機(jī)制的 Seq2Seq 深度學(xué)習(xí)模型是有用的,經(jīng)過多次實驗驗證,在很多集合上超過了傳統(tǒng)方法。同時,針對 NMT 本身存在的一些問題,進(jìn)行了技術(shù)攻關(guān),短短 3 個月的時間便完成了開發(fā)和上線。當(dāng)大家還在討論 Attention 機(jī)制時,我們已經(jīng)結(jié)合了原有的統(tǒng)計方法上線。可以說,百度翻譯是全球首個互聯(lián)網(wǎng)神經(jīng)網(wǎng)絡(luò)翻譯系統(tǒng)。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。

    [編號: ]
    分享到微信

    即時

    TCL實業(yè)榮獲IFA2024多項大獎,展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產(chǎn)品設(shè)計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強(qiáng)大影響力。

    新聞

    敢闖技術(shù)無人區(qū) TCL實業(yè)斬獲多項AWE 2024艾普蘭獎

    近日,中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項AWE 2024艾普蘭大獎。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費

    “純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

    2024年3月12日,由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會在上海盛大舉行。

    研究

    2024全球開發(fā)者先鋒大會即將開幕

    由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。