9 月 28 日,Google 在 Research Blog 中介紹其神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng)(GNMT)進(jìn)展,譯文質(zhì)量的大幅提升引發(fā)業(yè)內(nèi)極大關(guān)注。據(jù)稱(chēng),在雙語(yǔ)評(píng)估者的幫助下,通過(guò)對(duì)維基百科和新聞網(wǎng)站的例句測(cè)定,在多個(gè)樣本的翻譯中谷歌神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng)將錯(cuò)誤降低了 55-85%甚至更多。
翻譯質(zhì)量對(duì)比,來(lái)自 Google Research Blog
即便如此,網(wǎng)友發(fā)現(xiàn)其翻譯效果雖有顯著提升,但仍未避免將「我想下班」翻譯為「I want to work」等低級(jí)錯(cuò)誤(第二天已被修復(fù))。
事實(shí)上百度的在線(xiàn)翻譯系統(tǒng),一年前就應(yīng)用了基于神經(jīng)網(wǎng)絡(luò)的翻譯方法(NMT)。去年百度曾在 ACL 會(huì)議上發(fā)表論文《Multi-Task Learning for Multiple Language Translation》,探討用 NMT 技術(shù)解決多語(yǔ)言翻譯及語(yǔ)料稀疏的問(wèn)題。該論文得到業(yè)內(nèi)研究人員的極大關(guān)注,并被 ACL2016 的 NMT Tutorial 列為研究方向。Google 和 Bengio 的研究團(tuán)隊(duì)都在此論文的基礎(chǔ)上進(jìn)一步擴(kuò)展了研究。
為此,機(jī)器之心專(zhuān)訪(fǎng)百度自然語(yǔ)言處理部技術(shù)負(fù)責(zé)人吳華、高級(jí)總監(jiān)吳甜,就神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng)的優(yōu)缺點(diǎn)、如何獲得高質(zhì)量訓(xùn)練數(shù)據(jù)及百度翻譯目前進(jìn)展展開(kāi)話(huà)題。同時(shí)也借此機(jī)會(huì)了解百度自然語(yǔ)言處理部及其開(kāi)展的 NLP 技術(shù)研發(fā)工作。以下為采訪(fǎng)內(nèi)容整理,以饗讀者。
NMT、SMT 的優(yōu)與缺
機(jī)器之心:能請(qǐng)您先介紹一下百度 NLP 部門(mén)嗎?
答:百度 NLP 部門(mén)在公司內(nèi)部是具有較長(zhǎng)歷史的部門(mén),從最初搜索誕生時(shí),就已經(jīng)有 NLP 方面的工作。2010年初,百度正式成立自然語(yǔ)言處理部,F(xiàn)在,這個(gè)團(tuán)隊(duì)人員構(gòu)成非常多元,有自然語(yǔ)言處理、機(jī)器學(xué)習(xí)、信息檢索、數(shù)據(jù)挖掘、機(jī)器翻譯等多領(lǐng)域的專(zhuān)業(yè)性人才,擅長(zhǎng)工程實(shí)踐和擅長(zhǎng)科學(xué)研究的人才都能夠在團(tuán)隊(duì)中發(fā)揮重要作用。同時(shí),架構(gòu)開(kāi)發(fā)、前端開(kāi)發(fā)、客戶(hù)端等軟件開(kāi)發(fā)和硬件開(kāi)發(fā)工程師,產(chǎn)品設(shè)計(jì)及語(yǔ)言學(xué)專(zhuān)業(yè)人才也是團(tuán)隊(duì)的重要組成部分。
整個(gè)部門(mén)的大方向有幾個(gè)。第一是為百度的眾多產(chǎn)品提供最基礎(chǔ)的、NLP 模型算法,包括百度所有產(chǎn)品都在用的分詞算法、專(zhuān)名識(shí)別、詞性分析、語(yǔ)義理解、篇章理解等等一些基礎(chǔ)的一些工具。目前 NLP 部門(mén)為整個(gè)公司提供一個(gè)大型平臺(tái) NLP 云,未來(lái)這個(gè)平臺(tái)也會(huì)對(duì)公司外有所開(kāi)放,目前(這個(gè)平臺(tái))每天都有千億量級(jí)的調(diào)動(dòng)量。還有貼近應(yīng)用的一些大型的應(yīng)用系統(tǒng),比如說(shuō)深度問(wèn)答系統(tǒng)。NLP 開(kāi)發(fā)的深度問(wèn)答系統(tǒng)在百度的搜索產(chǎn)品上,會(huì)有一些直接展示。比如在搜索引擎中提出一個(gè)問(wèn)題,用戶(hù)可以不需要打開(kāi)網(wǎng)頁(yè),直觀的得到答案。
第二大方向是語(yǔ)義理解,實(shí)際上從最初期開(kāi)始,NLP 就一直在致力于這樣的一個(gè)方向。在原來(lái)的搜索時(shí)代,會(huì)分析用戶(hù)的搜索 Query 含義是什么。到今天新的產(chǎn)品形態(tài)產(chǎn)生之后,已經(jīng)不僅僅是分析搜索的意圖。越來(lái)越多的用戶(hù)會(huì)開(kāi)始嘗試有上下文的、更積極的交互方式,這就需要有上下文的理解。
第三個(gè)方向是對(duì)話(huà)系統(tǒng)。對(duì)話(huà)系統(tǒng)就是讓機(jī)器能像人一樣,和用戶(hù)有對(duì)話(huà)性質(zhì)的交互。NLP 過(guò)去幾年一直在積累相應(yīng)的技術(shù),通過(guò)對(duì)話(huà)引導(dǎo)讓用戶(hù)和機(jī)器人能一句一句的交流下去。這部分實(shí)際上已經(jīng)應(yīng)用在百度的度秘產(chǎn)品中。
第四個(gè)就是機(jī)器翻譯。百度在機(jī)器翻譯上已有 6 年的積累,每天有大量用戶(hù)使用線(xiàn)上機(jī)器翻譯產(chǎn)品,翻譯 API 也有很多外部的企業(yè)開(kāi)發(fā)者在使用。從 2014 年開(kāi)始,百度嘗試做基于神經(jīng)網(wǎng)絡(luò)的翻譯系統(tǒng),正式上線(xiàn)發(fā)布時(shí)間要早于 Google 一年。并且我們?cè)诎l(fā)布的同時(shí),還開(kāi)發(fā)了離線(xiàn)版本,可以在手機(jī)上使用。
還有一些是更前瞻的探索。比如小度機(jī)器人。機(jī)器人能看、能寫(xiě)、能聽(tīng),和人相比它還需要一個(gè)特別重要的能力就是思考。思考的前提,是先能聽(tīng)得懂語(yǔ)言。所以從 NLP 角度來(lái)說(shuō),更多的是希望機(jī)器人能懂語(yǔ)言、理解語(yǔ)言,然后能夠跟人交流。那這款小度機(jī)器人,過(guò)去的幾年也有頻繁的亮相。
領(lǐng)導(dǎo)百度 NLP 工作的百度副總裁王海峰博士,已于近日當(dāng)選 ACL Fellow
機(jī)器之心:谷歌最近發(fā)布了神經(jīng)網(wǎng)絡(luò)翻譯系統(tǒng),我們?cè)趺纯催@個(gè)系統(tǒng)?
答:Google 發(fā)布的系統(tǒng)綜合了 NMT(Neural Machine Translation,神經(jīng)機(jī)器翻譯)領(lǐng)域近年來(lái)的研究成果。其所使用的 Seq2Seq 翻譯模型、Attention 機(jī)制、以及深層 LSTM,在此前已有 Bengio 團(tuán)隊(duì)等多篇論文提及,從 Google 發(fā)布的論文的參考文獻(xiàn)中可以看到。
此外,Google 針對(duì)大數(shù)據(jù)和深層模型的訓(xùn)練,進(jìn)行了諸多工程方面的優(yōu)化。例如,其使用了自身研發(fā)的針對(duì)深度學(xué)習(xí)的計(jì)算機(jī)器—TPU,加速了訓(xùn)練和解碼。
機(jī)器之心:那么百度是否有相關(guān)的研究?
答:百度在這方面的研究起步很早,成果也非常多。而且,我們的神經(jīng)網(wǎng)絡(luò)翻譯系統(tǒng)早在 2015 年 5 月就正式上線(xiàn)發(fā)布了。
我們從 2014 年開(kāi)始便嘗試做基于神經(jīng)網(wǎng)絡(luò)的翻譯系統(tǒng),2015 年發(fā)布在線(xiàn)翻譯系統(tǒng)的時(shí),BLEU(Bilingual Evaluation Understudy)指標(biāo)已經(jīng)比傳統(tǒng)的 SMT(統(tǒng)計(jì)機(jī)器翻譯)系統(tǒng)高六、七個(gè)點(diǎn)。我們同時(shí)還開(kāi)發(fā)了離線(xiàn)版本,可以在手機(jī)上使用,
當(dāng)時(shí)學(xué)術(shù)界對(duì)于深度學(xué)習(xí)的翻譯方法到底是否實(shí)用還有一番爭(zhēng)論,我們很早就發(fā)現(xiàn)基于 Attention 機(jī)制的 Seq2Seq 深度學(xué)習(xí)模型是有用的,經(jīng)過(guò)多次實(shí)驗(yàn)驗(yàn)證,在很多集合上超過(guò)了傳統(tǒng)方法。同時(shí),針對(duì) NMT 本身存在的一些問(wèn)題,進(jìn)行了技術(shù)攻關(guān),短短 3 個(gè)月的時(shí)間便完成了開(kāi)發(fā)和上線(xiàn)。當(dāng)大家還在討論 Attention 機(jī)制時(shí),我們已經(jīng)結(jié)合了原有的統(tǒng)計(jì)方法上線(xiàn)?梢哉f(shuō),百度翻譯是全球首個(gè)互聯(lián)網(wǎng)神經(jīng)網(wǎng)絡(luò)翻譯系統(tǒng)。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
2024年的Adobe MAX 2024發(fā)布會(huì)上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線(xiàn)上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開(kāi)“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶(hù)就打進(jìn)了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來(lái)實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性?xún)r(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專(zhuān)題論壇在沈陽(yáng)成功舉辦。