機(jī)器之心:NMT(基于神經(jīng)網(wǎng)絡(luò)的翻譯系統(tǒng))效果就真的好于 SMT(基于統(tǒng)計(jì)的翻譯系統(tǒng))嗎?或者說(shuō)他會(huì)在哪個(gè)方面會(huì)好于 SMT 呢?
答:機(jī)器翻譯目前是兩大流派,一大流派是統(tǒng)計(jì)翻譯模型(SMT),在整個(gè)業(yè)界已經(jīng)持續(xù)了 20 多年的研究。另一個(gè)就是基于神經(jīng)網(wǎng)絡(luò)的翻譯模型(NMT),過(guò)去的兩年發(fā)展比較迅速。
從很多公開(kāi)的評(píng)測(cè)上能看出,基于神經(jīng)網(wǎng)絡(luò)的翻譯系統(tǒng)已經(jīng)取得了比以前系統(tǒng)更好的成績(jī)。這兩大翻譯系統(tǒng)我們一直在向前推進(jìn)研究?傮w上來(lái)說(shuō),基于神經(jīng)網(wǎng)絡(luò)的翻譯系統(tǒng),在長(zhǎng)句翻譯上有明顯優(yōu)勢(shì)。
機(jī)器之心:可以從技術(shù)角度具體解釋下嗎?
答:從整體看,在數(shù)據(jù)訓(xùn)練比較充分,比如有大數(shù)據(jù)集的時(shí)候,NMT 效果是好于 SMT 的。一句英文翻譯成一句中文,這算一個(gè)句對(duì)。如果中文和英文之間的雙語(yǔ)語(yǔ)料對(duì)有很多,那么 NMT 整體上好于 SMT。
原因就在于,SMT 以前用的都是局部信息,處理單位是句子切開(kāi)以后的短語(yǔ),最后解碼時(shí)將幾個(gè)短語(yǔ)聯(lián)系在一起,并沒(méi)有充分利用全局信息。NMT 則利用全局信息,整個(gè)句子的信息解碼后,才生成結(jié)果。這就是它的優(yōu)勢(shì),也是其在流暢性上更勝一籌的原因。
再進(jìn)一步,翻譯有一個(gè)很重要部分是「語(yǔ)序調(diào)整」。比如中文會(huì)把所有的定語(yǔ)都放在中心詞前面,英文則會(huì)把修飾中心詞的介詞短語(yǔ)放在后面,機(jī)器;煜@個(gè)順序。NMT 在語(yǔ)序?qū)W習(xí)上的優(yōu)勢(shì)也帶來(lái)了它翻譯的流暢性。
而 SMT 在短句或者數(shù)據(jù)較小的情況下,優(yōu)勢(shì)較為明顯。以成語(yǔ)翻譯為例,實(shí)際上不是意譯而是直譯,必須在語(yǔ)料庫(kù)中有對(duì)應(yīng)內(nèi)容才能翻譯出來(lái)。NMT 的翻譯過(guò)程決定了其有時(shí)不能很好的處理這類問(wèn)題。
如今互聯(lián)網(wǎng)用戶的需求是多種多樣的。翻譯涉及口語(yǔ)、簡(jiǎn)歷、新聞等多領(lǐng)域,一種方法很難滿足所有的需求。因此現(xiàn)在百度的翻譯系統(tǒng)中包含了 SMT、NMT,甚至還有傳統(tǒng)的 EBMT。所以,一個(gè)線上服務(wù)的翻譯系統(tǒng),其實(shí)是綜合的系統(tǒng)。
不過(guò)從整個(gè)大趨勢(shì)看,隨著神經(jīng)網(wǎng)絡(luò)技術(shù)的進(jìn)一步發(fā)展,它會(huì)越來(lái)越成為主流。目前在我們的中、英、日、韓等多個(gè)系統(tǒng)中,它就是主流。
機(jī)器之心:那么能否通過(guò)不斷增加網(wǎng)絡(luò)層數(shù)來(lái)提升 NMT 效果?
答:在網(wǎng)絡(luò)層數(shù)的增加過(guò)程中,成本、復(fù)雜度也隨之提升。并不是線性地增加網(wǎng)絡(luò)層數(shù),收益比就更高,我們會(huì)去繼續(xù)研究,但并不代表不斷增加層數(shù)就一定是好方法。
就翻譯本身這個(gè)任務(wù),現(xiàn)在有兩大問(wèn)題造成翻譯效果不好。一是在于,訓(xùn)練語(yǔ)料本身是有噪音的,我們花費(fèi)了大量時(shí)間和精力研究怎樣找到更好的訓(xùn)練語(yǔ)料,怎樣清洗出更好的語(yǔ)料。第二個(gè)是模型本身的不完美性,我們會(huì)不斷優(yōu)化。這兩大方面的工作都是我們的重點(diǎn)。
獲取數(shù)據(jù)與解決語(yǔ)料稀疏問(wèn)題
機(jī)器之心:剛才有提到 NMT 是非常依賴數(shù)據(jù)規(guī)模的,以及訓(xùn)練語(yǔ)料中的噪音問(wèn)題,如何獲得高質(zhì)量的訓(xùn)練數(shù)據(jù)?
答:我們能獲取的語(yǔ)料很多,比如網(wǎng)絡(luò)上存在的大量翻譯句對(duì),但這些數(shù)據(jù)存在三個(gè)問(wèn)題。
第一個(gè)在于它們可能是機(jī)器翻譯產(chǎn)生的語(yǔ)料。因?yàn)闄C(jī)器翻譯技術(shù)已經(jīng)比較普及,尤其是醫(yī)療方面有大量的機(jī)器翻譯產(chǎn)生的語(yǔ)料。由于國(guó)外的醫(yī)療研究比國(guó)內(nèi)先進(jìn),很多人會(huì)借助機(jī)器翻譯技術(shù)來(lái)看文檔。而這種語(yǔ)料若進(jìn)入語(yǔ)料庫(kù),翻譯系統(tǒng)學(xué)出來(lái)的還是機(jī)器翻譯的句子。
第二種噪聲是來(lái)自于惡搞。比如我們最早的時(shí)候看到「how old are you」,翻譯成「怎么老是你」。因?yàn)檎Z(yǔ)料里面「how old are you」,全是「怎么老是你」,出現(xiàn)頻次非常高。
第三種是翻譯得不地道的;ヂ(lián)網(wǎng)上翻譯內(nèi)容的人不一定是翻譯水平很高的人,他們?cè)诜g文章時(shí)會(huì)自己加入一些內(nèi)容。這種是比較難識(shí)別的,因?yàn)楹芰闵ⅰ?/p>
針對(duì)每一類噪聲,我們都會(huì)建立一個(gè)不同的質(zhì)量檢測(cè)模型,結(jié)合了翻譯自身的技術(shù)以及互聯(lián)網(wǎng)技術(shù)。機(jī)器翻譯的語(yǔ)料是不能用機(jī)器翻譯的概率特征過(guò)濾的,比如「how old are you」每個(gè)對(duì)齊,怎么(how)老(old)是(are)你(you),翻譯得特別完美肯定無(wú)法過(guò)濾。所以我們一般從網(wǎng)站本身的權(quán)威性著手,對(duì)于權(quán)威性低的,相應(yīng)高置信度就要打低。此外,我們還通過(guò)識(shí)別翻譯特征判斷其是否為機(jī)器翻譯語(yǔ)料,比如:流暢性不好、語(yǔ)序不對(duì)等等。
機(jī)器之心:不同語(yǔ)言的語(yǔ)料規(guī)模的差別較大,英語(yǔ)可能會(huì)多一些,小語(yǔ)種會(huì)少一些。如何將 NMT 的研究成果,應(yīng)用于不同語(yǔ)言語(yǔ)料的構(gòu)建中?
答:這其實(shí)是語(yǔ)料稀疏問(wèn)題。語(yǔ)料稀疏是 NLP 一直在面對(duì)的問(wèn)題,以前有一些解決方案,比如說(shuō): Transfer Learning(轉(zhuǎn)移性學(xué)習(xí))、機(jī)器翻譯的 Pivot-Language(樞軸語(yǔ)言)技術(shù)、標(biāo)簽傳播等技術(shù)。從一種語(yǔ)言翻譯到另外一種語(yǔ)言,即使同一種語(yǔ)言在不同領(lǐng)域的語(yǔ)料也是不一樣的,從這個(gè)領(lǐng)域遷移到另外一個(gè)領(lǐng)域,都需要解決語(yǔ)料的構(gòu)建問(wèn)題。
NMT 是可以應(yīng)用于此的,因?yàn)?NMT 本質(zhì)是把一種語(yǔ)言翻譯成另外一種語(yǔ)言。它的好處在于,不同語(yǔ)言之間可以互相學(xué)習(xí)他們的語(yǔ)義表示,比如中文的「看」,和英文的「See」(看見(jiàn))或者「Read」(看書(shū))。以相似度來(lái)計(jì)算,相似度高的就認(rèn)為它們擁有同樣的語(yǔ)義,可以用在不同語(yǔ)言的標(biāo)注上。
用來(lái)解決語(yǔ)料稀疏問(wèn)題的多任務(wù)學(xué)習(xí)框架,來(lái)自《Multi-Task Learning for Multiple Language Translation》
這樣說(shuō)可能有些抽象,舉例來(lái)說(shuō)我們?nèi)ツ暝?NLP 領(lǐng)域國(guó)際會(huì)議 ACL 上發(fā)表了一篇文章,講述用 NMT 解決語(yǔ)料稀疏的問(wèn)題。中文和英文之間的句對(duì)很多,但中文和其他語(yǔ)言如日文、泰文、西班牙文的句對(duì)就很少。怎么辦?我們同時(shí)學(xué)習(xí)。中文翻譯成英文、日文、韓文、泰語(yǔ)的句對(duì)都一起學(xué)習(xí),這樣就能充分利用中文在源語(yǔ)言端的表示。此外,還學(xué)習(xí)關(guān)聯(lián)知識(shí),韓語(yǔ)-日語(yǔ)之間結(jié)構(gòu)類似,從日語(yǔ)中學(xué)習(xí)到的結(jié)構(gòu)性信息適用于韓語(yǔ)翻譯。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
2024年的Adobe MAX 2024發(fā)布會(huì)上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開(kāi)“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來(lái)實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專題論壇在沈陽(yáng)成功舉辦。