Meta新模型NLLB獲Nature盛贊，200種瀕危語言高質(zhì)量翻譯，「不讓任何語言掉隊」

2024年06月17日 09:09:32 來源：新智元公眾號

　　Meta AI的NLLB-200登上Nature，「不讓任何一門語言掉隊」，能翻譯200種語言的大模型獲得Nature社論的盛贊——復興了瀕臨滅絕的語言，但是Nature研究人員也鄭重提醒Meta，必須將使用這些語言的社區(qū)也納入進來，才會真正減緩語言的消亡。

　　Meta AI剛剛在社交媒體X上宣傳自家的大模型NLLB，全稱為No Language Left Behind，這個AI模型能夠翻譯200種語言，包括資源匱乏的語言。

　　更重要的是，NLLB模型可以免費提供給非商業(yè)用途。

　　這項研究刊登在了本周的Nature上，題為「Scalling neural machine translations to200languages」。

　　No Language Left Behind，意為「不讓任何一門語言掉隊」，是非常有人文關(guān)懷的技術(shù)描述。

　　Nature的社論也著重強調(diào)了這一點，發(fā)表了評論文章，稱贊Meta的這次發(fā)布。

　　縮小語言之間的數(shù)字鴻溝

　　在全世界使用的近7000種語言中，大約有一半被認為面臨滅絕的危險，一項研究預測，語言消亡的速度可能會在40年內(nèi)增加兩倍。

　　少數(shù)語言在互聯(lián)網(wǎng)上占據(jù)主導地位，據(jù)統(tǒng)計，一半以上的網(wǎng)站都是英文的，前十種語言占據(jù)了80%以上的互聯(lián)網(wǎng)內(nèi)容。

　　NLLB模型最大的價值在于，它提供了一種擴大「資源匱乏」型語言機器翻譯規(guī)模的方法，這些資源匱乏的語言幾乎沒有可獲取的數(shù)字資源。

　　通過艱辛的努力，Meta技術(shù)人員開墾了大片「無人區(qū)」——在它現(xiàn)在可以互翻的200多種語言中，許多語言是第一次被機器翻譯。

　　包括南非的茨瓦納語、達里語，阿富汗所使用的一種波斯語，波利尼亞的薩摩亞語等等。

　　這是非常有建設(shè)性的事業(yè)，因為這有助于縮小這些被忽視的語言與在線的更流行的語言(例如英語、法語和俄語)之間的數(shù)字鴻溝。

　　它可以讓資源匱乏語言的使用者能夠用他們的母語在線獲取知識，并可能通過引導這些語言進入數(shù)字時代來避免它們的滅絕。

　　人類專家助力NLLB

　　NLLB模型的研發(fā)團隊來自Meta AI、加州大學伯克利分校和約翰霍普金斯大學。

　　這些出色的科學家們共同開展了這個「不讓任何一門語言掉隊」計劃，他們選取了維基百科文章中出現(xiàn)的語言，但在線可用的示例翻譯句子不足100萬個。

　　這項工作將之前迭代的語言數(shù)量增加了一倍，并提高了翻譯質(zhì)量。

　　NLLB團隊聘用了專業(yè)譯員和審校人員，創(chuàng)建了39種語言的「種子」數(shù)據(jù)集，并開發(fā)了一種技術(shù)，使他們能夠挖掘網(wǎng)絡(luò)數(shù)據(jù)，創(chuàng)建其余語言的并行數(shù)據(jù)集。

　　他們還為每種語言生成了一個包含約200個「有毒」詞匯的列表，以識別可能構(gòu)成仇恨言論的翻譯。

　　人類專家的參與既耗時又昂貴，但卻至關(guān)重要。如果沒有他們，算法將只能使用AI生成的低質(zhì)量數(shù)據(jù)進行訓練，然后在迭代過程中重復這些低質(zhì)量和錯誤內(nèi)容，進一步降低模型表現(xiàn)。

　　沒有參與Meta AI計劃的英國愛丁堡大學民族學/語言學教授William Lamb表示，這種情況已經(jīng)發(fā)生在蘇格蘭蓋爾語中，這個語言的大多數(shù)在線內(nèi)容都是由人工智能生成的。

　　蘇格蘭蓋爾語是Meta計劃中資源較少的語言之一，好在其內(nèi)容都是經(jīng)過專業(yè)翻譯的。

　　對于缺乏某些詞匯的語言來說，人類的專業(yè)知識也很重要。

　　例如，許多非洲語言沒有專門的科學概念術(shù)語。Decolonise Science研究項目聘用專業(yè)翻譯人員將180篇科學論文翻譯成6種非洲語言。

　　該項目由Masakhane發(fā)起，這是一個由對自然語言處理感興趣的研究人員組成的基層組織。

　　模型架構(gòu)與性能

　　NLLB是一種利用跨語言遷移學習的單一大規(guī)模多語言模型，NLLB開發(fā)了一個基于稀疏門控混合專家(Sparsely Gated Mixture of Experts)架構(gòu)的條件計算模型，使用針對資源匱乏語言定制的新挖掘技術(shù)獲得的數(shù)據(jù)進行訓練。

　　此外，團隊還設(shè)計了多項架構(gòu)和訓練改進，以在對數(shù)千項任務進行訓練時抵消過度擬合。

　　為了檢測模型的性能，團隊使用了專門創(chuàng)建的工具——自動基準(FLORES-200)、人工評估指標(XSTS)和涵蓋模型中全部語言的「毒性」檢測器，評估了超過4萬個翻譯方向。

　　與之前的SOTA相比，根據(jù)BLEU(Bilingual Evaluation Understudy，一種基于分數(shù)的雙語評估方法)評分，NLLB模型翻譯質(zhì)量平均提高了44%。

　　NLLB成功地將神經(jīng)機器翻譯(NMT)擴展到了200種語言，并將這項工作中的所有發(fā)現(xiàn)免費提供給非商業(yè)用途，為通用翻譯系統(tǒng)的開發(fā)奠定了重要的基礎(chǔ)。

　　NLLB-200首次面世是在2022，自被推出以來，我們已經(jīng)可以看到該模型在多個方向上的影響。

　　維基媒體報道稱，NLLB是維基百科編輯使用的第三大機器翻譯引擎(占所有已發(fā)布翻譯的3.8%)。與其他機器翻譯服務相比，使用NLLB-200翻譯的文章刪除率最低(0.13%)，翻譯修改率最高不到10%。

　　模型發(fā)布之后——必不可少的社區(qū)互動

　　自動化翻譯方法確實可以為資源匱乏的語言帶來活力，但前提是大模型的研發(fā)公司能夠與使用這些語言的人持續(xù)進行互動。

　　機器學習模型的好壞取決于它們所輸入的數(shù)據(jù)——這些數(shù)據(jù)主要由人類創(chuàng)建，而光靠專家的翻譯，是遠遠供不應求的。

　　這也是研究人員和技術(shù)公司必須將使用這些語言的社區(qū)納入進來的原因之一。不僅是在創(chuàng)建機器翻譯系統(tǒng)的過程中，也包括用戶使用這些系統(tǒng)的過程，以反映真實情境下的人們?nèi)绾问褂眠@些語言。

　　Nature的研究人員表示，隨著機器翻譯工具的發(fā)展，其背后的公司必須繼續(xù)與技術(shù)所服務的社區(qū)互動，否則就有可能浪費該技術(shù)的承諾。

　　他們擔心如果大公司不這樣做，會加速這些語言及其相關(guān)文化的消亡。

　　如果沒有真實語言社區(qū)的參與，機器翻譯工作可能會成為另一種形式的「降落傘科學」(parachute science)，即高收入國家的研究人員對低收入國家的社區(qū)的利用。

　　加拿大溫哥華島北島學院的語言復興專家、Kwakwaka'wakw族人Sara Child表示——

　　「這些詞語、句子和交流都沒有了語言中編碼的價值觀和信仰。隨著人工智能將更多語言推向數(shù)字空間，我擔心我們會失去更多自我」。

　　在急于建立通用翻譯系統(tǒng)的過程中，我們絕不能忽視人的因素。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹慎對待。投資者據(jù)此操作，風險自擔。

[No. ]
分享到微信

即時

BenQ DesignVue攜新品重磅亮相「創(chuàng)意界奧斯卡」Adobe Max

2024年的Adobe MAX 2024發(fā)布會上，Adobe推出了最新版本的Adobe Creative Cloud。

游戲體驗天花板一加Ace 5系列正式定檔12月26日

“耐玩戰(zhàn)神”真我Neo7今日開售：2099元起，堅持質(zhì)價比不動

感谢您访问我们的网站，您可能还对以下资源感兴趣：
台湾中文娱乐网

Meta新模型NLLB獲Nature盛贊，200種瀕危語言高質(zhì)量翻譯，「不讓任何語言掉隊」

即時

BenQ DesignVue攜新品重磅亮相「創(chuàng)意界奧斯卡」Adobe Max

新聞

明火炊具市場：三季度健康屬性貫穿全類目

企業(yè)IT

重慶創(chuàng)新公積金應用，“區(qū)塊鏈+政務服務”顯成效

3C消費

華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器，高能實力，創(chuàng)

研究

中國信通院羅松：深度解讀《工業(yè)互聯(lián)網(wǎng)標識解析體系

專題

Meta新模型NLLB獲Nature盛贊，200種瀕危語言高質(zhì)量翻譯，「不讓任何語言掉隊」

擴展閱讀

Meta新模型NLLB獲Nature盛贊，200種瀕危語言高質(zhì)量翻譯，「不讓任何語言掉隊」