正在逐步覆蓋!騰訊提醒勿為實況圖重裝微信:以免丟失微信聊天記錄iPhone16多款機(jī)型破發(fā):最高比官網(wǎng)便宜600元劉積仁不愛“湊熱鬧”,但東軟集團(tuán)喜歡“追風(fēng)口”快手電商新增近800個“0元開店”類目,推出多項新商入駐權(quán)益年內(nèi)狂攬五項第一,“字節(jié)系大模型”何以后發(fā)先至?科技云報到:有韌性才能更“任性”,云韌性構(gòu)筑業(yè)務(wù)最后一道防線阿里云盤出“BUG”客服回應(yīng):已修復(fù)圍剿BBA,比亞迪和騰勢也準(zhǔn)備出一份力阿里云服務(wù)器操作系統(tǒng)Alibaba Cloud Linux全新升級,核心場景性能提升超20%屏幕面板 10 月出貨,蘋果 M4 MacBook Air 被曝 2025Q1 發(fā)布蘋果史上最大:iPhone 16系列電池容量公布后移動互聯(lián)網(wǎng)時代,移動App兼容測試持續(xù)占據(jù)核心地位歐盟警告蘋果:六個月內(nèi)開放iPhone系統(tǒng) 否則重罰湖北省電子信息產(chǎn)業(yè)前8月實現(xiàn)營收5970億元,同比增長13.53%傳三星計劃2025年推出卷軸屏手機(jī)蘋果新專利探索折疊iPhone未來,任意表面實現(xiàn)觸敏控制蘋果iPhone16/Pro系列手機(jī)今日首銷,5999~9999元起各方媒體的聚焦關(guān)注,中南高科實力呈現(xiàn)高科“新質(zhì)”表現(xiàn)力拼多多解開了新疆的“包郵絕緣體”封印宏景智駕完成數(shù)億元C輪融資
  • 首頁 > 云計算頻道 > 大模型

    Meta新模型NLLB獲Nature盛贊,200種瀕危語言高質(zhì)量翻譯,「不讓任何語言掉隊」

    2024年06月17日 09:09:32   來源:新智元公眾號

      Meta AI的NLLB-200登上Nature,「不讓任何一門語言掉隊」,能翻譯200種語言的大模型獲得Nature社論的盛贊——復(fù)興了瀕臨滅絕的語言,但是Nature研究人員也鄭重提醒Meta,必須將使用這些語言的社區(qū)也納入進(jìn)來,才會真正減緩語言的消亡。

      Meta AI剛剛在社交媒體X上宣傳自家的大模型NLLB,全稱為No Language Left Behind,這個AI模型能夠翻譯200種語言,包括資源匱乏的語言。

      更重要的是,NLLB模型可以免費(fèi)提供給非商業(yè)用途。

      這項研究刊登在了本周的Nature上,題為「Scalling neural machine translations to200languages」。

      No Language Left Behind,意為「不讓任何一門語言掉隊」,是非常有人文關(guān)懷的技術(shù)描述。

      Nature的社論也著重強(qiáng)調(diào)了這一點,發(fā)表了評論文章,稱贊Meta的這次發(fā)布。

      縮小語言之間的數(shù)字鴻溝

      在全世界使用的近7000種語言中,大約有一半被認(rèn)為面臨滅絕的危險,一項研究預(yù)測,語言消亡的速度可能會在40年內(nèi)增加兩倍。

      少數(shù)語言在互聯(lián)網(wǎng)上占據(jù)主導(dǎo)地位,據(jù)統(tǒng)計,一半以上的網(wǎng)站都是英文的,前十種語言占據(jù)了80%以上的互聯(lián)網(wǎng)內(nèi)容。

      NLLB模型最大的價值在于,它提供了一種擴(kuò)大「資源匱乏」型語言機(jī)器翻譯規(guī)模的方法,這些資源匱乏的語言幾乎沒有可獲取的數(shù)字資源。

      通過艱辛的努力,Meta技術(shù)人員開墾了大片「無人區(qū)」——在它現(xiàn)在可以互翻的200多種語言中,許多語言是第一次被機(jī)器翻譯。

      包括南非的茨瓦納語、達(dá)里語,阿富汗所使用的一種波斯語,波利尼亞的薩摩亞語等等。

      這是非常有建設(shè)性的事業(yè),因為這有助于縮小這些被忽視的語言與在線的更流行的語言(例如英語、法語和俄語)之間的數(shù)字鴻溝。

      它可以讓資源匱乏語言的使用者能夠用他們的母語在線獲取知識,并可能通過引導(dǎo)這些語言進(jìn)入數(shù)字時代來避免它們的滅絕。

      人類專家助力NLLB

      NLLB模型的研發(fā)團(tuán)隊來自Meta AI、加州大學(xué)伯克利分校和約翰霍普金斯大學(xué)。

      這些出色的科學(xué)家們共同開展了這個「不讓任何一門語言掉隊」計劃,他們選取了維基百科文章中出現(xiàn)的語言,但在線可用的示例翻譯句子不足100萬個。

      這項工作將之前迭代的語言數(shù)量增加了一倍,并提高了翻譯質(zhì)量。

      NLLB團(tuán)隊聘用了專業(yè)譯員和審校人員,創(chuàng)建了39種語言的「種子」數(shù)據(jù)集,并開發(fā)了一種技術(shù),使他們能夠挖掘網(wǎng)絡(luò)數(shù)據(jù),創(chuàng)建其余語言的并行數(shù)據(jù)集。

      他們還為每種語言生成了一個包含約200個「有毒」詞匯的列表,以識別可能構(gòu)成仇恨言論的翻譯。

      人類專家的參與既耗時又昂貴,但卻至關(guān)重要。如果沒有他們,算法將只能使用AI生成的低質(zhì)量數(shù)據(jù)進(jìn)行訓(xùn)練,然后在迭代過程中重復(fù)這些低質(zhì)量和錯誤內(nèi)容,進(jìn)一步降低模型表現(xiàn)。

      沒有參與Meta AI計劃的英國愛丁堡大學(xué)民族學(xué)/語言學(xué)教授William Lamb表示,這種情況已經(jīng)發(fā)生在蘇格蘭蓋爾語中,這個語言的大多數(shù)在線內(nèi)容都是由人工智能生成的。

      蘇格蘭蓋爾語是Meta計劃中資源較少的語言之一,好在其內(nèi)容都是經(jīng)過專業(yè)翻譯的。

      對于缺乏某些詞匯的語言來說,人類的專業(yè)知識也很重要。

      例如,許多非洲語言沒有專門的科學(xué)概念術(shù)語。Decolonise Science研究項目聘用專業(yè)翻譯人員將180篇科學(xué)論文翻譯成6種非洲語言。

      該項目由Masakhane發(fā)起,這是一個由對自然語言處理感興趣的研究人員組成的基層組織。

      模型架構(gòu)與性能

      NLLB是一種利用跨語言遷移學(xué)習(xí)的單一大規(guī)模多語言模型,NLLB開發(fā)了一個基于稀疏門控混合專家(Sparsely Gated Mixture of Experts)架構(gòu)的條件計算模型,使用針對資源匱乏語言定制的新挖掘技術(shù)獲得的數(shù)據(jù)進(jìn)行訓(xùn)練。

      此外,團(tuán)隊還設(shè)計了多項架構(gòu)和訓(xùn)練改進(jìn),以在對數(shù)千項任務(wù)進(jìn)行訓(xùn)練時抵消過度擬合。

      為了檢測模型的性能,團(tuán)隊使用了專門創(chuàng)建的工具——自動基準(zhǔn)(FLORES-200)、人工評估指標(biāo)(XSTS)和涵蓋模型中全部語言的「毒性」檢測器,評估了超過4萬個翻譯方向。

      與之前的SOTA相比,根據(jù)BLEU(Bilingual Evaluation Understudy,一種基于分?jǐn)?shù)的雙語評估方法)評分,NLLB模型翻譯質(zhì)量平均提高了44%。

      NLLB成功地將神經(jīng)機(jī)器翻譯(NMT)擴(kuò)展到了200種語言,并將這項工作中的所有發(fā)現(xiàn)免費(fèi)提供給非商業(yè)用途,為通用翻譯系統(tǒng)的開發(fā)奠定了重要的基礎(chǔ)。

      NLLB-200首次面世是在2022,自被推出以來,我們已經(jīng)可以看到該模型在多個方向上的影響。

      維基媒體報道稱,NLLB是維基百科編輯使用的第三大機(jī)器翻譯引擎(占所有已發(fā)布翻譯的3.8%)。與其他機(jī)器翻譯服務(wù)相比,使用NLLB-200翻譯的文章刪除率最低(0.13%),翻譯修改率最高不到10%。

      模型發(fā)布之后——必不可少的社區(qū)互動

      自動化翻譯方法確實可以為資源匱乏的語言帶來活力,但前提是大模型的研發(fā)公司能夠與使用這些語言的人持續(xù)進(jìn)行互動。

      機(jī)器學(xué)習(xí)模型的好壞取決于它們所輸入的數(shù)據(jù)——這些數(shù)據(jù)主要由人類創(chuàng)建,而光靠專家的翻譯,是遠(yuǎn)遠(yuǎn)供不應(yīng)求的。

      這也是研究人員和技術(shù)公司必須將使用這些語言的社區(qū)納入進(jìn)來的原因之一。不僅是在創(chuàng)建機(jī)器翻譯系統(tǒng)的過程中,也包括用戶使用這些系統(tǒng)的過程,以反映真實情境下的人們?nèi)绾问褂眠@些語言。

      Nature的研究人員表示,隨著機(jī)器翻譯工具的發(fā)展,其背后的公司必須繼續(xù)與技術(shù)所服務(wù)的社區(qū)互動,否則就有可能浪費(fèi)該技術(shù)的承諾。

      他們擔(dān)心如果大公司不這樣做,會加速這些語言及其相關(guān)文化的消亡。

      如果沒有真實語言社區(qū)的參與,機(jī)器翻譯工作可能會成為另一種形式的「降落傘科學(xué)」(parachute science),即高收入國家的研究人員對低收入國家的社區(qū)的利用。

      加拿大溫哥華島北島學(xué)院的語言復(fù)興專家、Kwakwaka'wakw族人Sara Child表示——

      「這些詞語、句子和交流都沒有了語言中編碼的價值觀和信仰。隨著人工智能將更多語言推向數(shù)字空間,我擔(dān)心我們會失去更多自我」。

      在急于建立通用翻譯系統(tǒng)的過程中,我們絕不能忽視人的因素。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。

    即時

    TCL實業(yè)榮獲IFA2024多項大獎,展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費(fèi)品展覽會(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產(chǎn)品設(shè)計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強(qiáng)大影響力。

    新聞

    敢闖技術(shù)無人區(qū) TCL實業(yè)斬獲多項AWE 2024艾普蘭獎

    近日,中國家電及消費(fèi)電子博覽會(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項AWE 2024艾普蘭大獎。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    研究

    2024全球開發(fā)者先鋒大會即將開幕

    由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。