行業(yè)唯一!海爾熱聲熱泵技術(shù)獲全國(guó)顛覆性技術(shù)創(chuàng)新大賽最高獎(jiǎng)OPPO A5 Pro首創(chuàng)獵手天線架構(gòu):信號(hào)能穿十堵墻一加 Ace 5 Pro首發(fā)電競(jìng)Wi-Fi芯片G1 帶來(lái)「穿墻王」和「搶網(wǎng)王」般的網(wǎng)絡(luò)體驗(yàn)電視市場(chǎng)又出黑馬!TCL同檔Mini LED音畫王P12K,萬(wàn)象分區(qū)打造超強(qiáng)控光!零下25℃如何取暖?海爾水暖通溫暖驛站亮相冰雪大世界馬太效應(yīng),強(qiáng)者恒強(qiáng)?——《中國(guó)企業(yè)科創(chuàng)力研究報(bào)告(2024)》美團(tuán)年度報(bào)告竟然用上了AI和短?這下是真出圈了消息稱上汽大眾正開發(fā)三款新車,技術(shù)分別來(lái)自小鵬、智己和榮威鴻蒙智行泊車代駕VPD正式開啟全量推送!升級(jí)自動(dòng)泊車/接駕等多項(xiàng)功能華為官方翻新手機(jī)最高降價(jià)4000元曝蘋果研發(fā)帶Face ID的智能家居門鈴:內(nèi)置自研W-Fi芯片李斌回應(yīng)螢火蟲外觀設(shè)計(jì):看過(guò)實(shí)車的人都喜歡這個(gè)設(shè)計(jì)林杰:未來(lái) A 級(jí)、A0 級(jí)、A00 級(jí)車型都將是領(lǐng)克純電的“主場(chǎng)”豐巢存包柜亮相南寧地鐵站,助力城市韌性建設(shè)與智慧出行萬(wàn)象分區(qū)、絢彩XDR、量子點(diǎn)Pro 2025齊出手,TCL引領(lǐng)觀影體驗(yàn)新變革!QQ音樂(lè)年度聽歌報(bào)告發(fā)布:誰(shuí)是你最喜歡的歌手?OpenAI正式發(fā)布o(jì)3 - 通往AGI的路上,已經(jīng)沒(méi)有了任何阻礙「送禮物」難撬動(dòng)社交電商,微信小店缺的是供給微軟Phi-4封神,14B小模型數(shù)學(xué)擊敗GPT-4o,合成數(shù)據(jù)占比40%,36頁(yè)技術(shù)報(bào)告出爐2024年結(jié)束,哪里是原創(chuàng)動(dòng)畫的應(yīng)許之地?
  • 首頁(yè) > 云計(jì)算頻道 > 大模型

    Meta翻譯大模型可模仿語(yǔ)氣語(yǔ)速,AI再也不“莫得感情”了

    2023年12月22日 16:29:39   來(lái)源:微信公眾號(hào)量子位

      本文來(lái)自微信公眾號(hào)“量子位”(ID:QbitAI),作者:豐色。

      Meta發(fā)布了全新AI翻譯大模型,實(shí)時(shí)語(yǔ)音轉(zhuǎn)換延遲不超過(guò)2秒。

      感受一把這個(gè)速度(西班牙語(yǔ)<=>英語(yǔ)):

      不僅速度快,它的準(zhǔn)確率還和離線模型一樣高。

      最重要的是,像什么停頓、語(yǔ)氣、語(yǔ)速和情緒…… 它都可以復(fù)刻。

      例如模仿耳語(yǔ):

      原聲1,量子位,3秒

      翻譯1,量子位,3秒

      例如模仿悲傷:

      原聲2,量子位,3秒

      翻譯2,量子位,3秒

      有了它,再也不用吐槽AI翻譯“莫的感情”了。

      有網(wǎng)友則表示:

      AI這發(fā)展速度,再過(guò)幾年咱們學(xué)一門新語(yǔ)言就像學(xué)寫字一樣簡(jiǎn)單。

      不由地讓人想象70億人說(shuō)同一種語(yǔ)言是什么感覺(jué)。

    圖片

      目前,此模型已在GitHub已攬獲近9k標(biāo)星,可謂爆受歡迎。

    圖片

      除了開源下載,官方也提供了demo供大家嘗試體驗(yàn)。4種型號(hào),非自回歸架構(gòu)

      Meta此次發(fā)布的是一個(gè)翻譯模型系列:Seamless Communication(無(wú)縫交流)。

    圖片

      4個(gè)不同型號(hào)分別為:

      SeamlessExpressive

      可以保留跨語(yǔ)言語(yǔ)音復(fù)雜性的模型,包括停頓、語(yǔ)速、情緒等內(nèi)容。

      SeamlessStreaming

      大規(guī)模多語(yǔ)言模型,提供大約2秒延遲的語(yǔ)音和文本翻譯,與離線模型準(zhǔn)確率幾乎一樣高。

      支持近100種輸入語(yǔ)言和36種輸出語(yǔ)言的語(yǔ)音到語(yǔ)音翻譯,支持近100種輸入和輸出語(yǔ)言的自動(dòng)語(yǔ)音識(shí)別和語(yǔ)音到文本翻譯。

      SeamlessM4T v2

      前兩個(gè)模型的底座模型,多語(yǔ)言多任務(wù),今年8月發(fā)布的第一個(gè)版本,實(shí)現(xiàn)跨語(yǔ)音和文本翻譯的SOTA結(jié)果。

      這一新版本采用的是帶有非自回歸文本到單元解碼器的新架構(gòu),可提高文本和語(yǔ)音輸出之間的一致性。

      Seamless

      將前三種模型的功能融為一體的模型。

      開源的是前三個(gè)。

      那么,這一系列模型具體怎么打造出來(lái)的?

      據(jù)官方博客介紹,以上所有模型都由fairseq2提供支持。

      后者是一個(gè)用于序列到序列任務(wù)的輕量建模工具包,支持機(jī)器翻譯、語(yǔ)音識(shí)別等任務(wù),可與PyTorch生態(tài)系統(tǒng)庫(kù)組合。

      此外,還包括具有非自回歸文本到單元(text-to-unit)解碼器的新架構(gòu)UnitY2。

      它的語(yǔ)音生成能力很強(qiáng)。

      在SeamlessM4T v2中,Meta使用multitask-UnitY2來(lái)啟用文本輸入。

      在SeamlessStreaming和SeamlessExpressive中,UnitY2也作為模型架構(gòu)構(gòu)建基礎(chǔ)。

    圖片

      在此,Meta也特別解釋了一下為什么要采用非自回歸架構(gòu)。

      這是因?yàn)椋曰貧w模型雖然模擬語(yǔ)音很自然,但隨著序列長(zhǎng)度的增加,它們的擴(kuò)展性很差。

      而非自回歸模型預(yù)測(cè)每個(gè)片段的持續(xù)時(shí)間,使得每個(gè)片段可以并行解碼。

      因此它對(duì)長(zhǎng)序列具有魯棒性,更適應(yīng)流媒體場(chǎng)景。

      那么,說(shuō)到流媒體,Meta的模型是如何快速又準(zhǔn)確地翻譯實(shí)時(shí)語(yǔ)音的呢?

      核心算法是EMMA,一個(gè)可以智能決定何時(shí)已經(jīng)擁有足夠的信息來(lái)生成下一個(gè)語(yǔ)音片段或目標(biāo)文本的模型。

      它還可以從離線模型中進(jìn)行微調(diào),讓準(zhǔn)確率更高。

      原理的最后一部分,主要說(shuō)說(shuō)Meta的模型又是如何讓翻譯不機(jī)械,富有表現(xiàn)力的。

      在此,他們用PRETSSEL(一個(gè)語(yǔ)音到單元生成器)替換SeamlessM4T v2中的HiFi-GAN 聲碼器單元。

      這個(gè)生成器以源語(yǔ)音為條件來(lái)生成波形,以此傳輸音調(diào)、情感表達(dá)和聲音風(fēng)格質(zhì)量等信息。

      此外,團(tuán)隊(duì)還開發(fā)了Prosody UnitY2,將它集成到SeamlessM4T v2中,讓它指導(dǎo)模型生成具有適當(dāng)節(jié)奏、語(yǔ)速和停頓的單元生成。 兩項(xiàng)特別的工作

      除了以上這些,Meta還介紹了兩項(xiàng)額外的工作。

      一是“毒性緩解”。

      指的是翻譯準(zhǔn)確性的問(wèn)題,在這種翻譯任務(wù)中,意外的錯(cuò)誤或幻覺(jué)可能會(huì)導(dǎo)致兩個(gè)不同語(yǔ)言的人產(chǎn)生誤會(huì)。

      由于這一問(wèn)題的主要原因通常在于訓(xùn)練數(shù)據(jù)。

      所以Meta做的第一件事就是在訓(xùn)練前過(guò)濾一遍數(shù)據(jù)中出現(xiàn)的“有毒內(nèi)容”。

      但這只是被動(dòng)的,并不能完全防問(wèn)題發(fā)生。

      因此,他們提出直接在翻譯生成過(guò)程中自動(dòng)檢測(cè)生成的有毒單詞,確有問(wèn)題時(shí)自動(dòng)重新調(diào)整生成過(guò)程并使用新單詞來(lái)表達(dá)。

      這個(gè)過(guò)程在推理時(shí)就能做,不需要對(duì)翻譯模型進(jìn)行任何微調(diào)。

      最終,它顯著減少了翻譯“毒性”,并同時(shí)保持翻譯質(zhì)量。

      二是音頻水印。

      為了防止可能的濫用風(fēng)險(xiǎn),Meta翻譯模型也為音頻添加了水印。

      方式是主動(dòng)在音頻中嵌入人耳無(wú)法覺(jué)察的信號(hào),用專門的檢測(cè)器模型可以檢測(cè)出來(lái);通過(guò)這個(gè)水印,我們就可以準(zhǔn)確追蹤音頻的來(lái)源。

      除此之外,這一水印還可以對(duì)抗各種攻擊,比如有人想通過(guò)添加噪音、回聲或過(guò)濾某范圍內(nèi)的頻率來(lái)修改音頻、淡化水印以此來(lái)繞過(guò)檢測(cè),就是行不通的。 One More Thing

      除了模型、論文,Meta還同步開源了此系列翻譯模型的元數(shù)據(jù)、數(shù)據(jù)和數(shù)據(jù)對(duì)齊工具。

      其中元數(shù)據(jù)包括58.5萬(wàn)小時(shí)的語(yǔ)音文本對(duì),涵蓋76種語(yǔ)言。

      這是迄今為止總?cè)萘孔畲、語(yǔ)言覆蓋范圍最廣的語(yǔ)音語(yǔ)料庫(kù)。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    新聞

    明火炊具市場(chǎng):三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實(shí)力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來(lái)實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。

    研究

    中國(guó)信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專題論壇在沈陽(yáng)成功舉辦。