OPPO A5 Pro首創(chuàng)獵手天線架構:信號能穿十堵墻一加 Ace 5 Pro首發(fā)電競Wi-Fi芯片G1 帶來「穿墻王」和「搶網(wǎng)王」般的網(wǎng)絡體驗電視市場又出黑馬!TCL同檔Mini LED音畫王P12K,萬象分區(qū)打造超強控光!零下25℃如何取暖?海爾水暖通溫暖驛站亮相冰雪大世界馬太效應,強者恒強?——《中國企業(yè)科創(chuàng)力研究報告(2024)》美團年度報告竟然用上了AI和短。窟@下是真出圈了消息稱上汽大眾正開發(fā)三款新車,技術分別來自小鵬、智己和榮威鴻蒙智行泊車代駕VPD正式開啟全量推送!升級自動泊車/接駕等多項功能華為官方翻新手機最高降價4000元曝蘋果研發(fā)帶Face ID的智能家居門鈴:內置自研W-Fi芯片李斌回應螢火蟲外觀設計:看過實車的人都喜歡這個設計林杰:未來 A 級、A0 級、A00 級車型都將是領克純電的“主場”豐巢存包柜亮相南寧地鐵站,助力城市韌性建設與智慧出行萬象分區(qū)、絢彩XDR、量子點Pro 2025齊出手,TCL引領觀影體驗新變革!QQ音樂年度聽歌報告發(fā)布:誰是你最喜歡的歌手?OpenAI正式發(fā)布o3 - 通往AGI的路上,已經(jīng)沒有了任何阻礙「送禮物」難撬動社交電商,微信小店缺的是供給微軟Phi-4封神,14B小模型數(shù)學擊敗GPT-4o,合成數(shù)據(jù)占比40%,36頁技術報告出爐2024年結束,哪里是原創(chuàng)動畫的應許之地?深扒一個正被游戲行業(yè)「搶占」的流量帝國
  • 首頁 > 云計算頻道 > 大模型

    英偉達新AI模型Fugatto可以生成從未有過的聲音

    2024年12月04日 11:32:04   來源:極客網(wǎng)

      英偉達已經(jīng)成為AI時代的領頭羊,除了賣GPU,它自己也在開發(fā)大語言模型。最近,英偉達開發(fā)的Fugatto模型曝光,它將最新的AI訓練方案與技術融合,可以以之前未曾見過的方式處理音樂、語音及其它聲音,創(chuàng)造出從未有過的聲音。

      語音生成AI模型沒有什么稀奇的,市場上已經(jīng)有很多,輸入文本提示詞就可以合成語音和音樂,但Fugatto似乎比之前的語音AI模型更進一步。

      目前Fugatto還沒有公測,英偉達只是通過網(wǎng)站公布一些語音生成樣本。從樣本看,F(xiàn)ugatto可以調節(jié)音頻特征,生成一些奇怪的聲音,比如讓薩克斯聲音像狗叫,讓人聲變得像水下發(fā)出的聲音。老實說,合成的聲音并不怎么動聽,但很有趣。

      英偉達研究人員Rafael Valle說:“我們想創(chuàng)建一個模型,它可以像人一樣理解聲音、生成聲音。”

      從技術角度看,F(xiàn)ugatto實際上是一個生成Transformer模型,它是基于英偉達之前研究的技術開發(fā)的,比如語音模型、聲音理解技術。Fugatto擁有25億個參數(shù),它是用英偉達DGX系統(tǒng)開發(fā)的。

      英偉達在論文中談到Fugatto開發(fā)的難點。以當前的技術,根據(jù)音頻和語言之間有意義的聯(lián)系建立一個數(shù)據(jù)庫十分困難。現(xiàn)在的標準語言模型可以從文本數(shù)據(jù)中推斷出不同的指令,但如果沒有具體指引,模型很難從音頻中總結出特征。

      最終,英偉達用LLM(大語言模型)生成一個Python腳本,它可以創(chuàng)建大量基于模板、格式自由的指令,這些指令可以描述不同的聲音“個性”,比如標準、年輕、30多歲、專業(yè)人士等特征,然后還可以給聲音的“個性”增加其它指令,比如絕對指令(合成一個快樂的聲音)和相對指令(增強聲音的快樂度)。

      在訓練數(shù)據(jù)中,AI會學著理解聲音的不同特征,然后將不同的特征結合起來,生成全新的聲音,也就是我們人類之前沒有聽過的聲音。

      論文談到的技術相當復雜?傊,英偉達開發(fā)了所謂的ComposableART系統(tǒng),它合成的聲音讓小提琴聲音像孩子的笑聲,讓五弦琴的聲音像音樂家在風雨中演奏,讓工廠機器發(fā)出金屬般的痛苦尖叫。

      Fugatto混合聲音的能力給人留下深刻印象,要知道,聲音數(shù)據(jù)來自不同的開源平臺數(shù)據(jù)集,聲音之間有很大不同,將它們完美混合不是一件易事。

      還有一點值得表揚,F(xiàn)ugatto將每個單獨的音頻特征視為可調諧的連續(xù)體。比如,F(xiàn)ugatto可以將吉它聲和流水聲混合,讓吉它聲權重高一些或者讓流水聲權重高一些,合成的聲音是完全不同的。又例如,F(xiàn)ugatto可以讓說話時的法語口音重一些或者輕一些,可以改變語音片斷中的悲傷程度。

      Fugatto還有其它一些功能,這些功能之前的模型也有,比如改變語音中的情緒,從音樂中分離出人聲。

      英偉達希望Fugatto能成為聲音藝術家的新工具,它的本意并不是取代創(chuàng)作者。NVIDIA初創(chuàng)加速計劃 ( NVIDIA Inception) 的參與者、作曲家、制作人Ido Zmishlany說:“音樂的歷史實際上就是科技的歷史。電吉它帶來了搖滾,當采樣器出現(xiàn),嘻哈隨即誕生。有了AI,我們可以書寫音樂的下一篇章。我們有了一種新的樂器,一種制作音樂的新工具,這太令人興奮了。”

      文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。

    即時

    新聞

    明火炊具市場:三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應用,“區(qū)塊鏈+政務服務”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標識解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標識解析專題論壇在沈陽成功舉辦。