英偉達新AI模型Fugatto可以生成從未有過的聲音

2024年12月04日 11:32:04 小刀來源：極客網(wǎng)

　　英偉達已經(jīng)成為AI時代的領頭羊，除了賣GPU，它自己也在開發(fā)大語言模型。最近，英偉達開發(fā)的Fugatto模型曝光，它將最新的AI訓練方案與技術融合，可以以之前未曾見過的方式處理音樂、語音及其它聲音，創(chuàng)造出從未有過的聲音。

　　語音生成AI模型沒有什么稀奇的，市場上已經(jīng)有很多，輸入文本提示詞就可以合成語音和音樂，但Fugatto似乎比之前的語音AI模型更進一步。

　　目前Fugatto還沒有公測，英偉達只是通過網(wǎng)站公布一些語音生成樣本。從樣本看，F(xiàn)ugatto可以調節(jié)音頻特征，生成一些奇怪的聲音，比如讓薩克斯聲音像狗叫，讓人聲變得像水下發(fā)出的聲音。老實說，合成的聲音并不怎么動聽，但很有趣。

　　英偉達研究人員Rafael Valle說：“我們想創(chuàng)建一個模型，它可以像人一樣理解聲音、生成聲音。”

　　從技術角度看，F(xiàn)ugatto實際上是一個生成Transformer模型，它是基于英偉達之前研究的技術開發(fā)的，比如語音模型、聲音理解技術。Fugatto擁有25億個參數(shù)，它是用英偉達DGX系統(tǒng)開發(fā)的。

　　英偉達在論文中談到Fugatto開發(fā)的難點。以當前的技術，根據(jù)音頻和語言之間有意義的聯(lián)系建立一個數(shù)據(jù)庫十分困難。現(xiàn)在的標準語言模型可以從文本數(shù)據(jù)中推斷出不同的指令，但如果沒有具體指引，模型很難從音頻中總結出特征。

　　最終，英偉達用LLM(大語言模型)生成一個Python腳本，它可以創(chuàng)建大量基于模板、格式自由的指令，這些指令可以描述不同的聲音“個性”，比如標準、年輕、30多歲、專業(yè)人士等特征，然后還可以給聲音的“個性”增加其它指令，比如絕對指令(合成一個快樂的聲音)和相對指令(增強聲音的快樂度)。

　　在訓練數(shù)據(jù)中，AI會學著理解聲音的不同特征，然后將不同的特征結合起來，生成全新的聲音，也就是我們人類之前沒有聽過的聲音。

　　論文談到的技術相當復雜�？傊�，英偉達開發(fā)了所謂的ComposableART系統(tǒng)，它合成的聲音讓小提琴聲音像孩子的笑聲，讓五弦琴的聲音像音樂家在風雨中演奏，讓工廠機器發(fā)出金屬般的痛苦尖叫。

　　Fugatto混合聲音的能力給人留下深刻印象，要知道，聲音數(shù)據(jù)來自不同的開源平臺數(shù)據(jù)集，聲音之間有很大不同，將它們完美混合不是一件易事。

　　還有一點值得表揚，F(xiàn)ugatto將每個單獨的音頻特征視為可調諧的連續(xù)體。比如，F(xiàn)ugatto可以將吉它聲和流水聲混合，讓吉它聲權重高一些或者讓流水聲權重高一些，合成的聲音是完全不同的。又例如，F(xiàn)ugatto可以讓說話時的法語口音重一些或者輕一些，可以改變語音片斷中的悲傷程度。

　　Fugatto還有其它一些功能，這些功能之前的模型也有，比如改變語音中的情緒，從音樂中分離出人聲。

　　英偉達希望Fugatto能成為聲音藝術家的新工具，它的本意并不是取代創(chuàng)作者。NVIDIA初創(chuàng)加速計劃 ( NVIDIA Inception) 的參與者、作曲家、制作人Ido Zmishlany說：“音樂的歷史實際上就是科技的歷史。電吉它帶來了搖滾，當采樣器出現(xiàn)，嘻哈隨即誕生。有了AI，我們可以書寫音樂的下一篇章。我們有了一種新的樂器，一種制作音樂的新工具，這太令人興奮了。”

　　文章內容僅供閱讀，不構成投資建議，請謹慎對待。投資者據(jù)此操作，風險自擔。

[No. ]
分享到微信