英偉達已經(jīng)成為AI時代的領頭羊,除了賣GPU,它自己也在開發(fā)大語言模型。最近,英偉達開發(fā)的Fugatto模型曝光,它將最新的AI訓練方案與技術融合,可以以之前未曾見過的方式處理音樂、語音及其它聲音,創(chuàng)造出從未有過的聲音。
語音生成AI模型沒有什么稀奇的,市場上已經(jīng)有很多,輸入文本提示詞就可以合成語音和音樂,但Fugatto似乎比之前的語音AI模型更進一步。
目前Fugatto還沒有公測,英偉達只是通過網(wǎng)站公布一些語音生成樣本。從樣本看,F(xiàn)ugatto可以調節(jié)音頻特征,生成一些奇怪的聲音,比如讓薩克斯聲音像狗叫,讓人聲變得像水下發(fā)出的聲音。老實說,合成的聲音并不怎么動聽,但很有趣。
英偉達研究人員Rafael Valle說:“我們想創(chuàng)建一個模型,它可以像人一樣理解聲音、生成聲音。”
從技術角度看,F(xiàn)ugatto實際上是一個生成Transformer模型,它是基于英偉達之前研究的技術開發(fā)的,比如語音模型、聲音理解技術。Fugatto擁有25億個參數(shù),它是用英偉達DGX系統(tǒng)開發(fā)的。
英偉達在論文中談到Fugatto開發(fā)的難點。以當前的技術,根據(jù)音頻和語言之間有意義的聯(lián)系建立一個數(shù)據(jù)庫十分困難。現(xiàn)在的標準語言模型可以從文本數(shù)據(jù)中推斷出不同的指令,但如果沒有具體指引,模型很難從音頻中總結出特征。
最終,英偉達用LLM(大語言模型)生成一個Python腳本,它可以創(chuàng)建大量基于模板、格式自由的指令,這些指令可以描述不同的聲音“個性”,比如標準、年輕、30多歲、專業(yè)人士等特征,然后還可以給聲音的“個性”增加其它指令,比如絕對指令(合成一個快樂的聲音)和相對指令(增強聲音的快樂度)。
在訓練數(shù)據(jù)中,AI會學著理解聲音的不同特征,然后將不同的特征結合起來,生成全新的聲音,也就是我們人類之前沒有聽過的聲音。
論文談到的技術相當復雜?傊,英偉達開發(fā)了所謂的ComposableART系統(tǒng),它合成的聲音讓小提琴聲音像孩子的笑聲,讓五弦琴的聲音像音樂家在風雨中演奏,讓工廠機器發(fā)出金屬般的痛苦尖叫。
Fugatto混合聲音的能力給人留下深刻印象,要知道,聲音數(shù)據(jù)來自不同的開源平臺數(shù)據(jù)集,聲音之間有很大不同,將它們完美混合不是一件易事。
還有一點值得表揚,F(xiàn)ugatto將每個單獨的音頻特征視為可調諧的連續(xù)體。比如,F(xiàn)ugatto可以將吉它聲和流水聲混合,讓吉它聲權重高一些或者讓流水聲權重高一些,合成的聲音是完全不同的。又例如,F(xiàn)ugatto可以讓說話時的法語口音重一些或者輕一些,可以改變語音片斷中的悲傷程度。
Fugatto還有其它一些功能,這些功能之前的模型也有,比如改變語音中的情緒,從音樂中分離出人聲。
英偉達希望Fugatto能成為聲音藝術家的新工具,它的本意并不是取代創(chuàng)作者。NVIDIA初創(chuàng)加速計劃 ( NVIDIA Inception) 的參與者、作曲家、制作人Ido Zmishlany說:“音樂的歷史實際上就是科技的歷史。電吉它帶來了搖滾,當采樣器出現(xiàn),嘻哈隨即誕生。有了AI,我們可以書寫音樂的下一篇章。我們有了一種新的樂器,一種制作音樂的新工具,這太令人興奮了。”
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。
2024年的Adobe MAX 2024發(fā)布會上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標識解析專題論壇在沈陽成功舉辦。