音樂生成技術一直是一個迷人的領域,將創(chuàng)造力與技術相結合,產生與人類情感共鳴的作品。這個過程涉及生成與通過文本描述傳達的特定主題或情感相符的音樂。盡管從文本中生成音樂取得了顯著進展,但一個重要的挑戰(zhàn)仍然存在:如何編輯生成的音樂,以改進或修改特定元素而不必從頭開始。這項任務涉及對音樂屬性進行精細調整,如更改樂器的聲音或整體情緒,而不影響其核心結構。
模型主要分為自回歸(AR)和基于擴散的類別。AR模型在推理時間較長的代價下產生更長、更高質量的音頻,而擴散模型在生成擴展序列方面表現卓越,盡管存在一些挑戰(zhàn)。創(chuàng)新的MagNet模型合并了AR和擴散的優(yōu)勢,優(yōu)化了質量和效率。MusicMagus通過借助先進的擴散模型,實現對特定音樂屬性的精確修改,同時保持原始構成的完整性。
MusicMagus通過復雜的方法和對數據集的創(chuàng)新使用展示了其卓越的音樂編輯和細化能力。該系統(tǒng)的支柱是基于AudioLDM2模型的,該模型利用變分自動編碼器(VAE)框架將音樂音頻譜圖壓縮到潛在空間。然后,通過操作這個空間來生成或編輯基于文本描述的音樂,彌合了文本輸入和音樂輸出之間的差距。MusicMagus的編輯機制利用預訓練的擴散模型的潛在能力,這是一種顯著提高編輯準確性和靈活性的新方法。
研究人員進行了大量實驗證明了MusicMagus的有效性,包括音色和風格轉移等關鍵任務,將其性能與AudioLDM2、Transplayer和MusicGen等已建立的基線進行比較。
這些比較分析以使用CLAP相似性和Chromagram相似性等指標進行客觀評估,以及使用整體質量(OVL)、相關性(REL)和結構一致性(CON)等指標進行主觀評估。結果顯示MusicMagus在CLAP相似性得分上提高了0.33,Chromagram相似性為0.77,表明在保持音樂語義完整性和結構一致性方面取得了顯著進展。在這些實驗中使用的數據集,包括用于音色轉移任務的POP909和MAESTRO,在展示MusicMagus在改變音樂語義的能力方面起到了至關重要的作用,同時保留原始構成的精髓。
MusicMagus引入了一種先進的文本到音樂編輯框架,能夠在保持構成完整性的同時操縱特定的音樂方面。盡管它在處理多樂器音樂生成、可編輯性與保真度權衡以及在進行重大更改時保持結構方面面臨一些挑戰(zhàn),但它標志著音樂編輯技術的重大進步。盡管在處理長序列方面存在一些局限性,并且受限于16kHz的采樣率,但MusicMagus在風格和音色轉移方面取得了顯著進展,展示了其創(chuàng)新的音樂編輯方法。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
近日,德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術、產品設計及應用方面的創(chuàng)新變革,全球領先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產品設計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強大影響力。
近日,中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術和新品亮相,以敢為精神勇闖技術無人區(qū),斬獲四項AWE 2024艾普蘭大獎。
“以前都要去窗口辦,一套流程下來都要半個月了,現在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
由世界人工智能大會組委會、上海市經信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導,由上海市人工智能行業(yè)協會聯合上海人工智能實驗室、上海臨港經濟發(fā)展(集團)有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。