Stable Audio Open開源AI模型發(fā)布：48.6萬個樣本訓(xùn)練，可創(chuàng)建47秒短音頻/音效等

2024年06月06日 16:22:33 來源：IT之家

　　Stability AI 立足 Stable Diffusion 文生圖模型，進(jìn)一步向音頻領(lǐng)域拓展，推出了 Stable Audio Open，可以基于用戶輸入的提示詞，生成高質(zhì)量音頻樣本。

　　Stable Audio Open 最長可以創(chuàng)建 47 秒的音樂，非常適合鼓點(diǎn)、樂器旋律、環(huán)境音和擬聲音效，該開源模型基于 transforms 擴(kuò)散模型(DiT)，在自動編碼器的潛在空間中操作，提高生成音頻的質(zhì)量和多樣性。

　　Stable Audio Open 目前已經(jīng)開源，IT之家附上相關(guān)鏈接，感興趣的用戶可以在 HuggingFace 上試用。據(jù)說它使用了來自 FreeSound 和 Free Music Archive 等音樂庫的 486000 多種采樣進(jìn)行訓(xùn)練。

　　Stability AI 公司表示：“雖然它可以生成簡短的音樂片段，但并不適合完整的歌曲、旋律或人聲”。

　　Stable Audio Open 和 Stable Audio 2.0不同是，前者為開源模型，專注于短音頻片段和音效，而后者能夠生成最長 3 分鐘的完整音頻。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險自擔(dān)。

[No. ]
分享到微信