行業(yè)唯一!海爾熱聲熱泵技術(shù)獲全國(guó)顛覆性技術(shù)創(chuàng)新大賽最高獎(jiǎng)OPPO A5 Pro首創(chuàng)獵手天線架構(gòu):信號(hào)能穿十堵墻一加 Ace 5 Pro首發(fā)電競(jìng)Wi-Fi芯片G1 帶來(lái)「穿墻王」和「搶網(wǎng)王」般的網(wǎng)絡(luò)體驗(yàn)電視市場(chǎng)又出黑馬!TCL同檔Mini LED音畫王P12K,萬(wàn)象分區(qū)打造超強(qiáng)控光!零下25℃如何取暖?海爾水暖通溫暖驛站亮相冰雪大世界馬太效應(yīng),強(qiáng)者恒強(qiáng)?——《中國(guó)企業(yè)科創(chuàng)力研究報(bào)告(2024)》美團(tuán)年度報(bào)告竟然用上了AI和短?這下是真出圈了消息稱上汽大眾正開發(fā)三款新車,技術(shù)分別來(lái)自小鵬、智己和榮威鴻蒙智行泊車代駕VPD正式開啟全量推送!升級(jí)自動(dòng)泊車/接駕等多項(xiàng)功能華為官方翻新手機(jī)最高降價(jià)4000元曝蘋果研發(fā)帶Face ID的智能家居門鈴:內(nèi)置自研W-Fi芯片李斌回應(yīng)螢火蟲外觀設(shè)計(jì):看過(guò)實(shí)車的人都喜歡這個(gè)設(shè)計(jì)林杰:未來(lái) A 級(jí)、A0 級(jí)、A00 級(jí)車型都將是領(lǐng)克純電的“主場(chǎng)”豐巢存包柜亮相南寧地鐵站,助力城市韌性建設(shè)與智慧出行萬(wàn)象分區(qū)、絢彩XDR、量子點(diǎn)Pro 2025齊出手,TCL引領(lǐng)觀影體驗(yàn)新變革!QQ音樂(lè)年度聽歌報(bào)告發(fā)布:誰(shuí)是你最喜歡的歌手?OpenAI正式發(fā)布o(jì)3 - 通往AGI的路上,已經(jīng)沒(méi)有了任何阻礙「送禮物」難撬動(dòng)社交電商,微信小店缺的是供給微軟Phi-4封神,14B小模型數(shù)學(xué)擊敗GPT-4o,合成數(shù)據(jù)占比40%,36頁(yè)技術(shù)報(bào)告出爐2024年結(jié)束,哪里是原創(chuàng)動(dòng)畫的應(yīng)許之地?
  • AI音樂(lè)戰(zhàn)火升級(jí)!三路國(guó)產(chǎn)大軍全面對(duì)決Suno

    2024年12月11日 14:32:21   來(lái)源:量子位公眾號(hào)

      在與Suno對(duì)壘這條道路上,國(guó)內(nèi)在AI音樂(lè)領(lǐng)域積累已久的公司,已經(jīng)紛紛在自己的優(yōu)勢(shì)之上推出了相應(yīng)的模型及應(yīng)用,正與全球頂級(jí)產(chǎn)品展開了一場(chǎng)你追我趕的精彩對(duì)決。

      有趣的音樂(lè)創(chuàng)作玩法,不斷驚艷用戶的模型效果,以及現(xiàn)象級(jí)的產(chǎn)品傳播方式,音樂(lè)大模型是今年垂直大模型賽道上一個(gè)十分稀缺的亮點(diǎn)。

      3月,當(dāng)Suno V3面世之后,許多人驚呼音樂(lè)行業(yè)要“一夜變天”。最近,Suno發(fā)布了V4版本,允許用戶生成音質(zhì)更高、更好聽、時(shí)長(zhǎng)更長(zhǎng)(4分鐘)的音樂(lè),也就意味著,一首完整的歌曲可以被AI創(chuàng)造出來(lái),AI音樂(lè)創(chuàng)作進(jìn)入了一個(gè)全新的階段。這在海內(nèi)外引起了廣泛的關(guān)注與討論。

      事實(shí)上,即便是已經(jīng)到了V4版本,Suno更擅長(zhǎng)的還是英文曲目,中文曲目和中國(guó)區(qū)用戶并不是其迭代產(chǎn)品需求的重心。而在與Suno對(duì)壘這條道路上,國(guó)內(nèi)在AI音樂(lè)領(lǐng)域積累已久的公司,已經(jīng)紛紛在自己的優(yōu)勢(shì)之上推出了相應(yīng)的模型及應(yīng)用,正與全球頂級(jí)產(chǎn)品展開了一場(chǎng)你追我趕的精彩對(duì)決。

      國(guó)產(chǎn)AI音樂(lè)應(yīng)用三路出擊

      在Suno V3發(fā)布之后,國(guó)內(nèi)大模型玩家紛紛上線了類似的產(chǎn)品,以防錯(cuò)過(guò)音樂(lè)行業(yè)的“ChatGPT時(shí)刻”。

      不過(guò),隨著時(shí)間的流逝,以近一年的時(shí)間線觀察來(lái)看,到目前,還堅(jiān)持在AI音樂(lè)大模型賽道投入的玩家主要有三類:

      以字節(jié)跳動(dòng)豆包旗下海綿音樂(lè)為代表的大廠派

      以昆侖萬(wàn)維旗下的天工SkyMusic為代表的新興大模型廠商

      以趣丸科技旗下天譜樂(lè)為代表的垂直賽道獨(dú)角獸科技公司

      作為字節(jié)跳動(dòng)推出的一款免費(fèi)AI音樂(lè)創(chuàng)作和分享平臺(tái),海綿音樂(lè)主打利用人工智能技術(shù)幫助用戶生成個(gè)性化的音樂(lè)作品。

      在海綿音樂(lè),用戶只需輸入一句靈感或上傳一張圖片,即可生成專屬的音樂(lè)作品。平臺(tái)提供多種音樂(lè)風(fēng)格和創(chuàng)作工具,幫助用戶輕松創(chuàng)作出高質(zhì)量的音樂(lè)。

      相比Suno,海綿音樂(lè)在AI生成的中文歌曲,提高了吐字的清晰度和演唱的流暢性,音樂(lè)曲風(fēng)也更符合中國(guó)人的喜好。

      音樂(lè)大模型天工“SkyMusic”是昆侖萬(wàn)維推出的國(guó)內(nèi)首個(gè)音樂(lè)SOTA模型,基于昆侖萬(wàn)維的“天工3.0”超級(jí)大模型打造,能夠快速生成多種風(fēng)格的音樂(lè)作品。

      “天工SkyMusic”采用的是音樂(lè)音頻領(lǐng)域類Sora模型架構(gòu),Large-scale Transformer負(fù)責(zé)譜曲,來(lái)學(xué)習(xí)Music Patches的上下文依賴關(guān)系,同時(shí)完成音樂(lè)可控性,Diffusion Transformer負(fù)責(zé)演唱,通過(guò)LDM讓Music Patches被還原成高質(zhì)量音頻,使得“天工SkyMusic”能夠支持生成80秒44100Hz采樣率雙聲道立體聲歌曲。

    圖片

      天譜樂(lè)是趣丸科技今年7月發(fā)布的全球首個(gè)多模態(tài)配樂(lè)大模型,上線時(shí)間比天工晚,但也比海綿音樂(lè)略早一個(gè)月,產(chǎn)品從一上線就全面接入了其旗下應(yīng)用唱鴨APP,向所有用戶開放。

      趣丸科技一直深耕音樂(lè)、音頻領(lǐng)域,旗下的拳頭產(chǎn)品還有TT語(yǔ)音,如今累計(jì)注冊(cè)用戶已超2億,是國(guó)內(nèi)最大的興趣社交平臺(tái)之一。

      天譜樂(lè)大模型集成了圖片理解算法、旋律生成算法、視頻理解算法、配器識(shí)別算法等領(lǐng)先技術(shù),多模態(tài)理解與生成能力比肩國(guó)際先進(jìn)水平。

      值得關(guān)注的是,天譜樂(lè)大模型不僅支持文生音樂(lè)、音頻生音樂(lè),還首創(chuàng)了圖片、視頻生成音樂(lè)功能,比Suno早推出3個(gè)月,某種程度上,意味著它的多模態(tài)輸入能力超越Suno。這也是目前幾款國(guó)產(chǎn)AI音樂(lè)中,有明顯特色功能的一款產(chǎn)品。

      基于自研的畫面情緒理解模型等領(lǐng)先技術(shù),天譜樂(lè)大模型不僅可以根據(jù)視頻畫面的明暗、色彩、情緒的細(xì)微變化逐幀識(shí)別和理解,也可以理解音樂(lè)的和弦、旋律、歌詞、演唱風(fēng)格等復(fù)雜特征,最終生成高契合度的視頻配樂(lè)。

      簡(jiǎn)單來(lái)說(shuō),用戶僅需上傳相冊(cè)中的一張圖片或一段不超過(guò)60秒的視頻,即可生成與高度適配畫面的帶人聲唱詞的完整歌曲,生成效果達(dá)到唱片發(fā)行級(jí)水準(zhǔn)。

      天譜樂(lè)生成人聲歌曲:

      音樂(lè)大模型持續(xù)進(jìn)化的關(guān)鍵

      事實(shí)上,國(guó)內(nèi)音樂(lè)雙巨頭騰訊音樂(lè)網(wǎng)易云音樂(lè),也分別推出了X·Studio啟明星這樣的產(chǎn)品,以追趕當(dāng)前生成式人工智能的浪潮。

      但或許是巨頭本身憑借強(qiáng)大的版權(quán)庫(kù),已經(jīng)能夠收獲足夠的市場(chǎng)份額和商業(yè)回報(bào),所以外界感受到的是,這兩家公司在AI音樂(lè)上的投入和活躍度始終不及上述代表性的玩家。

      而在與全球科技巨頭角逐AI大模型這一場(chǎng)比賽,行業(yè)內(nèi)的一個(gè)共識(shí)是,AI應(yīng)用是國(guó)內(nèi)公司少有的優(yōu)勢(shì)之一,也是少有能夠趕超國(guó)外大模型公司的機(jī)會(huì)。這也就意味著,探索和創(chuàng)造出更多用戶真正會(huì)使用的產(chǎn)品,以及可落地商業(yè)化場(chǎng)景,才是國(guó)產(chǎn)大模型能夠持續(xù)進(jìn)化的基石和未來(lái)。

      這也符合趣丸科技副總裁賈朔對(duì)音樂(lè)大模型的理解。他表示,“降低門檻讓普通用戶體驗(yàn)音樂(lè)創(chuàng)作的樂(lè)趣”是自研天譜樂(lè)產(chǎn)品的價(jià)值主張。

      音樂(lè)原創(chuàng)的專業(yè)度很高,但是,在AI的輔助之下,用戶可以只需要輸入一句話、一張照片或一段視頻,在1-2分鐘內(nèi)生成一首詞曲結(jié)構(gòu)相對(duì)完整的歌曲。

      事實(shí)證明,這樣的策略的確收獲了不少市場(chǎng)的正反饋。目前已有4600萬(wàn)人注冊(cè)使用唱鴨APP或天譜樂(lè)官網(wǎng),累計(jì)創(chuàng)作近1000萬(wàn)首AI歌曲。

      技術(shù)平權(quán)的意義在于,讓更多人能夠享受到科技進(jìn)步帶來(lái)的便利和好處,縮小不同群體之間的技術(shù)差距。

      除了服務(wù)音樂(lè)愛(ài)好者等C端用戶,應(yīng)用在影視制作等專業(yè)從業(yè)者的工作流,則為AI音樂(lè)大模型落地提供更多可商業(yè)化的場(chǎng)景。

      當(dāng)前市面上的音樂(lè)大模型,一方面,可以服務(wù)于專業(yè)音樂(lè)人,通過(guò)縮減詞曲創(chuàng)作、編曲等工作提升了音樂(lè)創(chuàng)作效率,讓快速創(chuàng)作和試驗(yàn)新的音樂(lè)構(gòu)思成為可能。另一方面,在短視頻浪潮之下,音樂(lè)大模型正在輔助短視頻創(chuàng)作者,讓他們更容易創(chuàng)造出符合視頻內(nèi)容的背景音樂(lè),提升內(nèi)容質(zhì)量和觀眾體驗(yàn)。

      據(jù)了解,天譜樂(lè)還將在近期發(fā)布新功能——MidiRender,功能類比于一個(gè)精準(zhǔn)、可控音樂(lè)版的Control Net,專業(yè)的創(chuàng)作用戶可以輸入自己的音樂(lè)構(gòu)想,讓天譜樂(lè)AI根據(jù)這個(gè)原創(chuàng)音樂(lè)片段填充歌詞、完成編曲。

      這些提供定制化的音樂(lè)解決方案,帶來(lái)更多的應(yīng)用場(chǎng)景和商業(yè)機(jī)會(huì),能夠持續(xù)促進(jìn)音樂(lè)產(chǎn)業(yè)的創(chuàng)新和發(fā)展。

      AI音樂(lè)創(chuàng)作還有哪些待解的難題?

      盡管音樂(lè)大模型在2024年以前所未有的速度在狂飆,但它身后依舊給這個(gè)行業(yè)的操盤手留下了一些難解的尷尬。

      首當(dāng)其沖是音樂(lè)版權(quán)的問(wèn)題。高質(zhì)量的音樂(lè)生成模型依賴高質(zhì)量的音樂(lè)音頻數(shù)據(jù)。

      今年6月,環(huán)球音樂(lè)集團(tuán)、索尼音樂(lè)集團(tuán)和華納音樂(lè)集團(tuán)等多家唱片公司就對(duì)Suno和Udio發(fā)起訴訟,稱它們非法使用版權(quán)音樂(lè)來(lái)訓(xùn)練自己的AI模型并對(duì)外提供服務(wù)。隨后,Suno進(jìn)行了回?fù),指?zé)它們利用版權(quán)訴訟來(lái)保護(hù)自己在人工智能音樂(lè)領(lǐng)域的市場(chǎng)主導(dǎo)地位。

      目前雙方的爭(zhēng)奪尚未有一個(gè)定論,但唯一可以肯定的是,AI音樂(lè)公司在技術(shù)上取得了顯著進(jìn)展,如何在法律框架內(nèi)運(yùn)營(yíng)和商業(yè)化,將是這些公司未來(lái)必須思考的問(wèn)題。

      此外,音樂(lè)大模型生成的音樂(lè)作品是否享有版權(quán)保護(hù),其版權(quán)歸屬如何界定,尚無(wú)明確的法律規(guī)定,這給音樂(lè)大模型的應(yīng)用帶來(lái)了不確定性和風(fēng)險(xiǎn)。

      針對(duì)版權(quán)的問(wèn)題,賈朔發(fā)現(xiàn),其實(shí)可以從技術(shù)手段上規(guī)避一些紛爭(zhēng)。比如,在產(chǎn)品側(cè),當(dāng)用戶在使用AI創(chuàng)作時(shí),可判斷其是否有主觀意圖模仿現(xiàn)有藝術(shù)家,并且做出彈窗提示。

      事實(shí)上,人類在進(jìn)行藝術(shù)創(chuàng)作的時(shí)候,靈感都未必是憑空產(chǎn)生,多數(shù)也是吸取和借鑒過(guò)往歷史上、產(chǎn)業(yè)里優(yōu)秀的案例,不斷打磨迭代,在巨人肩膀上創(chuàng)新和創(chuàng)造。訓(xùn)練AI大模型是如此,人類學(xué)習(xí)成長(zhǎng)與進(jìn)步也類似。

      另一方面,則是音樂(lè)的創(chuàng)意與情感。

      音樂(lè)創(chuàng)作具有很強(qiáng)的專業(yè)性,但也屬于人類的情感和情緒的一種表達(dá)。雖然音樂(lè)大模型可以生成具有特定風(fēng)格和情感的音樂(lè)作品,但其創(chuàng)意和獨(dú)特性仍然有限。

      如何提升音樂(lè)大模型的創(chuàng)意能力,使其能夠創(chuàng)作出更具個(gè)性和創(chuàng)新性的音樂(lè)作品,是當(dāng)前音樂(lè)大模型需要突破的方向之一。

      在這一方向上,行業(yè)里有一個(gè)思路是,讓AI生產(chǎn)的音樂(lè)聲音更像“人”,以此更契合人類的情感表達(dá)訴求,使生成的歌曲引發(fā)更多人的共情與共鳴。

      比如說(shuō),消除AI歌曲的電音問(wèn)題。這是AI音樂(lè)過(guò)往被用戶吐槽最多的事情,也是很多音樂(lè)大模型在人聲技術(shù)上攻克的重點(diǎn)之一。趣丸科技表示,最近這一問(wèn)題已經(jīng)率先解決,得益于最新的天譜樂(lè)大模型2.2版本,在長(zhǎng)序列音樂(lè)語(yǔ)意建模和高質(zhì)量音頻空間建模上,實(shí)現(xiàn)進(jìn)一步突破,高度還原音樂(lè)音頻在高維空間的連續(xù)信號(hào)表征,實(shí)現(xiàn)音樂(lè)性和音質(zhì)的飛躍。播客“Vibration 歪波音室”主理人拾壹也在公開場(chǎng)合提到,幾乎無(wú)法區(qū)分天譜樂(lè)的人聲唱詞和真人歌曲。

      但也需要看到,盡管AI能夠模擬人類的創(chuàng)作模式,它始終很難真正理解和表達(dá)人類復(fù)雜的情感。音樂(lè)中的情感往往是創(chuàng)作者內(nèi)心深處的真實(shí)感受,AI生成的音樂(lè)可能在情感表達(dá)上顯得較為膚淺。而一些缺乏人類靈氣和感情的作品,在這個(gè)流量大爆炸和注意力被狂轟濫炸的時(shí)代,我們沒(méi)有理由再去承受更多。

      作為人類,我們還需要面對(duì)的是,AI音樂(lè)創(chuàng)作的發(fā)展會(huì)對(duì)部分人類音樂(lè)創(chuàng)作者的就業(yè)和創(chuàng)作空間造成一定的擠壓。但無(wú)論如何,在當(dāng)前的階段,我們需要尋找一種平衡,實(shí)現(xiàn)AI與人類創(chuàng)作者的真正的共存。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    新聞

    明火炊具市場(chǎng):三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實(shí)力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來(lái)實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。

    研究

    中國(guó)信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專題論壇在沈陽(yáng)成功舉辦。