冰雪大世界盛大開園,美的空調(diào)橫跨50℃打造“東北夏威夷”臺(tái)灣小土豆勇闖冰雪大世界,美的空調(diào)真暖快車成為最熱打卡點(diǎn)京東iPhone 16系列年底大放價(jià)!至高補(bǔ)貼1200元價(jià)格低過11.11新一季圓滿假期結(jié)伴大使出發(fā)在即 LG電子十年相伴助力溫暖傳遞中國聯(lián)通組織“魅力亞冬,與智慧同行” 主題采訪活動(dòng)“萬象分區(qū)”引領(lǐng)電視行業(yè)新潮流,TCL這步棋下得著實(shí)漂亮!百度職業(yè)院校專屬項(xiàng)目“大國智匠”引領(lǐng)職業(yè)教育新范式百度大模型助力2024年碼蹄杯程序設(shè)計(jì)大賽,全國高校學(xué)子展現(xiàn)卓越編程實(shí)力碼蹄杯人物特寫:四位編程少年的追夢(mèng)之旅金倉數(shù)據(jù)庫四項(xiàng)成果入選2024星河案例亞信科技參加2024通信產(chǎn)業(yè)大會(huì) CTO歐陽曄博士等做主題演講用專業(yè)贏得信賴 美好蘊(yùn)育潤康引領(lǐng)孕產(chǎn)營養(yǎng)新風(fēng)尚解鎖新成就!愛企查“度秘書”粉絲突破10萬!英特爾終止x86S架構(gòu)計(jì)劃:純64位設(shè)計(jì)再度戛然而止豆包大模型全面升級(jí),相關(guān)概念股瘋漲,字節(jié)發(fā)布緊急警示申通、圓通、韻達(dá)發(fā)布 11 月簡(jiǎn)報(bào):快遞業(yè)務(wù)量、收入均同比增長,單票收入均下降SensorTower發(fā)11月中國手游全球收入排行榜 庫洛入榜“YO!原”千里來相會(huì) 華為智能生活館·太原茂業(yè)重裝開業(yè)微軟承認(rèn)并調(diào)查Microsoft 365 應(yīng)用出現(xiàn)“產(chǎn)品已停用”錯(cuò)誤SK 海力士被曝贏得博通HBM訂單,預(yù)計(jì)明年 1b DRAM 月產(chǎn)能將擴(kuò)大到 16~17 萬片
  • 首頁 > 云計(jì)算頻道 > 大模型

    國內(nèi)首款A(yù)I音樂大模型一曲封神!核心技術(shù)業(yè)內(nèi)首公開,爆改霉霉周杰倫效果驚艷

    2024年04月11日 14:49:41   來源:新智元公眾號(hào)

      國內(nèi)首個(gè)音樂ChatGPT來了!提前試用「天工SkyMusic」后,整個(gè)編輯部暴風(fēng)式哭泣:它改編的周杰倫和鳳凰傳奇簡(jiǎn)直封神。團(tuán)隊(duì)選擇了一條少有人走的路,他們賭贏了:比OpenAI提前押中了Sora架構(gòu),并且首次在業(yè)內(nèi)公開技術(shù)圖。

      最近幾周的震撼,是Suno給的。

      重磅升級(jí)的Suno V3,不斷有刷屏全網(wǎng)的「神曲」誕生,讓全世界為之瘋狂。

      誰能想到,音樂的ChatGPT時(shí)刻,竟然就這么來了。

      圈內(nèi)所有人都在討論:這一波,音樂產(chǎn)業(yè)沒準(zhǔn)要被AI一鍋端了。

      國內(nèi)首款音樂AI來了!

      這不,就在上周,國內(nèi)首款A(yù)I音樂生成大模型「天工SkyMusic」也正式開啟內(nèi)測(cè)了!

      各路「大神」已經(jīng)開始在首頁秀創(chuàng)作了

      沒有靈感怎么辦?產(chǎn)品頁面甚至為你配備好了靈感話題。

      試玩一番后,小編再次體會(huì)了一遍,當(dāng)初Suno給人的那種驚艷感。

      初體驗(yàn):一秒夢(mèng)回80年代,人聲以假亂真

      比如這首《古韻悠長》,清亮的女聲一開口,瞬間夢(mèng)回80年代,是我媽跳廣場(chǎng)舞的那個(gè)feel了。

      這首《愛是幸!罚呛寐牭阶屝【庴@掉下巴。旋律朗朗上口,歌詞雋永又令人無限回味,細(xì)聽有一股蔡健雅的味道。

      除了歌曲整體的音樂品質(zhì)非常高,極具欣賞價(jià)值之外,「天工SkyMusic」的最大亮點(diǎn)之一,就是它清晰逼真的人聲。

      要知道,人聲合成,是AI音樂生成中最重要、最能體現(xiàn)生成效果和品質(zhì)的維度。

      而「天工SkyMusic」的AI人聲合成,能夠產(chǎn)生中文水平極高、發(fā)音清晰的歌聲,展現(xiàn)出卓越的音頻質(zhì)量和逼真的演唱效果,已經(jīng)達(dá)到業(yè)內(nèi)SOTA水平!

      在這方面,「天工SkyMusic」可是爆殺了幾個(gè)外來大模型。他們?cè)谥形陌l(fā)音上,簡(jiǎn)直是慘不忍睹沒眼看。

      比如Suno的這首《宮保雞丁》,唱起中文歌來也是老外說中文那味兒。

      可見,要想做中文歌,還得看咱自己的音樂大模型!

      可控性,音樂人的專業(yè)指標(biāo)

      接下來,我們就得上一些專業(yè)指標(biāo)了。

      歌詞段落

      一首歌為什么能夠爆紅全網(wǎng),火遍大江南北?

      從流行音樂的角度,它需要有強(qiáng)烈的旋律、鮮明的節(jié)奏、多彩的和聲、激昂的情感。

      因此,想要做出一首抓耳的流行歌,不同歌詞段落間微妙的情緒變化,就是一個(gè)很關(guān)鍵的點(diǎn)。

      而「天工SkyMusic」在這方面,就格外擅長——

      它能通過歌詞來控制歌曲,體現(xiàn)出主歌和副歌、前奏和主歌的段落差異。

      比如這首《龍行龘龘》,開頭悠揚(yáng)的女聲民歌和激昂揚(yáng)的男女聲對(duì)唱部分形成鮮明對(duì)比,一首大氣磅礴的國風(fēng)歌曲渾然天成。

      風(fēng)格

      在風(fēng)格控制上,它可以參考指定音頻,學(xué)習(xí)特定特定的曲風(fēng)。

      它創(chuàng)作的這首《飛翔鳥》,聽起來非常像學(xué)習(xí)了許巍的民謠風(fēng)。

      自動(dòng)前奏、間奏、尾奏

      音樂制作人時(shí)常面臨的一個(gè)問題是,已經(jīng)有了合適的歌曲,但缺少前奏和尾奏,絞盡腦汁也找不到合適的。

      這時(shí)候,就可以找「天工SkyMusic」幫忙了。它補(bǔ)充完整的這首《Guitar》,慵懶隨意的唱腔搭配恰到好處,聽起來非常治愈。

      和聲

      根據(jù)歌詞描述,「天工SkyMusic」給這首《水調(diào)歌頭》自動(dòng)添加上了和聲。

      幾個(gè)男聲的和聲和主唱的音色十分契合,再結(jié)合節(jié)奏鮮明的鼓點(diǎn),一首旋律激昂大氣的國風(fēng)《水調(diào)歌頭》就這樣誕生了。

      歌詞技巧

      而且,模型還可以參考音頻的特征,智能地學(xué)習(xí)演唱技巧。

      比如這首歌劇版的《我的滑板鞋》,就演繹出了別樣的風(fēng)味。

      王者榮耀、周杰倫、鳳凰傳奇,你想要的它都有

      時(shí)下的流行icon,怎么和流行音樂融合?如果找對(duì)了叩擊大眾心弦的那個(gè)點(diǎn),抖音神曲并不是一件難事。

      「天工SkyMusic」,讓這一切都成為可能。

      輸入帶有結(jié)構(gòu)的歌詞+參考音頻,就能把自己玩王者榮耀的體驗(yàn)寫出一首歌了:「我真的氣死了,skr skr~」

      我今天打開王者榮耀選趙云

      開局后我走到哪里都被爆殺

      我真的氣死了只能躲在草叢

      或者,我們還可以根據(jù)已有的歌詞進(jìn)行二創(chuàng)。

      比如輸入《彩虹》的歌詞,再錄一段《最長的電影》主歌和副歌30s的音頻做參考,兩首歌「生出」的一首新歌就誕生了:

      聽得出來,部分旋律還是有可圈可點(diǎn)之處的。

      再用蕾哈娜的《Diamonds》的詞,配上霉霉維密秀震撼神曲《See You Again》試試?

      出來的「混血」女聲英文歌是這樣的:

      AI版Diamonds,新智元,54秒

      唱腔控音極好,高低音轉(zhuǎn)換流暢,其中幾句的多處轉(zhuǎn)音頗為神奇,值得細(xì)品。在人類作曲家中似乎很少聽到這么「鬼才」的旋律組合,這就是來自AI的巧思吧。

      而且非常神奇的是,歌曲的唱腔忽然就變得像蕾哈娜了,跟霉霉的嗓音并不像。

      接下來,讓我們來爆改一下鳳凰傳奇的《最炫民族風(fēng)》,不過跟剛才不同的是,這次輸入的都是原歌詞和原曲,讓它自我「整改」一下。

      出來的,是另一種感覺的廣場(chǎng)舞神曲。

      不僅如此,我們甚至還可以把突發(fā)的熱點(diǎn)事件,分分鐘變成一首爆款潛力股。

      說唱版熱!父咚龠\(yùn)轉(zhuǎn)的機(jī)械」了解一下:

      那么,「天工SkyMusic」是怎么做到如此驚艷的效果呢?

      為此,我們最近特地找到初創(chuàng)團(tuán)隊(duì)的大佬聊了聊。

      走少有人走的路

      MIDI or 音頻?破釜沉舟

      相信大家心里都有一個(gè)疑問:怎么以前沒有好聽的音樂AI,最近才扎堆冒出來呢?

      當(dāng)然是因?yàn)?mdash;—它非常難!

      好的AI音樂難做,一個(gè)原因是此前主流的符號(hào)派(MIDI)技術(shù)效果太差;還有一個(gè)原因,就是過往的音樂AI基本都在無人聲的BGM領(lǐng)域,有人聲的Song要么做不出來,要么效果也是很差。

      一首歌有人聲和無人聲的吸引力程度差別有多大,不言自明。

      具體來說,AI音樂生成有兩大主要技術(shù)路徑,符號(hào)派、大模型派。

      符號(hào)派以MIDI為主流。MIDI全稱Musical Instrument Digital Interface,本身不包含音頻文件,而是記錄音樂演奏的指令,比如哪個(gè)音符被播放、音量是多少、音符持續(xù)的時(shí)間等。

      因?yàn)椴荒苤苯由筛枨,后期還需加上樂器、旋律、音色、人聲。

      第二條大模型音樂音頻生成路線,能夠直接學(xué)習(xí)并生成音頻波形,樂器、人聲、旋律、音量、音符都是一體化端到端生成。

      符號(hào)(MIDI)方向的研究,學(xué)界有很多,然而效果卻很差;大模型音頻方向則極難,做的極少。

      面對(duì)兩條路線,選哪個(gè)呢?

      立項(xiàng)之初,公司內(nèi)部就面臨著這一艱難的選擇。前者效果不好,后者則極有可能會(huì)做不出來,整個(gè)項(xiàng)目雞飛蛋打。

      最后,「天工SkyMusic」研發(fā)團(tuán)隊(duì)經(jīng)過投票,一致決定選擇音頻方案。大家公認(rèn):寧愿冒著巨大風(fēng)險(xiǎn),也要做出真正好的AI音樂。

      幸運(yùn)的是,他們成功了。

      注意,下面你看到的這張圖,可謂價(jià)值連城。

      SkyMusic核心技術(shù)架構(gòu)

      因?yàn),目前市面上沒有任何可用的AI音樂大模型企業(yè),公開過自己的技術(shù)路徑,包括Suno。

      ChatGPT出來后,LLM百花齊放,這是因?yàn)橛袩o數(shù)開源項(xiàng)目可以參考。

      但音頻路線+人聲Song路線,沒有任何公開資料可參考,天工砸進(jìn)去數(shù)不清的研發(fā)資源和算力算法投入,才摸索出了上面這張極其寶貴的路徑圖。

      該踩的坑,團(tuán)隊(duì)都已經(jīng)提前踩過了,而如今這個(gè)可復(fù)現(xiàn)的方案,也被他們慷慨貢獻(xiàn)了出來。

      而且巧合的是,雖然最終的框架與Sora類似,但其實(shí)在研發(fā)的時(shí)候Sora還沒誕生呢。

      只能說,英雄所見略同。

      談一談音樂

      在類Sora架構(gòu)中,Large-scale Transformer負(fù)責(zé)譜曲,通過學(xué)習(xí)Music Patches的上下文依賴關(guān)系來控制音樂結(jié)構(gòu)和風(fēng)格。

      這樣,就完全實(shí)現(xiàn)了對(duì)風(fēng)格的掌控。

      而Diffusion Transformer則負(fù)責(zé)演唱,也即聲音的生成和渲染,通過LDM技術(shù),將Music Patches轉(zhuǎn)換為高質(zhì)量音頻輸出,因此音樂具有清晰的風(fēng)格特征和音質(zhì)表現(xiàn)。

      當(dāng)AI開始學(xué)習(xí)情感

      而如果我們仔細(xì)聽上面的作品,就會(huì)感覺到:「天工SkyMusic」對(duì)于音樂情感的捕捉極為細(xì)膩。

      它生成的音樂,仿佛有著豐富的情感脈絡(luò),和一種動(dòng)態(tài)的變化。

      正是這種對(duì)于情感表達(dá)的強(qiáng)化,讓它的作品能夠根據(jù)歌詞和音樂元素,生成不同情感氛圍的作品。

      相比于以往側(cè)重于智力提升的AGI模型,它的「情感AGI」路線,則顯得尤為珍稀和寶貴。

      因?yàn)椋粌H是一個(gè)聰明的AI,還是一個(gè)努力去理解和模擬人類情感、用音樂去表達(dá)情感的AI。

      跟市面上那些側(cè)重旋律創(chuàng)作、學(xué)習(xí)大量樂段的旋律,或是深入和弦、節(jié)奏、編曲層次的AI相比,「天工SkyMusic」的情感維度,也成為它在行業(yè)中的差異化亮點(diǎn)。

      比Suno和Stable Audio2.0強(qiáng)在哪兒

      與市面上Suno等AI音樂工具相比,AI音樂生成大模型「天工SkyMusic」有著獨(dú)特的優(yōu)勢(shì)。

      它背后采用的,是基于MoE架構(gòu)的4000億級(jí)參數(shù)多模態(tài)超級(jí)大模型「天工3.0」。

      在業(yè)界領(lǐng)先的邏輯推理、語義理解和泛化能力的加持下,「天工SkyMusic」的響應(yīng)速度和訓(xùn)練推理效率,也得到了極大地提升。

      首先在中文上,「天工SkyMusic」的AI人聲合成極為優(yōu)秀,發(fā)音清晰、無異響。

      特別是,得益于在中文語境中的深度優(yōu)化,其在中文演唱效果上,更符合中國市場(chǎng)的需求。

      其次,在音樂風(fēng)格上,「天工SkyMusic」更略勝一籌。

      它能夠通過歌詞控制情緒變化,并實(shí)現(xiàn)如顫音、歌劇、吟唱等多種歌唱技巧,使生成的音樂作品,情感更加豐富且貼合情境。

      此外,「天工SkyMusic」還支持創(chuàng)作說唱、民謠、放克、古風(fēng)、電子等多種音樂風(fēng)格,用戶可以根據(jù)個(gè)人喜好定制音樂風(fēng)格。

      不過,不僅僅是「天工SkyMusic」,包括Suno等AI工具,都距以假亂真的專家音樂水平相對(duì)較遠(yuǎn)。

      因此,這也是昆侖萬維決定將其技術(shù)架構(gòu)公開,希望業(yè)界一同推動(dòng)這一領(lǐng)域發(fā)展的原因。

      AI不會(huì)取代音樂人

      「天工SkyMusic」、Suno之外,近幾天另一個(gè)堪稱「Sora版」的神秘音樂模型Udio,也引發(fā)了全網(wǎng)關(guān)注。

      拿到測(cè)試資格的網(wǎng)友,紛紛表示Udio音樂生成強(qiáng)太多了,甚至讓人感受到了AGI的力量。

      難道AI已經(jīng)真的到了,能夠取代人類音樂歌手的地步了嗎?

      原創(chuàng),真的已經(jīng)不再重要?

      顯然都不是。

      AI音樂生成技術(shù)的快速迭代,無疑正在改變音樂創(chuàng)作的方式和體驗(yàn)。

      但,這并不意味著AI會(huì)完全取代音樂人,或讓原創(chuàng)變得不再重要。

      相反,AI音樂生成技術(shù)與音樂創(chuàng)作者,可以相輔相成。

      一方面,強(qiáng)大的AI可以降低音樂創(chuàng)作的門檻。

      即便是非專業(yè)人士,也擁有機(jī)會(huì)接觸音樂,創(chuàng)作出有一定水準(zhǔn)的音樂作品。

      這將極大地拓展音樂創(chuàng)作者群體,激發(fā)多元的音樂形態(tài)和跨界合作。

      另一方面,如「天工SkyMusic」這樣的工具可以賦能音樂創(chuàng)作者。

      它們可以通用簡(jiǎn)化旋律原型生成、提供創(chuàng)意靈感、協(xié)助制作高質(zhì)量伴奏等創(chuàng)作環(huán)節(jié),幫助音樂人提高創(chuàng)作效率。

      昆侖萬維董事長兼CEO方漢曾在采訪中說過這么一句話:

      在內(nèi)容生產(chǎn)行業(yè),有這么一條規(guī)律:如果內(nèi)容制作門檻降低1倍,那么內(nèi)容創(chuàng)作者的創(chuàng)作數(shù)量將會(huì)增加10倍。

      因此,當(dāng)音樂創(chuàng)作門檻降低之后,就會(huì)有更多的人成為「原創(chuàng)音樂人」。

      總而言之,若以靜態(tài)的角度看待行業(yè),許多人會(huì)認(rèn)為,AI音樂的出現(xiàn)「切走了音樂行業(yè)的蛋糕」。

      但動(dòng)態(tài)地來看,技術(shù)的進(jìn)步能夠讓音樂市場(chǎng)越來越大,行業(yè)蓬勃發(fā)展,孕育出全新的內(nèi)容生態(tài)、音樂業(yè)態(tài)。

      比如,按需定制音樂服務(wù)、在線音樂創(chuàng)作工具訂閱等新的商業(yè)模式,可以為音樂產(chǎn)業(yè)帶來新的消費(fèi)增長。

      當(dāng)前,國內(nèi)許多音樂平臺(tái)都為Suno AI做了專欄,直接解鎖了一把新的流量密碼。

      而面向教育,AI音樂創(chuàng)作可以幫助我們快速感知音樂創(chuàng)作原理,嘗試多種音樂風(fēng)格創(chuàng)作,為音樂產(chǎn)業(yè)培養(yǎng)孵化新一代人才。

      讓每個(gè)人更好表達(dá)自我

      更宏觀地講,除了圖片、視頻、AI音樂也是通向情感AGI路上的一個(gè)重要的組成部分。

      音樂,不僅是一種藝術(shù)形式,更是情感交流和表達(dá)的方式。

      而且,音樂更能觸及人的情感深處,是情感表達(dá)的重要媒介。

      針對(duì)AGI開展的研究中,許多團(tuán)隊(duì)都將重點(diǎn)放在模型智力的擴(kuò)展與增強(qiáng)上。

      而真正的AGI的終極目標(biāo)是——更像人,兼具感性理性、推理邏輯思維,以及情感理解等能力。

      正是意識(shí)到了這點(diǎn),一直將情感AGI視為重要方向的昆侖萬維,希望攻克音樂AI這一大技術(shù)難題。

      在研發(fā)「天工SkyMusic」過程中,研究團(tuán)隊(duì)積極探索音頻內(nèi)容,尤其是音樂對(duì)于情感理解與表達(dá)的獨(dú)特優(yōu)勢(shì)。

      他們不僅關(guān)注音樂作品的譜曲、編排和演唱等技術(shù)層面,更強(qiáng)調(diào)模型對(duì)音樂情感色彩的感知和再現(xiàn)能力。

      「天工SkyMusic」在情感表達(dá)的準(zhǔn)確性、多樣性,以及歌詞段落情緒變化的敏感捕捉,印證了昆侖萬維在情感AGI上取得實(shí)質(zhì)性進(jìn)展。

      當(dāng)然,除了AI音樂生成,AI寫作、繪畫、動(dòng)畫等領(lǐng)域,昆侖萬維也在探索其在創(chuàng)作工具中的應(yīng)用。

      在情感AGI這條主線上,他們希望通過自研技術(shù),幫助創(chuàng)作者更好地通過AI技術(shù)表達(dá)和傳遞情感內(nèi)涵。

      未來三十年,會(huì)有越來越多的人表達(dá)自我,人類社會(huì)的自我表達(dá)側(cè)要翻1000倍。

      昆侖萬維接下來所做的,便是讓AI降低人類創(chuàng)作門檻,讓我們每個(gè)人都加入這股AI音樂大潮。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    新聞

    明火炊具市場(chǎng):三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實(shí)力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。

    研究

    中國信通院羅松:深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析體系

    9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專題論壇在沈陽成功舉辦。