穩(wěn)扎穩(wěn)打,中影光峰4K 14米 VLED LED電影屏通過DCI認(rèn)證并投入市場安吉爾空間大師亮相IFA 斬獲年度創(chuàng)新產(chǎn)品成果大獎(jiǎng)電動(dòng)自行車強(qiáng)制性“國標(biāo)”再修訂,綠源電動(dòng)車以創(chuàng)新技術(shù)引領(lǐng)產(chǎn)業(yè)高質(zhì)量發(fā)展輕松籌:十年深耕大健康領(lǐng)域,打造全方位健康保障生態(tài)面對承壓的小家電市場,小熊、蘇泊爾上半年為何一降一增?研發(fā)投入高增、占營收比超5%,科沃斯、石頭科技升高技術(shù)壁壘激光顯示全面“向新”發(fā)展,未來激光電視主機(jī)僅有iPad大小2024年冷年空調(diào)市場總結(jié):規(guī)模下探,結(jié)構(gòu)降級,空調(diào)行業(yè)邁入新周OpenAI o1全方位SOTA登頂lmsys推薦榜!數(shù)學(xué)能力碾壓Claude和谷歌模型,o1-mini并列第一iPhone16系列新品正式發(fā)售 新品爆發(fā)就在抖音電商廣告燒錢過億,70%用戶靠投流,大模型算不過成本賬?PS1經(jīng)典配色!索尼發(fā)布30周年紀(jì)念版PS5、PS5 Pro:限量賣泰順:聚智聚力數(shù)字創(chuàng)客激發(fā)鄉(xiāng)村振興新動(dòng)能電商12年 ,ALL IN 小紅書,開店3月賣出1100萬Mate 70最受期待!華為三款重磅機(jī)型蓄勢待發(fā)云天勵(lì)飛“算力積木”架構(gòu):引領(lǐng)邊緣AI芯片新變革徹底告別3999元!小米15入網(wǎng) 支持90W快充FF發(fā)布第二品牌Faraday X:對標(biāo)豐田 專注增程式混動(dòng)車型黑神話悟空總收入超67億:銷量已超2000萬份通快成立激光業(yè)務(wù)區(qū)域中心(中國),強(qiáng)勢布局中國市場
  • 首頁 > 云計(jì)算頻道 > 大模型

    國內(nèi)首款A(yù)I音樂大模型一曲封神!核心技術(shù)業(yè)內(nèi)首公開,爆改霉霉周杰倫效果驚艷

    2024年04月11日 14:49:41   來源:新智元公眾號(hào)

      國內(nèi)首個(gè)音樂ChatGPT來了!提前試用「天工SkyMusic」后,整個(gè)編輯部暴風(fēng)式哭泣:它改編的周杰倫和鳳凰傳奇簡直封神。團(tuán)隊(duì)選擇了一條少有人走的路,他們賭贏了:比OpenAI提前押中了Sora架構(gòu),并且首次在業(yè)內(nèi)公開技術(shù)圖。

      最近幾周的震撼,是Suno給的。

      重磅升級的Suno V3,不斷有刷屏全網(wǎng)的「神曲」誕生,讓全世界為之瘋狂。

      誰能想到,音樂的ChatGPT時(shí)刻,竟然就這么來了。

      圈內(nèi)所有人都在討論:這一波,音樂產(chǎn)業(yè)沒準(zhǔn)要被AI一鍋端了。

      國內(nèi)首款音樂AI來了!

      這不,就在上周,國內(nèi)首款A(yù)I音樂生成大模型「天工SkyMusic」也正式開啟內(nèi)測了!

      各路「大神」已經(jīng)開始在首頁秀創(chuàng)作了

      沒有靈感怎么辦?產(chǎn)品頁面甚至為你配備好了靈感話題。

      試玩一番后,小編再次體會(huì)了一遍,當(dāng)初Suno給人的那種驚艷感。

      初體驗(yàn):一秒夢回80年代,人聲以假亂真

      比如這首《古韻悠長》,清亮的女聲一開口,瞬間夢回80年代,是我媽跳廣場舞的那個(gè)feel了。

      這首《愛是幸福》,更是好聽到讓小編驚掉下巴。旋律朗朗上口,歌詞雋永又令人無限回味,細(xì)聽有一股蔡健雅的味道。

      除了歌曲整體的音樂品質(zhì)非常高,極具欣賞價(jià)值之外,「天工SkyMusic」的最大亮點(diǎn)之一,就是它清晰逼真的人聲。

      要知道,人聲合成,是AI音樂生成中最重要、最能體現(xiàn)生成效果和品質(zhì)的維度。

      而「天工SkyMusic」的AI人聲合成,能夠產(chǎn)生中文水平極高、發(fā)音清晰的歌聲,展現(xiàn)出卓越的音頻質(zhì)量和逼真的演唱效果,已經(jīng)達(dá)到業(yè)內(nèi)SOTA水平!

      在這方面,「天工SkyMusic」可是爆殺了幾個(gè)外來大模型。他們在中文發(fā)音上,簡直是慘不忍睹沒眼看。

      比如Suno的這首《宮保雞丁》,唱起中文歌來也是老外說中文那味兒。

      可見,要想做中文歌,還得看咱自己的音樂大模型!

      可控性,音樂人的專業(yè)指標(biāo)

      接下來,我們就得上一些專業(yè)指標(biāo)了。

      歌詞段落

      一首歌為什么能夠爆紅全網(wǎng),火遍大江南北?

      從流行音樂的角度,它需要有強(qiáng)烈的旋律、鮮明的節(jié)奏、多彩的和聲、激昂的情感。

      因此,想要做出一首抓耳的流行歌,不同歌詞段落間微妙的情緒變化,就是一個(gè)很關(guān)鍵的點(diǎn)。

      而「天工SkyMusic」在這方面,就格外擅長——

      它能通過歌詞來控制歌曲,體現(xiàn)出主歌和副歌、前奏和主歌的段落差異。

      比如這首《龍行龘龘》,開頭悠揚(yáng)的女聲民歌和激昂揚(yáng)的男女聲對唱部分形成鮮明對比,一首大氣磅礴的國風(fēng)歌曲渾然天成。

      風(fēng)格

      在風(fēng)格控制上,它可以參考指定音頻,學(xué)習(xí)特定特定的曲風(fēng)。

      它創(chuàng)作的這首《飛翔鳥》,聽起來非常像學(xué)習(xí)了許巍的民謠風(fēng)。

      自動(dòng)前奏、間奏、尾奏

      音樂制作人時(shí)常面臨的一個(gè)問題是,已經(jīng)有了合適的歌曲,但缺少前奏和尾奏,絞盡腦汁也找不到合適的。

      這時(shí)候,就可以找「天工SkyMusic」幫忙了。它補(bǔ)充完整的這首《Guitar》,慵懶隨意的唱腔搭配恰到好處,聽起來非常治愈。

      和聲

      根據(jù)歌詞描述,「天工SkyMusic」給這首《水調(diào)歌頭》自動(dòng)添加上了和聲。

      幾個(gè)男聲的和聲和主唱的音色十分契合,再結(jié)合節(jié)奏鮮明的鼓點(diǎn),一首旋律激昂大氣的國風(fēng)《水調(diào)歌頭》就這樣誕生了。

      歌詞技巧

      而且,模型還可以參考音頻的特征,智能地學(xué)習(xí)演唱技巧。

      比如這首歌劇版的《我的滑板鞋》,就演繹出了別樣的風(fēng)味。

      王者榮耀、周杰倫、鳳凰傳奇,你想要的它都有

      時(shí)下的流行icon,怎么和流行音樂融合?如果找對了叩擊大眾心弦的那個(gè)點(diǎn),抖音神曲并不是一件難事。

      「天工SkyMusic」,讓這一切都成為可能。

      輸入帶有結(jié)構(gòu)的歌詞+參考音頻,就能把自己玩王者榮耀的體驗(yàn)寫出一首歌了:「我真的氣死了,skr skr~」

      我今天打開王者榮耀選趙云

      開局后我走到哪里都被爆殺

      我真的氣死了只能躲在草叢

      或者,我們還可以根據(jù)已有的歌詞進(jìn)行二創(chuàng)。

      比如輸入《彩虹》的歌詞,再錄一段《最長的電影》主歌和副歌30s的音頻做參考,兩首歌「生出」的一首新歌就誕生了:

      聽得出來,部分旋律還是有可圈可點(diǎn)之處的。

      再用蕾哈娜的《Diamonds》的詞,配上霉霉維密秀震撼神曲《See You Again》試試?

      出來的「混血」女聲英文歌是這樣的:

      AI版Diamonds,新智元,54秒

      唱腔控音極好,高低音轉(zhuǎn)換流暢,其中幾句的多處轉(zhuǎn)音頗為神奇,值得細(xì)品。在人類作曲家中似乎很少聽到這么「鬼才」的旋律組合,這就是來自AI的巧思吧。

      而且非常神奇的是,歌曲的唱腔忽然就變得像蕾哈娜了,跟霉霉的嗓音并不像。

      接下來,讓我們來爆改一下鳳凰傳奇的《最炫民族風(fēng)》,不過跟剛才不同的是,這次輸入的都是原歌詞和原曲,讓它自我「整改」一下。

      出來的,是另一種感覺的廣場舞神曲。

      不僅如此,我們甚至還可以把突發(fā)的熱點(diǎn)事件,分分鐘變成一首爆款潛力股。

      說唱版熱梗「高速運(yùn)轉(zhuǎn)的機(jī)械」了解一下:

      那么,「天工SkyMusic」是怎么做到如此驚艷的效果呢?

      為此,我們最近特地找到初創(chuàng)團(tuán)隊(duì)的大佬聊了聊。

      走少有人走的路

      MIDI or 音頻?破釜沉舟

      相信大家心里都有一個(gè)疑問:怎么以前沒有好聽的音樂AI,最近才扎堆冒出來呢?

      當(dāng)然是因?yàn)?mdash;—它非常難!

      好的AI音樂難做,一個(gè)原因是此前主流的符號(hào)派(MIDI)技術(shù)效果太差;還有一個(gè)原因,就是過往的音樂AI基本都在無人聲的BGM領(lǐng)域,有人聲的Song要么做不出來,要么效果也是很差。

      一首歌有人聲和無人聲的吸引力程度差別有多大,不言自明。

      具體來說,AI音樂生成有兩大主要技術(shù)路徑,符號(hào)派、大模型派。

      符號(hào)派以MIDI為主流。MIDI全稱Musical Instrument Digital Interface,本身不包含音頻文件,而是記錄音樂演奏的指令,比如哪個(gè)音符被播放、音量是多少、音符持續(xù)的時(shí)間等。

      因?yàn)椴荒苤苯由筛枨笃谶需加上樂器、旋律、音色、人聲。

      第二條大模型音樂音頻生成路線,能夠直接學(xué)習(xí)并生成音頻波形,樂器、人聲、旋律、音量、音符都是一體化端到端生成。

      符號(hào)(MIDI)方向的研究,學(xué)界有很多,然而效果卻很差;大模型音頻方向則極難,做的極少。

      面對兩條路線,選哪個(gè)呢?

      立項(xiàng)之初,公司內(nèi)部就面臨著這一艱難的選擇。前者效果不好,后者則極有可能會(huì)做不出來,整個(gè)項(xiàng)目雞飛蛋打。

      最后,「天工SkyMusic」研發(fā)團(tuán)隊(duì)經(jīng)過投票,一致決定選擇音頻方案。大家公認(rèn):寧愿冒著巨大風(fēng)險(xiǎn),也要做出真正好的AI音樂。

      幸運(yùn)的是,他們成功了。

      注意,下面你看到的這張圖,可謂價(jià)值連城。

      SkyMusic核心技術(shù)架構(gòu)

      因?yàn),目前市面上沒有任何可用的AI音樂大模型企業(yè),公開過自己的技術(shù)路徑,包括Suno。

      ChatGPT出來后,LLM百花齊放,這是因?yàn)橛袩o數(shù)開源項(xiàng)目可以參考。

      但音頻路線+人聲Song路線,沒有任何公開資料可參考,天工砸進(jìn)去數(shù)不清的研發(fā)資源和算力算法投入,才摸索出了上面這張極其寶貴的路徑圖。

      該踩的坑,團(tuán)隊(duì)都已經(jīng)提前踩過了,而如今這個(gè)可復(fù)現(xiàn)的方案,也被他們慷慨貢獻(xiàn)了出來。

      而且巧合的是,雖然最終的框架與Sora類似,但其實(shí)在研發(fā)的時(shí)候Sora還沒誕生呢。

      只能說,英雄所見略同。

      談一談音樂

      在類Sora架構(gòu)中,Large-scale Transformer負(fù)責(zé)譜曲,通過學(xué)習(xí)Music Patches的上下文依賴關(guān)系來控制音樂結(jié)構(gòu)和風(fēng)格。

      這樣,就完全實(shí)現(xiàn)了對風(fēng)格的掌控。

      而Diffusion Transformer則負(fù)責(zé)演唱,也即聲音的生成和渲染,通過LDM技術(shù),將Music Patches轉(zhuǎn)換為高質(zhì)量音頻輸出,因此音樂具有清晰的風(fēng)格特征和音質(zhì)表現(xiàn)。

      當(dāng)AI開始學(xué)習(xí)情感

      而如果我們仔細(xì)聽上面的作品,就會(huì)感覺到:「天工SkyMusic」對于音樂情感的捕捉極為細(xì)膩。

      它生成的音樂,仿佛有著豐富的情感脈絡(luò),和一種動(dòng)態(tài)的變化。

      正是這種對于情感表達(dá)的強(qiáng)化,讓它的作品能夠根據(jù)歌詞和音樂元素,生成不同情感氛圍的作品。

      相比于以往側(cè)重于智力提升的AGI模型,它的「情感AGI」路線,則顯得尤為珍稀和寶貴。

      因?yàn),它不僅是一個(gè)聰明的AI,還是一個(gè)努力去理解和模擬人類情感、用音樂去表達(dá)情感的AI。

      跟市面上那些側(cè)重旋律創(chuàng)作、學(xué)習(xí)大量樂段的旋律,或是深入和弦、節(jié)奏、編曲層次的AI相比,「天工SkyMusic」的情感維度,也成為它在行業(yè)中的差異化亮點(diǎn)。

      比Suno和Stable Audio2.0強(qiáng)在哪兒

      與市面上Suno等AI音樂工具相比,AI音樂生成大模型「天工SkyMusic」有著獨(dú)特的優(yōu)勢。

      它背后采用的,是基于MoE架構(gòu)的4000億級參數(shù)多模態(tài)超級大模型「天工3.0」。

      在業(yè)界領(lǐng)先的邏輯推理、語義理解和泛化能力的加持下,「天工SkyMusic」的響應(yīng)速度和訓(xùn)練推理效率,也得到了極大地提升。

      首先在中文上,「天工SkyMusic」的AI人聲合成極為優(yōu)秀,發(fā)音清晰、無異響。

      特別是,得益于在中文語境中的深度優(yōu)化,其在中文演唱效果上,更符合中國市場的需求。

      其次,在音樂風(fēng)格上,「天工SkyMusic」更略勝一籌。

      它能夠通過歌詞控制情緒變化,并實(shí)現(xiàn)如顫音、歌劇、吟唱等多種歌唱技巧,使生成的音樂作品,情感更加豐富且貼合情境。

      此外,「天工SkyMusic」還支持創(chuàng)作說唱、民謠、放克、古風(fēng)、電子等多種音樂風(fēng)格,用戶可以根據(jù)個(gè)人喜好定制音樂風(fēng)格。

      不過,不僅僅是「天工SkyMusic」,包括Suno等AI工具,都距以假亂真的專家音樂水平相對較遠(yuǎn)。

      因此,這也是昆侖萬維決定將其技術(shù)架構(gòu)公開,希望業(yè)界一同推動(dòng)這一領(lǐng)域發(fā)展的原因。

      AI不會(huì)取代音樂人

      「天工SkyMusic」、Suno之外,近幾天另一個(gè)堪稱「Sora版」的神秘音樂模型Udio,也引發(fā)了全網(wǎng)關(guān)注。

      拿到測試資格的網(wǎng)友,紛紛表示Udio音樂生成強(qiáng)太多了,甚至讓人感受到了AGI的力量。

      難道AI已經(jīng)真的到了,能夠取代人類音樂歌手的地步了嗎?

      原創(chuàng),真的已經(jīng)不再重要?

      顯然都不是。

      AI音樂生成技術(shù)的快速迭代,無疑正在改變音樂創(chuàng)作的方式和體驗(yàn)。

      但,這并不意味著AI會(huì)完全取代音樂人,或讓原創(chuàng)變得不再重要。

      相反,AI音樂生成技術(shù)與音樂創(chuàng)作者,可以相輔相成。

      一方面,強(qiáng)大的AI可以降低音樂創(chuàng)作的門檻。

      即便是非專業(yè)人士,也擁有機(jī)會(huì)接觸音樂,創(chuàng)作出有一定水準(zhǔn)的音樂作品。

      這將極大地拓展音樂創(chuàng)作者群體,激發(fā)多元的音樂形態(tài)和跨界合作。

      另一方面,如「天工SkyMusic」這樣的工具可以賦能音樂創(chuàng)作者。

      它們可以通用簡化旋律原型生成、提供創(chuàng)意靈感、協(xié)助制作高質(zhì)量伴奏等創(chuàng)作環(huán)節(jié),幫助音樂人提高創(chuàng)作效率。

      昆侖萬維董事長兼CEO方漢曾在采訪中說過這么一句話:

      在內(nèi)容生產(chǎn)行業(yè),有這么一條規(guī)律:如果內(nèi)容制作門檻降低1倍,那么內(nèi)容創(chuàng)作者的創(chuàng)作數(shù)量將會(huì)增加10倍。

      因此,當(dāng)音樂創(chuàng)作門檻降低之后,就會(huì)有更多的人成為「原創(chuàng)音樂人」。

      總而言之,若以靜態(tài)的角度看待行業(yè),許多人會(huì)認(rèn)為,AI音樂的出現(xiàn)「切走了音樂行業(yè)的蛋糕」。

      但動(dòng)態(tài)地來看,技術(shù)的進(jìn)步能夠讓音樂市場越來越大,行業(yè)蓬勃發(fā)展,孕育出全新的內(nèi)容生態(tài)、音樂業(yè)態(tài)。

      比如,按需定制音樂服務(wù)、在線音樂創(chuàng)作工具訂閱等新的商業(yè)模式,可以為音樂產(chǎn)業(yè)帶來新的消費(fèi)增長。

      當(dāng)前,國內(nèi)許多音樂平臺(tái)都為Suno AI做了專欄,直接解鎖了一把新的流量密碼。

      而面向教育,AI音樂創(chuàng)作可以幫助我們快速感知音樂創(chuàng)作原理,嘗試多種音樂風(fēng)格創(chuàng)作,為音樂產(chǎn)業(yè)培養(yǎng)孵化新一代人才。

      讓每個(gè)人更好表達(dá)自我

      更宏觀地講,除了圖片、視頻、AI音樂也是通向情感AGI路上的一個(gè)重要的組成部分。

      音樂,不僅是一種藝術(shù)形式,更是情感交流和表達(dá)的方式。

      而且,音樂更能觸及人的情感深處,是情感表達(dá)的重要媒介。

      針對AGI開展的研究中,許多團(tuán)隊(duì)都將重點(diǎn)放在模型智力的擴(kuò)展與增強(qiáng)上。

      而真正的AGI的終極目標(biāo)是——更像人,兼具感性理性、推理邏輯思維,以及情感理解等能力。

      正是意識(shí)到了這點(diǎn),一直將情感AGI視為重要方向的昆侖萬維,希望攻克音樂AI這一大技術(shù)難題。

      在研發(fā)「天工SkyMusic」過程中,研究團(tuán)隊(duì)積極探索音頻內(nèi)容,尤其是音樂對于情感理解與表達(dá)的獨(dú)特優(yōu)勢。

      他們不僅關(guān)注音樂作品的譜曲、編排和演唱等技術(shù)層面,更強(qiáng)調(diào)模型對音樂情感色彩的感知和再現(xiàn)能力。

      「天工SkyMusic」在情感表達(dá)的準(zhǔn)確性、多樣性,以及歌詞段落情緒變化的敏感捕捉,印證了昆侖萬維在情感AGI上取得實(shí)質(zhì)性進(jìn)展。

      當(dāng)然,除了AI音樂生成,AI寫作、繪畫、動(dòng)畫等領(lǐng)域,昆侖萬維也在探索其在創(chuàng)作工具中的應(yīng)用。

      在情感AGI這條主線上,他們希望通過自研技術(shù),幫助創(chuàng)作者更好地通過AI技術(shù)表達(dá)和傳遞情感內(nèi)涵。

      未來三十年,會(huì)有越來越多的人表達(dá)自我,人類社會(huì)的自我表達(dá)側(cè)要翻1000倍。

      昆侖萬維接下來所做的,便是讓AI降低人類創(chuàng)作門檻,讓我們每個(gè)人都加入這股AI音樂大潮。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    TCL實(shí)業(yè)榮獲IFA2024多項(xiàng)大獎(jiǎng),展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費(fèi)品展覽會(huì)(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計(jì)及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)成功斬獲兩項(xiàng)“IFA全球產(chǎn)品設(shè)計(jì)創(chuàng)新大獎(jiǎng)”金獎(jiǎng),有力證明了其在全球市場的強(qiáng)大影響力。

    新聞

    敢闖技術(shù)無人區(qū) TCL實(shí)業(yè)斬獲多項(xiàng)AWE 2024艾普蘭獎(jiǎng)

    近日,中國家電及消費(fèi)電子博覽會(huì)(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項(xiàng)AWE 2024艾普蘭大獎(jiǎng)。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    “純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

    2024年3月12日,由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會(huì)在上海盛大舉行。

    研究

    2024全球開發(fā)者先鋒大會(huì)即將開幕

    由世界人工智能大會(huì)組委會(huì)、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會(huì)共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會(huì)聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開放原子開源基金會(huì)主辦的“2024全球開發(fā)者先鋒大會(huì)”,將于2024年3月23日至24日舉辦。