國内首款AI音樂大模型一曲封神！爆改黴黴周傑倫效果驚豔

國内首個音樂ChatGPT來了！提前試用「天工SkyMusic」後，整個編輯部暴風式哭泣：它改編的周傑倫和鳳凰傳奇簡直封神。團隊選擇了一條少有人走的路，他們賭赢了：比OpenAI提前押中了Sora架構，并且首次在業内破紀錄公開技術圖。

最近幾周的震撼，是Suno給的。

重磅更新的Suno V3，不斷有刷屏全網的「神曲」誕生，讓全世界為之瘋狂。

誰能想到，音樂的ChatGPT時刻，竟然就這麼來了。

圈内所有人都在讨論：這一波，音樂産業沒準要被AI一鍋端了。

國内首款音樂AI來了！

這不，就在上周，國内首款AI音樂生成大模型「天工SkyMusic」也正式開啟内測了！

各路「大神」已經開始在首頁秀創作了

沒有靈感怎麼辦？産品頁面甚至為你配備好了靈感話題。

試玩一番後，小編再次體會了一遍，當初Suno給人的那種驚豔感。

初體驗：一秒夢回80年代，人聲以假亂真

比如這首《古韻悠長》，清亮的女聲一開口，瞬間夢回80年代，是我媽跳廣場舞的那個feel了。

這首《愛是幸福》，更是好聽到讓小編驚掉下巴。旋律朗朗上口，歌詞隽永又令人無限回味，細聽有一股蔡健雅的味道。

除了歌曲整體的音樂品質非常高，極具欣賞價值之外，「天工SkyMusic」的最大亮點之一，就是它清晰逼真的人聲。

要知道，人聲合成，是AI音樂生成中最重要、最能展現生成效果和品質的次元。

而「天工SkyMusic」的AI人聲合成，能夠産生中文水準極高、發音清晰的歌聲，展現出卓越的音頻品質和逼真的演唱效果，已經達到業内SOTA水準！

要知道，在這方面，「天工SkyMusic」可是爆殺了幾個外來大模型。他們在中文發音上，簡直是慘不忍睹沒眼看。

比如Suno的這首《宮保雞丁》，唱起中文歌來也是老外說中文那味兒。

Suno的粵語《七裡香》，發音也很不标準。

可見，要想做中文歌，還得看咱自己的音樂大模型！

可控性，音樂人的專業名額

接下來，我們就得上一些專業名額了。

歌詞段落

一首歌為什麼能夠爆紅全網，火遍大江南北？

從流行音樂的角度，它需要有強烈的旋律、鮮明的節奏、多彩的和聲、激昂的情感。

是以，想要做出一首抓耳的流行歌，不同歌詞段落間微妙的情緒變化，就是一個很關鍵的點。

而「天工SkyMusic」在這方面，就格外擅長——

它能通過歌詞來控制歌曲，展現出主歌和副歌、前奏和主歌的段落差異。

比如這首《龍行龘龘》，開頭悠揚的女聲民歌和激越昂揚的男女聲對唱部分形成鮮明對比，一首大氣磅礴的國風歌曲渾然天成。

風格

在風格控制上，它可以參考指定音頻，學習特定的曲風。

它創作的這首《飛翔鳥》，聽起來非常像學習了許巍的民謠風。

自動前奏、間奏、尾奏

音樂制作人時常面臨的一個問題是，已經有了合适的歌曲，但缺少前奏和尾奏，絞盡腦汁也找不到合适的。

這時候，就可以找「天工SkyMusic」幫忙了。它補充完整的這首《Guitar》，慵懶随意的唱腔搭配恰到好處，聽起來非常治愈。

和聲

根據歌詞描述，「天工SkyMusic」給這首《水調歌頭》自動添加上了和聲。

幾個男聲的和聲和主唱的音色十分契合，再結合節奏鮮明的鼓點，一首磅礴大氣的國風《水調歌頭》就這樣誕生了。

歌詞技巧

而且，模型還可以參考音頻的特征，智能地學習演唱技巧。

比如顫音版的《失落》。

歌劇版的《我的滑闆鞋》。

王者榮耀、周傑倫、鳳凰傳奇，你想要的它都有

時下的流行icon，怎麼和流行音樂融合？如果找對了叩擊大衆心旋的那個點，抖音神曲并不是一件難事。

「天工SkyMusic」，讓這一切都成為可能。

輸入帶有結構的歌詞+參考音頻，就能把自己玩王者榮耀的體驗寫出一首歌了。

我今天打開王者榮耀選趙雲

開局後我走到哪裡都被爆殺

我真的氣死了隻能躲在草叢

或者，我們還可以根據已有的歌詞進行二創。

比如輸入《彩虹》的歌詞，再錄一頓《最長的電影》主歌和副歌30s的音頻做參考，兩首歌「生出」的一首新歌就誕生了：

聽得出來，部分旋律還是有可圈可點之處的。

再用蕾哈娜的《Diamonds》的詞，配上黴黴維密秀震撼神曲《See You Again》試試？

出來的「混血」女聲英文歌是這樣的：

唱腔控音極好，高低音轉換流暢，副歌的多處轉音頗為神奇，值得細品。在人類作曲家中似乎很少聽到這麼「鬼才」的旋律組合，這就是來自AI的巧思吧。

而且非常神奇的是，歌曲的唱腔忽然就變得像蕾哈娜了，跟黴黴的嗓音并不像。

接下來，讓我們來爆改一下鳳凰傳奇的《最炫民族風》，不過跟剛才不同的是，這次輸入的都是原歌詞和原曲，讓它自我「整改」一下。

出來的，是另一種感覺的廣場舞神曲。

不僅如此，我們甚至還可以把突發的熱點事件，分分鐘變成一首爆款潛力股。

說唱版熱梗「高速運轉的機械」了解一下：

那麼，「天工SkyMusic」是怎麼做到如此驚豔的效果呢？

為此，我們最近特地找到初創團隊的大佬聊了聊。

少有人走的路

符号 or 大模型？破釜沉舟

相信大家心裡都有一個疑問：怎麼以前沒有好聽的音樂AI，最近才紮堆冒出來呢？

當然是因為——它非常難！

好的AI音樂難做，一個原因是此前主流的符号派（MIDI）技術效果太差；還有一個原因，就是過往的音樂AI基本都在無人聲的BGM領域，有人聲的Song要麼做不出來，要麼效果也是很差。

一首歌有人聲和無人聲的吸引力程度差别有多大，不言自明。

具體來說，AI音樂生成有兩大主要技術路徑，符号派、大模型派。符号派以MIDI為主流。

MIDI全稱Musical Instrument Digital Interface，本身不包含音頻檔案，而是記錄音樂演奏的指令，比如哪個音符被播放、音量是多少、音符持續的時間等。

因為不能直接生成歌曲，後期還需加上樂器、旋律、音色、人聲。

第二條大模型音樂音頻生成路線，能夠直接學習并生成音頻波形，樂器、人聲、旋律、音量、音符都是一體化端到端生成。

符号（MIDI）方向的研究，學界有很多，然而效果卻很差；大模型音頻方向則極難，做的極少。

選哪個？

立項之初，公司内部就面臨着這一艱難的選擇。前者效果不好，後者則極有可能會做不出來，整個項目雞飛蛋打。

最後，研發團隊經過投票，一緻決定選擇音頻方案。大家公認：甯願冒着巨大風險，也要做出真正好的AI音樂。

幸運的是，他們成功了。

注意，下面你看到的這張圖，可謂價值連城。

SkyMusic三大核心子產品：Encoder-DiT-Decoder

因為，目前市面上沒有任何可用的AI音樂大模型企業，公開過自己的技術路徑，包括Suno。

ChatGPT出來後，LLM百花齊放，這是因為有無數開源項目可以參考。

但音頻路線+人聲Song路線，沒有任何公開資料可參考，天工砸進去數不清的研發資源和算力算法投入，才摸索出了上面這張極其寶貴的路徑圖。

該踩的坑，團隊都已經提前踩過了，而如今這個可複現的方案，也被他們慷慨貢獻了出來。

而且巧合的是，雖然最終的架構與Sora類似，但其實在研發的時候Sora還沒誕生呢。

隻能說，英雄所見略同。

談一談音樂

在類Sora架構中，Large-scale Transformer負責譜曲，通過學習Music Patches的上下文依賴關系來控制音樂結構和風格。

這樣，就完全實作了風格的掌控。

而Diffusion Transformer則負責演唱，也即聲音的生成和渲染，通過LDM技術，将Music Patches轉換為高品質音頻輸出，是以音樂具有清晰的風格特征和音質表現。

當AI開始學習情感

而如果我們仔細聽上面的作品，就會感覺到：「天工SkyMusic」對于音樂情感的捕捉極為細膩。

它生成的音樂，仿佛有着豐富的情感脈絡，和一種動态的變化。

正是這種對于情感表達的強化，讓它的作品能夠根據歌詞和音樂元素，生成不同情感氛圍的作品。

相比于以往側重于智力提升的AGI模型，它的「情感AGI」路線，則顯得尤為珍稀和寶貴。

因為，它不僅是一個聰明的AI，還是一個努力去了解和模拟人類情感、用音樂去表達情感的AI。

跟市面上那些側重旋律創作、學習大量樂段的旋律，或是深入和弦、節奏、編曲層次的AI相比，「天工SkyMusic」的情感次元，也成為它在行業中的差異化亮點。

比Suno和Stable Audio 2.0強在哪兒

與市面上Suno等AI音樂工具相比，AI音樂生成大模型「天工SkyMusic」有着獨特的優勢。

背後采用的是基于MoE架構的4000億級參數多模态超級大模型「天工3.0」。

在業界領先的邏輯推理、語義了解和泛化能力的加持下，「天工SkyMusic」的響應速度和訓練推理效率，也得到了極大地提升。

首先在中文上，「天工SkyMusic」的AI人聲合成極為優秀，發音清晰、無異響。

特别是，得益于在中文環境中的深度優化，其在中文演唱效果上，極大地符合了中國市場的需求。

其次，在音樂風格上，「天工SkyMusic」更略勝一籌。

它能夠通過歌詞控制情緒變化，并實作如顫音、歌劇、吟唱等多種歌唱技巧，使生成的音樂作品，情感更加豐富且貼合情境。

此外，「天工SkyMusic」還支援創作說唱、民謠、放克、古風、電子等多種音樂風格，使用者可以根據個人喜好定制音樂風格。

不過，不僅僅是「天工SkyMusic」，包括Suno等AI工具，還距以假亂真的專家音樂消費水準還相對較遠。

是以，這也是昆侖萬維決定将其技術架構公開，希望業界一同推動這一領域發展的原因。

AI不會取代音樂人

「天工SkyMusic」、Suno之外，近幾天另一個堪稱「Sora版」的神秘音樂模型udio，引來全網關注。

拿到測試資格的網友，紛紛表示udio音樂生成強太多，甚至感受到了AGI的力量。

難道AI已經真的到了，能夠取代人類音樂歌手的地步了嗎？

原創，真的已經不再重要？

顯然都不是。

AI音樂生成技術的快速疊代，無疑正在改變音樂創作的方式和體驗。

但，這并不意味着AI會完全取代音樂人，或讓原創變得不再重要。

相反，AI音樂生成技術與音樂創作者，可以相輔相成。

一方面，強大的AI可以降低音樂創作的門檻。

即便是非專業人士，也擁有機會接觸音樂，創作出有一定水準的音樂作品。

這将極大地拓展音樂創作者群體，激發多元的音樂形态和跨界合作。

另一方面，如「天工SkyMusic」這樣的工具可以賦能音樂創作者。

它們可以通用簡化旋律原型生成、提供創意靈感、協助制作高品質伴奏等創作環節，幫助音樂人提高創作效率。

昆侖萬維董事長兼CEO方漢曾在采訪中說過這麼一句話：

在内容生産行業，有這麼一條規律：如果内容制作門檻降低1倍，那麼内容創作者的創作數量将會增加10倍。

是以，當音樂創作門檻降低之後，就會有更多的人成為「原創音樂人」。

總而言之，若以靜态的角度看待行業，許多人會認為，AI音樂的出現「切走了音樂行業的蛋糕」。

但動态地來看，技術的進步能夠讓音樂市場越來越大，行業蓬勃發展，孕育出全新的内容生态、音樂業态。

比如，按需定制音樂服務、線上音樂創作工具訂閱等新的商業模式，可以為音樂産業帶來新的消費增長。

目前，國内許多音樂平台做了一個Suno AI制作音樂的專欄，解鎖了新的流量密碼。

而面向教育，AI音樂創作可以幫助我們快速感覺音樂創作原理，嘗試多種音樂風格創作，為音樂産業培養孵化新一代人才。

讓每個人更好表達自我

更宏觀地講，除了圖檔、視訊、AI音樂也是通向情感AGI路上的一個重要的組成部分。

音樂，不僅是一種藝術形式，更是情感交流和表達的方式。

而且，音樂更能觸及人的情感深處，是情感表達的重要媒介。

針對AGI開展的研究中，許多團隊都将重點放在模型智力的擴充與增強上。

而真正的AGI的終極目标是——更像人，兼具感性理性、推理邏輯思維，情感了解等能力。

正是意識到了這點，一直将情感AGI視為重要方向的昆侖萬維，希望攻克音樂AI這一大技術難題。

在研發「天工SkyMusic」過程中，研究團隊積極探索音頻内容，尤其是音樂對于情感了解與表達的獨特優勢。

他們不僅關注音樂作品的譜曲、編排和演唱等技術層面，更強調模型對音樂情感色彩的感覺和再現能力。

「天工SkyMusic」在情感表達的準确性、多樣性，以及歌詞段落情緒變化的敏感捕捉，印證了昆侖萬維在情感AGI上取得實質性進展。

當然，除了AI音樂生成，AI寫作、繪畫、動畫等領域，昆侖萬維也在探索其在創作工具中的應用。

在情感AGI這條主線上，他們希望通過自研技術，幫助創作者更好地通過AI技術表達和傳遞情感内涵。

未來三十年，會有越來越多的人表達自我，人類社會的自我表達要翻1000倍。

昆侖萬維接下來所做的，便是讓AI降低人類創作門檻，讓每個人都能充分地表達自我。

國内首款AI音樂大模型一曲封神！爆改黴黴周傑倫效果驚豔

繼續閱讀

劉強東章澤天牽手看李雲迪音樂會，夫妻倆人如膠似漆，感情非常好

技術失誤還是高明政策？元氣森林音樂節取消風波背後的真相深挖

有效溝通表達的13個模型

元氣森林音樂節：取消？複活？主辦方玩的是‘藏貓貓’嗎？

鳳凰傳奇入編前與現在差别也太大了吧。這個曾經在中老年群體中頗受歡迎的組合，如何跨越代際，赢得了年輕人的喜愛？他們的音樂之

一天吃透一條産業鍊:NO.37 AI大模型産業鍊

第二季回歸！頂流大瀝演繹音樂、時尚與消費的新浪潮

張傑新專輯《要得》正式公開！音樂路上的二十年風華

74歲劉松仁堅持參與音樂劇《利瑪窦》藝術總監工作

我願做南明河畔的那隻鳥優雅的矗立河岸吹着輕輕的微風聽着老人們音響裡舒緩的音樂遠方既在腳下我願做南明河畔的那隻鳥贈予你些許

國風遊園、音樂會……“珠多精彩”過五一，吃喝玩樂購攻略來了！

華晨宇為粉絲打造“音樂電影”體驗，演唱會入場即視感炸裂網絡！

《“聽見彼此-南海之聲”音樂會》乘風而來

容祖兒全新單曲《九秒九》釋出，音樂界再掀熱潮

超萬名電音愛好者齊聚！今日起，大運河杭鋼公園音樂季正式啟幕

演員朱珠二手集市：麻将30塊，衣服10塊，周傑倫《範特西》5塊