從 0 到 1，揭秘中國首個 AI 音樂 SOTA 模型

第一個國産音樂AIGC SOTA模型。

作者丨張進

編輯丨陳彩娴

雨果曾經說過：“開啟人類智慧寶庫的三把鑰匙，即數字、字母、音符。”

音樂早已成為人類表達情感的最佳載體。

但音樂創作是一件門檻很高的事情，因為音樂創作不是某一個人的獨角戲，而一個團隊高度協作的過程。從作詞、作曲到編曲、混音，再到歌曲錄制，每個環節都需要專業音樂人付出努力，并伴随着高昂的成本投入。

但試想一下，如果有一天，我們隻需手指點一點就能創作歌曲，那将會發生什麼？

這種猜想在2023年，随着大模型爆火一步步發酵：

2023年，一場由“AI歌手”引領的翻唱熱潮席卷網絡，諸如孫燕姿、陳奕迅、林俊傑等衆多華語樂壇巨星紛紛擁有了屬于自己的AI替身，各個網絡平台變成“AI歌手複出演唱會”的現場。這一切的背後，是So-vits Svc AI音樂生成技術的應用。這項技術通過解析少量音頻片段，就能精确模拟目标歌手的獨特音色，盡管在捕捉歌手的個性化唱腔特點、演唱技法及個人風格等方面尚存差距，但它近乎實作1:1的音色還原，也激發了一場全民音樂創作浪潮。

自今年3月以來，随着Suno V3和Udio釋出，這股音樂創作熱潮被再次點燃。這次我們不僅可以翻唱某位歌手的歌曲，還可以通過輸入幾句歌詞和音樂風格，就能獲得兩首時長約兩分鐘的完整歌曲。這種突破性的技術創新，被業界視為真正意義上拉低了音樂創作門檻，讓更多人能夠參與到音樂創作中。

短短一年多時間，從So-vits Svc到OpenAI的MuseNet、谷歌的MusicLM、Meta的MusicGen，再到SunoV3和Udio，大模型技術不斷重塑音樂創作領域。

可以看到，從克隆音色的“AI歌手”，到生成完整歌曲的Suno，AI音樂生成技術正在不斷飛躍。隻可惜，這些産品距離生成高品質且類型豐富的歌曲還有段距離。特别在中文歌曲領域，一直沒有一款符合中國人音樂審美的AI音樂生成大模型。

直到昨天，昆侖萬維釋出全球最大規模的開源MOE大模型「天工3.0」，并基于它打造了國内目前唯一公開可用的AI音樂生成大模型「天工SkyMusic」。這款音樂大模型在人聲&BGM音質、人聲自然度、發音可懂度等性能方面，以6.65分的綜合得分超越Suno V3，成為中國首個音樂AIGC SOTA（state of the art，領域最佳水準）模型。

天工SkyMusic綜合評分超越Suno V3

那麼天工SkyMusic是如何成為中國首個音樂AIGC SOTA模型？它的實際體驗如何呢？下面我們一起來看一下。

中國首個音樂AIGC SOTA模型

打開天工 APP，點選音樂闆塊，輸入歌名和歌詞，選擇你想要參考的歌曲，再點選生成音樂，即可獲得由你創作的歌曲。這就是「天工SkyMusic」簡化而高效的音樂創作全過程。

這種參考音樂生成能力，也是「天工SkyMusic」的一大亮點。使用者既可以上傳自己喜歡的歌曲作為模闆，也可以從「天工SkyMusic」龐大的資料庫中挑選合适的參照曲目，系統将據此生成風格相近、嗓音神似的全新作品。這一特性顯著降低了音樂創作的技術門檻，使得即便是缺乏專業音樂素養的普通使用者也能參與音樂創作，享受創作音樂的樂趣。

利用「天工SkyMusic」，我們制作了兩首風格迥異的《乘鶴》：

見：https://mp.weixin.qq.com/s/S4I6DyqvR7z10s5NeedOPA

再輸入一首耳熟能詳的英文童謠《小星星》，将它改編成搖滾風格和抒情男聲版本，也算是對童年的獨特回憶：

見：https://mp.weixin.qq.com/s/S4I6DyqvR7z10s5NeedOPA

在創作中我們發現，「天工SkyMusic」涵蓋了說唱、民謠、放克、古風、電子等多種曲風。下一步，團隊還計劃讓使用者根據哼出來的旋律生成歌曲。同時相比SunoV3等海外同類産品，「天工SkyMusic」創作的歌曲在中文人聲細膩度和可識别度上表現更優秀，還能運用顫音、吟唱、男女對唱、自動和聲等技巧。

再來一首《明天不上班》，慶祝一下即将到來的星期五。

見：https://mp.weixin.qq.com/s/S4I6DyqvR7z10s5NeedOPA

這首歌也完美展示了「天工SkyMusic」相較Suno的核心體驗優勢——方言歌曲生成能力，即讓使用者能自如地利用四川話、粵語、北京話等多種方言演唱歌曲，極大豐富了使用者的音樂創作空間。

如此卓越的AI音樂生成模型，為什麼才出現呢？究其原因，是因為處理音樂資料比處理圖像和視訊資料更複雜。音樂作為一種長時序的技術形式，每秒内包含數萬個互相緊密關聯的采樣點，這種内在的複雜性使它成為最複雜的模态之一。加之音樂中融合了歌詞、人聲及旋律等多種資訊層次，每層之下又包含海量的資訊，這意味在處理音樂時，不僅要建構精确的時間序列模型，還要綜合考慮聲波形态、頻率特性、節奏結構等諸多要素。

不過随着AI大模型技術的不斷演進，已經找到兩種駕馭音樂複雜性質的有效政策，這也構成了AI音樂生成大模型的兩大技術路徑：符号音樂生成路線、大模型音樂音頻生成路線。

符号音樂生成路線，是通過标注大量樂譜資料再訓練模型，這條路線在學術界已有廣泛研究，但它最終生成的是樂譜，借助其他程式或工具轉化成可播放的音樂，而且實際效果并不盡如人意。

大模型音樂音頻生成路線則是涵蓋樂器、人聲、旋律、音量和音符等音樂元素的端到端一體化生成，最終生成的是可聽的音頻檔案。但代價是需要巨大的研發資源投入和對大規模訓練資料集的依賴。即便如Google、OpenAI等行業巨頭，也尚未取得重大突破。

此外，AI對人聲演唱真實感的模拟也是至關重要的研究課題。但過去的AI音樂技術主要聚焦于無人聲演唱的背景音樂（BGM）創作，對人聲演唱的Song領域一直缺少有效的解決方案。

「天工SkyMusic」在立項之初，昆侖萬維就面臨着這兩項艱難的選擇。最終，研發團隊一緻決定選擇大模型音樂音頻生成路線并攻堅人聲Song領域。這意味着昆侖萬維将在幾乎沒有任何開源可借鑒的情況下，正式挺進AI音樂生成技術的兩個無人區，難度可想而知。

天工SkyMusic技術原理圖

經曆多次實驗探索，研發團隊意識到DiT結構與AI音樂生成大模型的深度相容性，并堅定地朝這個方向投入，最終自主研發出适用于音樂音頻領域的類Sora模型架構，填補了行業在技術路線以及人聲演唱領域的技術空白。這套架構包含三大核心子產品——Encoder、DiT（Diffusion Transformer）和Decoder。其中，Large-scale Transformer 負責譜曲，學習 Music Patches 的上下文依賴關系，同時完成音樂可控性；Diffusion Transformer 負責演唱，通過LDM讓Music Patches被還原成高品質音頻。

同時為訓練「天工SkyMusic」，昆侖萬維建立了迄今為止全球最大的音樂資料集，包含了兩千餘萬首歌曲樣本，確定了「天工SkyMusic」在音樂風格上精準可控和廣泛适用。

如此，「天工SkyMusic」降低了音樂創作的準入門檻，讓音樂創作不再存在專業壁壘。真正意義上拉近了音樂創作與普通大衆的距離，推動了AIGC産業向前邁進了。同時昆侖萬維還主動公開了「天工SkyMusic」的技術原理圖，為全球開源社群和開發者提供了可參考的案例，促進全球AIGC技術生态的共建共享。

能獨立思考的天工3.0大模型

「天工SkyMusic」的成功離不開背後的技術底座「天工 3.0」。昆侖萬維董事長兼CEO方漢表示：“文本大模型是所有AIGC堅實的基礎。所有的社交、遊戲、音樂專屬模型都是需要文本大模型去支撐的。”目前，無論是GPT模型、GLM模型還是Baichuan模型，都是采用底層文本大模型與專業細分大模型相結合的方式。

昆侖萬維釋出的「天工 3.0」擁有高達4000億參數，性能全面超越3140億參數的MoE大模型Grok1（xAI），是迄今全球最大規模的開源MoE大模型，也是昆侖萬維旗下所有AI技術應用模型的基石。

天工3.0成為全球最大開源MoE大模型

相較于上一代，「天工 3.0」在模型語義了解、邏輯推理以及通用性、泛化性、不确定性知識、學習能力等領域擁有驚人的性能提升，其技術知識能力提升超過20%，數學 / 推理 / 代碼 / 文創能力提升超過 30%。

同時作為多模态大模型，「天工 3.0」內建了AI搜尋、AI寫作、AI長文本閱讀、AI圖檔生成、AI音樂生成等功能。在權威評測MMBench-CN的評估中，「天工3.0」的AR（屬性推理）、RR（關系推理）、FP-C（細粒度感覺-交叉執行個體）、CP（粗略感覺）四項性能均位列榜首，整體綜合成績更超越GPT-4V，穩居全球多模态大模型首位。

天工3.0多模态性能超越GPT-4V

基于性能與能力的全方位躍升，「天工3.0」還掌握了至關重要的獨立思考能力。這使得它能夠在多輪搜尋與綜合工具調用、圖表繪制、研究模式、增強模式、改圖擴圖等多項能力上，為使用者提供前所未有的AI應用體驗。

「天工3.0」擁有很強的邏輯推理能力：

「天工3.0」還能夠更好地了解和處理使用者自然語言Query中的複雜語義資訊，包括隐喻、多義詞等。例如最近爆火的“成都迪士尼”，我們問了天工大模型，它不僅可以精确地解釋這一網絡熱梗。還會通過追問，為我們規劃行程或給到近期的遊客回報。

見：https://mp.weixin.qq.com/s/S4I6DyqvR7z10s5NeedOPA

在面對産業研究、産品橫評、資訊分析、圖檔生成、圖表繪制等複雜需求時，「天工3.0」能同時展示多種能力，控制模型去完成任務。

如上圖示範，在執行“查詢南非國家2023年的人均GDP，并制作成柱狀圖”一任務過程中，「天工3.0」率先調用了搜尋功能，再調用python工具繪制柱狀圖，最後加以解讀和總結，給出了正确的答案和全面分析：

「天工3.0」先通過語義了解對使用者需求進行深度了解，再通過邏輯推理能力将複雜的任務拆解成細分環節，最後通過獨立規劃以及調用、組合外部工具及資訊，将細分環節發到不同模型，進而精準高效的完成這類複雜需求。

内容創作能力一直是「天工」系列大模型的強項，在上一代「天工2.0」大模型的基礎上，「天工3.0」更是進行了全面的内容創作能力更新，其不僅能實作AI音樂生成、AI語音、AI對話、AI二次元漫畫生成等強大的内容創作能力，更是通過專項Agent訓練實作了在對話中結合文本需求實時生成圖檔、結合文本需求實時内容分析及圖表建構等能力。

讓「天工3.0」分析小米SU7跟蔚來ET5哪款車更好：

可以看到在如上述這種産品對比的複雜需求中，「天工3.0」可以根據需求，實時内容分析并建構圖表來讓結果呈現更明晰。

後記

通過「天工3.0」和「天工SkyMusic」的釋出，我們可以看到，昆侖萬維“All in AGI 與 AIGC”的戰略并不是停留于理論的口号，而是真切指引着昆侖萬維在技術和商業模式上的每一處布局。依托“天工大模型”這一技術基石，昆侖萬維已規劃出包含AI大模型、AI搜尋、AI音樂、AI社交、AI遊戲和AI視訊在内的六大AI業務矩陣，并着力整合這六大闆塊，構築一個內建式的AI UGC平台。

“昆侖萬維認為下一代的AI巨頭一定是C端加上免費，因為網際網路時代和移動網際網路時代的成功企業均采用免費加C端模式，而在AI時代，我們同樣堅信這一邏輯。”方漢表示。

由于大模型每次提供服務都需要耗費推理資源，為了實作免費toC模式，方漢總結出産業的三條路徑：“第一條，通過持續優化，将推理成本降低至使用者創造的廣告價值之下；第二條，通過AI手機實作端側推理，将推理成本分攤至終端硬體中。第三條，建立AI UGC平台，由1%的使用者創造内容，99%的使用者消費内容。”

這三條路徑并不互相沖突，隻是分屬于産業的不同階段。比如，方漢判斷，在AI終端硬體大面積普及之前，AI UGC平台落地會更快速形成商業閉環，但大模型的終局一定是終端AI。

不論是「天工SkyMusic」，還是其他核心AI業務，皆遵循這一商業邏輯。即通過AI技術賦能，降低創作門檻，持續擴大内容創作者群體，以此提升個性化内容的生産量與豐富度，進而滿足了大衆對于優質内容的消費需求，形成正向投資回報率的良性循環。

同時昆侖萬維也将運用AI技術打破傳統内容創作壁壘，讓不同文化和語言群體都能夠在這一AI UGC平台上輕松傳達自身的故事與情感，促進全球範圍内實作文化平權。

在推進AI UGC平台建設的過程中，昆侖萬維堅持技術創新與商業模式創新相結合，積極探索适合當下及未來市場的增長路徑。昆侖萬維正全力踐行“All in AGI 與 AIGC”，力争在全球範圍内建構一個包容性強、參與度廣、創新能力出衆的AI内容生态，引領行業邁向一個嶄新的時代。

從 0 到 1，揭秘中國首個 AI 音樂 SOTA 模型

繼續閱讀

風向真的要變了？外媒齊齊發聲，中國正迎來一場大的變革!

中國科考船挺進仁愛礁，菲坐灘艦急眼派員緊盯！

布林肯緊急飛往沙特：中國政策深不可測，美國輸不起。

為什麼中國人不吃麻雀肉，而麻雀還在年年減少，它們都去哪了？

中國食品物聯網：利用網際網路，開啟新模式

中國“英偉達”誕生！擁有100%全自研技術，再次打破他國技術

打造世界一流海軍中國需要多少艘航母？

中國最悲壯的四大烈士陵園，沒有一個中國人可以平靜的看完

人民币大漲！中國資産狂飙！納斯達克中國金龍指數飙漲超6%。

中國人送禮的禁忌，終于有人整理好了，再忙也要看看。

近10萬人失業下崗！全面裁員，中國鋼鐵為何還是走不出虧損困境

中國航天真是低調實力派！最近，兩顆曾被宣判“死刑”的衛星上演

外國人研發晶片，為啥中國專家就會研究水表，電表，瓦斯表？

無懼華為回歸影響，榮耀憑什麼依舊拿下中國智能手機市場第一？

嫦娥六号将使中國成為人類曆史上唯一能從月背采樣傳回的國家

亞洲杯U23決賽：日本1-0烏茲别克斯坦奪冠，中國冠軍夢還要走多久