天天看點

從 0 到 1,揭秘中國首個 AI 音樂 SOTA 模型

作者:雷峰網
從 0 到 1,揭秘中國首個 AI 音樂 SOTA 模型

第一個國産音樂AIGC SOTA模型。

作者丨張進

編輯丨陳彩娴

雨果曾經說過:“開啟人類智慧寶庫的三把鑰匙,即數字、字母、音符。”

音樂早已成為人類表達情感的最佳載體。

但音樂創作是一件門檻很高的事情,因為音樂創作不是某一個人的獨角戲,而一個團隊高度協作的過程。從作詞、作曲到編曲、混音,再到歌曲錄制,每個環節都需要專業音樂人付出努力,并伴随着高昂的成本投入。

但試想一下,如果有一天,我們隻需手指點一點就能創作歌曲,那将會發生什麼?

這種猜想在2023年,随着大模型爆火一步步發酵:

2023年,一場由“AI歌手”引領的翻唱熱潮席卷網絡,諸如孫燕姿、陳奕迅、林俊傑等衆多華語樂壇巨星紛紛擁有了屬于自己的AI替身,各個網絡平台變成“AI歌手複出演唱會”的現場。這一切的背後,是So-vits Svc AI音樂生成技術的應用。這項技術通過解析少量音頻片段,就能精确模拟目标歌手的獨特音色,盡管在捕捉歌手的個性化唱腔特點、演唱技法及個人風格等方面尚存差距,但它近乎實作1:1的音色還原,也激發了一場全民音樂創作浪潮。

自今年3月以來,随着Suno V3和Udio釋出,這股音樂創作熱潮被再次點燃。這次我們不僅可以翻唱某位歌手的歌曲,還可以通過輸入幾句歌詞和音樂風格,就能獲得兩首時長約兩分鐘的完整歌曲。這種突破性的技術創新,被業界視為真正意義上拉低了音樂創作門檻,讓更多人能夠參與到音樂創作中。

短短一年多時間,從So-vits Svc到OpenAI的MuseNet、谷歌的MusicLM、Meta的MusicGen,再到SunoV3和Udio,大模型技術不斷重塑音樂創作領域。

可以看到,從克隆音色的“AI歌手”,到生成完整歌曲的Suno,AI音樂生成技術正在不斷飛躍。隻可惜,這些産品距離生成高品質且類型豐富的歌曲還有段距離。特别在中文歌曲領域,一直沒有一款符合中國人音樂審美的AI音樂生成大模型。

直到昨天,昆侖萬維釋出全球最大規模的開源MOE大模型「天工3.0」,并基于它打造了國内目前唯一公開可用的AI音樂生成大模型「天工SkyMusic」。這款音樂大模型在人聲&BGM音質、人聲自然度、發音可懂度等性能方面,以6.65分的綜合得分超越Suno V3,成為中國首個音樂AIGC SOTA(state of the art,領域最佳水準)模型。

從 0 到 1,揭秘中國首個 AI 音樂 SOTA 模型

天工SkyMusic綜合評分超越Suno V3

那麼天工SkyMusic是如何成為中國首個音樂AIGC SOTA模型?它的實際體驗如何呢?下面我們一起來看一下。

1

中國首個音樂AIGC SOTA模型

打開天工 APP,點選音樂闆塊,輸入歌名和歌詞,選擇你想要參考的歌曲,再點選生成音樂,即可獲得由你創作的歌曲。這就是「天工SkyMusic」簡化而高效的音樂創作全過程。

從 0 到 1,揭秘中國首個 AI 音樂 SOTA 模型

這種參考音樂生成能力,也是「天工SkyMusic」的一大亮點。使用者既可以上傳自己喜歡的歌曲作為模闆,也可以從「天工SkyMusic」龐大的資料庫中挑選合适的參照曲目,系統将據此生成風格相近、嗓音神似的全新作品。這一特性顯著降低了音樂創作的技術門檻,使得即便是缺乏專業音樂素養的普通使用者也能參與音樂創作,享受創作音樂的樂趣。

利用「天工SkyMusic」,我們制作了兩首風格迥異的《乘鶴》:

見:https://mp.weixin.qq.com/s/S4I6DyqvR7z10s5NeedOPA

再輸入一首耳熟能詳的英文童謠《小星星》,将它改編成搖滾風格和抒情男聲版本,也算是對童年的獨特回憶:

見:https://mp.weixin.qq.com/s/S4I6DyqvR7z10s5NeedOPA

在創作中我們發現,「天工SkyMusic」涵蓋了說唱、民謠、放克、古風、電子等多種曲風。下一步,團隊還計劃讓使用者根據哼出來的旋律生成歌曲。同時相比SunoV3等海外同類産品,「天工SkyMusic」創作的歌曲在中文人聲細膩度和可識别度上表現更優秀,還能運用顫音、吟唱、男女對唱、自動和聲等技巧。

再來一首《明天不上班》,慶祝一下即将到來的星期五。

見:https://mp.weixin.qq.com/s/S4I6DyqvR7z10s5NeedOPA

這首歌也完美展示了「天工SkyMusic」相較Suno的核心體驗優勢——方言歌曲生成能力,即讓使用者能自如地利用四川話、粵語、北京話等多種方言演唱歌曲,極大豐富了使用者的音樂創作空間。

如此卓越的AI音樂生成模型,為什麼才出現呢?究其原因,是因為處理音樂資料比處理圖像和視訊資料更複雜。音樂作為一種長時序的技術形式,每秒内包含數萬個互相緊密關聯的采樣點,這種内在的複雜性使它成為最複雜的模态之一。加之音樂中融合了歌詞、人聲及旋律等多種資訊層次,每層之下又包含海量的資訊,這意味在處理音樂時,不僅要建構精确的時間序列模型,還要綜合考慮聲波形态、頻率特性、節奏結構等諸多要素。

不過随着AI大模型技術的不斷演進,已經找到兩種駕馭音樂複雜性質的有效政策,這也構成了AI音樂生成大模型的兩大技術路徑:符号音樂生成路線、大模型音樂音頻生成路線。

符号音樂生成路線,是通過标注大量樂譜資料再訓練模型,這條路線在學術界已有廣泛研究,但它最終生成的是樂譜,借助其他程式或工具轉化成可播放的音樂,而且實際效果并不盡如人意。

大模型音樂音頻生成路線則是涵蓋樂器、人聲、旋律、音量和音符等音樂元素的端到端一體化生成,最終生成的是可聽的音頻檔案。但代價是需要巨大的研發資源投入和對大規模訓練資料集的依賴。即便如Google、OpenAI等行業巨頭,也尚未取得重大突破。

此外,AI對人聲演唱真實感的模拟也是至關重要的研究課題。但過去的AI音樂技術主要聚焦于無人聲演唱的背景音樂(BGM)創作,對人聲演唱的Song領域一直缺少有效的解決方案。

「天工SkyMusic」在立項之初,昆侖萬維就面臨着這兩項艱難的選擇。最終,研發團隊一緻決定選擇大模型音樂音頻生成路線并攻堅人聲Song領域。這意味着昆侖萬維将在幾乎沒有任何開源可借鑒的情況下,正式挺進AI音樂生成技術的兩個無人區,難度可想而知。

從 0 到 1,揭秘中國首個 AI 音樂 SOTA 模型

天工SkyMusic技術原理圖

經曆多次實驗探索,研發團隊意識到DiT結構與AI音樂生成大模型的深度相容性,并堅定地朝這個方向投入,最終自主研發出适用于音樂音頻領域的類Sora模型架構,填補了行業在技術路線以及人聲演唱領域的技術空白。這套架構包含三大核心子產品——Encoder、DiT(Diffusion Transformer)和Decoder。其中,Large-scale Transformer 負責譜曲,學習 Music Patches 的上下文依賴關系,同時完成音樂可控性;Diffusion Transformer 負責演唱,通過LDM讓Music Patches被還原成高品質音頻。

同時為訓練「天工SkyMusic」,昆侖萬維建立了迄今為止全球最大的音樂資料集,包含了兩千餘萬首歌曲樣本,確定了「天工SkyMusic」在音樂風格上精準可控和廣泛适用。

如此,「天工SkyMusic」降低了音樂創作的準入門檻,讓音樂創作不再存在專業壁壘。真正意義上拉近了音樂創作與普通大衆的距離,推動了AIGC産業向前邁進了。同時昆侖萬維還主動公開了「天工SkyMusic」的技術原理圖,為全球開源社群和開發者提供了可參考的案例,促進全球AIGC技術生态的共建共享。

2

能獨立思考的天工3.0大模型

「天工SkyMusic」的成功離不開背後的技術底座「天工 3.0」。昆侖萬維董事長兼CEO方漢表示:“文本大模型是所有AIGC堅實的基礎。所有的社交、遊戲、音樂專屬模型都是需要文本大模型去支撐的。”目前,無論是GPT模型、GLM模型還是Baichuan模型,都是采用底層文本大模型與專業細分大模型相結合的方式。

昆侖萬維釋出的「天工 3.0」擁有高達4000億參數,性能全面超越3140億參數的MoE大模型Grok1(xAI),是迄今全球最大規模的開源MoE大模型,也是昆侖萬維旗下所有AI技術應用模型的基石。

從 0 到 1,揭秘中國首個 AI 音樂 SOTA 模型

天工3.0成為全球最大開源MoE大模型

相較于上一代,「天工 3.0」在模型語義了解、邏輯推理以及通用性、泛化性、不确定性知識、學習能力等領域擁有驚人的性能提升,其技術知識能力提升超過20%,數學 / 推理 / 代碼 / 文創能力提升超過 30%。

同時作為多模态大模型,「天工 3.0」內建了AI搜尋、AI寫作、AI長文本閱讀、AI圖檔生成、AI音樂生成等功能。在權威評測MMBench-CN的評估中,「天工3.0」的AR(屬性推理)、RR(關系推理)、FP-C(細粒度感覺-交叉執行個體)、CP(粗略感覺)四項性能均位列榜首,整體綜合成績更超越GPT-4V,穩居全球多模态大模型首位。

從 0 到 1,揭秘中國首個 AI 音樂 SOTA 模型

天工3.0多模态性能超越GPT-4V

基于性能與能力的全方位躍升,「天工3.0」還掌握了至關重要的獨立思考能力。這使得它能夠在多輪搜尋與綜合工具調用、圖表繪制、研究模式、增強模式、改圖擴圖等多項能力上,為使用者提供前所未有的AI應用體驗。

「天工3.0」擁有很強的邏輯推理能力:

從 0 到 1,揭秘中國首個 AI 音樂 SOTA 模型

「天工3.0」還能夠更好地了解和處理使用者自然語言Query中的複雜語義資訊,包括隐喻、多義詞等。例如最近爆火的“成都迪士尼”,我們問了天工大模型,它不僅可以精确地解釋這一網絡熱梗。還會通過追問,為我們規劃行程或給到近期的遊客回報。

見:https://mp.weixin.qq.com/s/S4I6DyqvR7z10s5NeedOPA

在面對産業研究、産品橫評、資訊分析、圖檔生成、圖表繪制等複雜需求時,「天工3.0」能同時展示多種能力,控制模型去完成任務。

從 0 到 1,揭秘中國首個 AI 音樂 SOTA 模型

如上圖示範,在執行“查詢南非國家2023年的人均GDP,并制作成柱狀圖”一任務過程中,「天工3.0」率先調用了搜尋功能,再調用python工具繪制柱狀圖,最後加以解讀和總結,給出了正确的答案和全面分析:

從 0 到 1,揭秘中國首個 AI 音樂 SOTA 模型

「天工3.0」先通過語義了解對使用者需求進行深度了解,再通過邏輯推理能力将複雜的任務拆解成細分環節,最後通過獨立規劃以及調用、組合外部工具及資訊,将細分環節發到不同模型,進而精準高效的完成這類複雜需求。

内容創作能力一直是「天工」系列大模型的強項,在上一代「天工2.0」大模型的基礎上,「天工3.0」更是進行了全面的内容創作能力更新,其不僅能實作AI音樂生成、AI語音、AI對話、AI二次元漫畫生成等強大的内容創作能力,更是通過專項Agent訓練實作了在對話中結合文本需求實時生成圖檔、結合文本需求實時内容分析及圖表建構等能力。

讓「天工3.0」分析小米SU7跟蔚來ET5哪款車更好:

從 0 到 1,揭秘中國首個 AI 音樂 SOTA 模型

可以看到在如上述這種産品對比的複雜需求中, 「天工3.0」可以根據需求,實時内容分析并建構圖表來讓結果呈現更明晰。

3

後記

通過「天工3.0」和「天工SkyMusic」的釋出,我們可以看到,昆侖萬維“All in AGI 與 AIGC”的戰略并不是停留于理論的口号,而是真切指引着昆侖萬維在技術和商業模式上的每一處布局。依托“天工大模型”這一技術基石,昆侖萬維已規劃出包含AI大模型、AI搜尋、AI音樂、AI社交、AI遊戲和AI視訊在内的六大AI業務矩陣,并着力整合這六大闆塊,構築一個內建式的AI UGC平台。

“昆侖萬維認為下一代的AI巨頭一定是C端加上免費,因為網際網路時代和移動網際網路時代的成功企業均采用免費加C端模式,而在AI時代,我們同樣堅信這一邏輯。”方漢表示。

由于大模型每次提供服務都需要耗費推理資源,為了實作免費toC模式,方漢總結出産業的三條路徑:“第一條,通過持續優化,将推理成本降低至使用者創造的廣告價值之下;第二條,通過AI手機實作端側推理,将推理成本分攤至終端硬體中。第三條,建立AI UGC平台,由1%的使用者創造内容,99%的使用者消費内容。”

這三條路徑并不互相沖突,隻是分屬于産業的不同階段。比如,方漢判斷,在AI終端硬體大面積普及之前,AI UGC平台落地會更快速形成商業閉環,但大模型的終局一定是終端AI。

不論是「天工SkyMusic」,還是其他核心AI業務,皆遵循這一商業邏輯。即通過AI技術賦能,降低創作門檻,持續擴大内容創作者群體,以此提升個性化内容的生産量與豐富度,進而滿足了大衆對于優質内容的消費需求,形成正向投資回報率的良性循環。

同時昆侖萬維也将運用AI技術打破傳統内容創作壁壘,讓不同文化和語言群體都能夠在這一AI UGC平台上輕松傳達自身的故事與情感,促進全球範圍内實作文化平權。

在推進AI UGC平台建設的過程中,昆侖萬維堅持技術創新與商業模式創新相結合,積極探索适合當下及未來市場的增長路徑。昆侖萬維正全力踐行“All in AGI 與 AIGC”,力争在全球範圍内建構一個包容性強、參與度廣、創新能力出衆的AI内容生态,引領行業邁向一個嶄新的時代。

繼續閱讀