音樂人的“噩夢”？StabilityAI推出音樂生成工具StableAudio

《新鮮計劃》欄目由騰訊科技推出，挖掘最新鮮的産品，體驗智慧浪潮中的Aha時刻。

文 / 适道

編輯 / 周小燕

今年5月，“AI孫燕姿”翻唱的歌曲在全網獲得百萬播放，“AI孫燕姿”一夜之間爆火出圈，網友們喊話孫燕姿“再不出來就要被AI代替了”，孫燕姿本人對此顯得尤為淡定，她回應“人類無法超越AI，做自己已然足夠”。

能像孫燕姿這樣坦然面對AI對職業挑戰的藝人并不多，最近曾因“文生圖”應用Stable Diffusion一戰成名的Stability AI，又在“文生音”領域做了一款新工具——StableAudio，可能要威脅到音樂人的飯碗了。

StableAudio簡化了使用者生産音頻的模式，使用者隻需要輸入關鍵詞，通常包含樂器名稱、風格、情境、甚至節拍數，就可以一鍵生成音頻。該工具采用“潛在擴散模型”，它能根據使用者輸入的文本生成豐富多彩、高品質的音頻，範圍涵蓋了音樂、對話、環境音和特效聲等。

StableAudio目前隻有網頁版，界面非常簡單，使用者進入後，可以輸入關鍵詞，一鍵生成音頻。

想象一下，在金色的伊比沙島海灘上，落日的餘晖灑在細軟的沙灘上，微風帶來海鹽和自由的味道。在這樣一個場景中，如果你有一首音樂的設想，StableAudio就能讓你的“思緒”轉化為“旋律”。隻需将這個美好瞬間的描述輸入系統，接下來你就可以坐下來，享受由AI生成的、符合情感和場景的音樂。

假如你想聽一段鋼琴獨奏曲，輸入：Piano Solo, Polish Situation, Inspiring, 112 BPM

大約在10秒之後，你将聽到這樣的一段45秒的音樂：

穩穩的鋼琴獨奏，聽起來也算悅耳，20秒之後基本在重複前半場的調子。

奇怪的是，如果将上面同樣的Prompt翻譯成中文輸入：鋼琴獨奏，波蘭風，鼓舞人心，112BPM

你又會聽到完全不一樣感受的音樂：

基本聽不出來是鋼琴這款樂器的演奏，更多的像是酒吧裡一群年輕人熱身用的伴奏，聽起來也像是合成樂器，和Prompt最呼應的就是“鼓舞人心”，聽起來很有動感。

有可能是中英文翻譯過程中，給機器傳遞的語義偏差導緻。

我們再試一下中國傳統樂器古筝的效果，輸入Prompt：Guzheng solo, the vastness of the sea, makes people feel emotional, 200BPM

确實是古筝彈出來的，不過聽起來有點“山寨”，有了一些合成音樂的感覺，Prompt描繪的感受被比較完整地演繹出來。

我們換成中文Prompt：古筝獨奏，大海的廣闊感，讓人内心波瀾，200BPM

BUG又出來了，完全聽不出來是古筝，全程隻正确演繹出Prompt裡面的“波瀾壯闊”感。

從這幾個基礎體驗來看，英文Prompt之下，StableAudio的演繹還是相當準确的，但它對中文Prompt的識别能力極差，基本隻能抓住對音樂風格的描述。不過整體感受下來，懂音樂的人或許能将StableAudio運用地更得心應手，他們對不同的樂器，不同的音樂風格的Prompt描述可以更加準确，所生成的音樂美感差異也會比較大。

為了訓練出StableAudio，Stability AI使了什麼招？

雖然在實際體驗中，StableAudio的運作速度并不是非常快，通常需要使用者在輸入Prompt後大約10秒，才能生成音樂，但根據Stability AI對外公布的資訊，它能在不到一秒的時間内，使用NVIDIA A100 GPU渲染出95秒的立體聲音頻，采樣率為44.1 kHz。并且它提供免費試用機會，使用者可以在不支付費用的情況下，可以生成20條音頻，每條音頻的時間不超過45秒。

除了免費試用外，StableAudio還提供專業版和企業版訂閱計劃，具備更多的音樂生成次數和時長，專業版使用者可以生成90秒的音頻，訂閱費用為11.99美金每個月。是否免費的另一個大的差別，是所生成的音頻能否被用于商用，專業版和企業版生成的均被允許商業用途，比如電影制作或遊戲開發行業的人，可以通過StableAudio快速生成他們想要的背景音樂。

為了訓練這款模型，Stability與音樂提供商AudioSparx合作，在超過800000個音頻檔案的資料集上進行了訓練，其中包括音樂、音效和單樂器主幹，以及相應的文本中繼資料。在将19500小時的音頻輸入模型後，StableAudio知道如何模仿它在指令中“聽”到的某些聲音描述。經過大量的訓練的StableAudio，讓使用者通過文本提示就能直接生成搖滾、爵士、電子、嘻哈、重金屬、民謠、流行、朋克、鄉村等20多種類型背景音樂。

據稱，在教育訓練之前，AudioSparx創作人被問及是否願意提供他們的歌曲，這個決定可能是對Stability在Stable Diffusion的教育訓練素材涉及版權辯論中所面臨的大規模反對的回應。

“黑科技”支撐：潛在擴散模型

在過去幾年，擴散模型在圖像、視訊、音頻等領域獲得發展，可提升訓練和推理效率。但音頻領域的擴散模型存在一個問題，通常隻能生成固定大小的内容。例如，音頻擴散模型可能在30秒的音頻片段上進行訓練，并且隻能生成30秒的音頻片段。

為了打破這個技術瓶頸，StableAudio使用了一種更先進的模型：潛在擴散模型（latent diffusion model）。這是一種基于擴散的生成模型，主要在預訓練的自動編碼器的潛在編碼空間中使用，也是一種結合了自動編碼器和擴散模型的方法。

潛在擴散模型的核心思想是将音頻信号從一個高維空間（例如 44.1 kHz 的采樣率）映射到一個低維空間（例如 64 x 64 的潛在空間），然後通過一個随機過程逐漸恢複原始信号，同時加入文本資訊作為條件。這樣，就可以實作從文本到音頻的生成，而不需要大量的資料和計算資源。

擴散過程的原理其實是訓練了一個基于 U-Net 和噪音等級機制 (schedule）的噪音等級預測器。擴散過程包含如下階段：

·資料集準備階段：生成訓練資料

輸入：包含清晰圖像的資料集、不同級别的噪音等級機制

流程：從資料集中抽樣得到清晰圖像，從噪音等級機制中抽樣得到某種級别的噪音樣本，把該噪音和圖像融合

輸出：帶有某種等級的噪音圖像

·訓練階段：訓練噪音等級預測器

輸入：把上一階段中的噪音圖像和清晰圖像作為輸入資料，對應的噪音樣本作為标簽。

訓練：采用 U-Net 作為神經網絡，采用監督 1oss對輸入進行學習

輸出：某種等級的噪音樣本

•推斷階段：去噪并生成圖像

輸入：訓練完成的 U-Net、某個噪音圖像

推斷：U-Net 輸出該噪音圖像的噪音等級（噪音樣本）

輸出：把噪音圖像減去噪音樣本，得到去噪圖像。不斷重複該過程，最終得到類似清晰圖像的圖像（并不一定完全相同)

和其他擴散模型相比，StableAudio優勢在于它能增強音樂品質和音樂連貫性。它可以生成長達90秒的音樂，而其他模型通常隻能生成幾秒鐘的音頻片段。這一創新是通過潛在擴散技術實作的，StableAudio的模型可以逐漸減少噪音，進而使音樂更加連貫，符合使用者的要求。

進入到“人人都能成為音樂節”的時代

在一個充滿數字震蕩和創新潮流的世界裡，Stability AI從2021年起就如一顆冉冉升起的新星，在開源生成人工智能領域展現了令人矚目的活力和創造力。

雖然Stability AI推出的StableAudio在音樂界激起了不小的讨論，但在市場上已有多個不同角度的嘗試。

我們可以逐個體驗一下這幾款工具。例如，HuggingFace社群裡的Music To Image擁有能将音樂轉化為圖檔的能力，拖入一條音頻，這款工具便可以将音樂表達的情境轉化成圖檔。

2022年12月，第一個對Stable Diffusion的音頻生成的嘗試工具Riffusion出世，它可以生成光譜圖，根據定制的音樂風格來産生聲音。

2023年5月，谷歌釋出将文本轉化為音樂的工具MusicLM，使用者可以鍵入“晚餐派對的靈魂爵士樂”或“建立催眠的工業技術聲音”等提示，并讓該工具建立歌曲的幾個版本，它對Prompt的描述要求較高。

進入MusicLM，使用者就會被引導提示如何設定Prompt。

與以上相比，MusicGen最大的差别是在Prompt之外，使用者可以插入一個參考性的音頻檔案，幫助校準所生成的音頻的效果。

總體而言，StableAudio作為一款“文生音”工具，古筝、鋼琴的音色出乎意料的接近現實聲音，還可以solo演奏，生成的音樂不但擁有主題，還有遞進的結構，但生成的音頻可以聽到旋律有一定的重複。但在體驗中也能感受到，有部分樂器會出現失真狀況。

整體感受下來，StableAudio能夠滿足使用者對「文生音」的好奇心，并且适合對于音樂創作毫無經驗的新手小白去進行創作，但懂音樂樂理和基礎知識的玩家會更有優勢。

在這個快速演變的數字時代，StableAudio不僅是一個AIGC工具，或許也是一個讓音樂夢想成真、激發創意和情感的平台。人人都能成為音樂家的時代，或許很快到來。

本文由騰訊科技和适道（ID：survivalbiz）聯合出品，如需交流歡迎加作者微信：aiyukuailetongzai ，煩請備注公司+職務。

音樂人的“噩夢”？StabilityAI推出音樂生成工具StableAudio

音樂人的“噩夢”？StabilityAI推出音樂生成工具StableAudio

繼續閱讀

孫燕姿妹妹宣布與孫燕姿斷絕關系

孫燕姿與妹妹“斷絕關系”,劉德華姐姐住“貧民窟”:為何變成這樣

妹妹與孫燕姿決裂，喊話“停止小動作”：後半生允許我為自己生活

姐妹絕交！孫燕姿到底犯了何罪？

好久不見，見字如面。我懷念的是無話不說，我懷念的是一起做夢，我懷念的是…#要久久愛#楊紫黃瀛子#孫燕姿樣子#時光啊#學生

《要久久愛》躲過楊紫和範丞丞，沒躲過友情出演的孫燕姿

《要久久愛》成為爆劇是因為成功的抓住了中年人這批觀衆。劇中的孫燕姿、仙劍、魔獸世界等情懷讓這批中年觀衆不可自拔。誰不是當

🦋要久久愛☀時間：2024年1月20日💎地區：中國大陸❤主演：楊紫、範丞丞、朱顔曼滋、金世佳、孫燕姿、王乾越、方悅喬、钊

盤點《要久久愛》中特别出演的配角們，歌手孫燕姿驚喜加盟

#分享照片#孫燕姿#孫燕姿音樂dna又動了#孫燕姿唱的是要久久愛的樣子

#孫燕姿#依然熱愛生活#逛gai#孫燕姿唱的是要久久愛的樣子

#微頭條首發挑戰賽#《要久久愛》今晚迎來大結局笑中帶淚的故事劇情一場蔣翼等了很久很久的求婚還兌現了把孫燕姿邀請現場的承諾

5位嫁給普通人的女明星！從萬茜到孫燕姿，比起嫁豪門她們更幸福

汪小菲新戀情疑曝光！深夜親密挽手表情寵溺，女方長相神似孫燕姿

來閩侯聽孫燕姿，這些地方也很好玩！

孫燕姿久違亮相！穿寬松T難掩“大腹便便”，不過胖點反而更美了