天天看點

音樂人的“噩夢”?StabilityAI推出音樂生成工具StableAudio

音樂人的“噩夢”?StabilityAI推出音樂生成工具StableAudio

音樂人的“噩夢”?StabilityAI推出音樂生成工具StableAudio

《新鮮計劃》欄目由騰訊科技推出,挖掘最新鮮的産品,體驗智慧浪潮中的Aha時刻。

文 / 适道

編輯 / 周小燕

今年5月,“AI孫燕姿”翻唱的歌曲在全網獲得百萬播放,“AI孫燕姿”一夜之間爆火出圈,網友們喊話孫燕姿“再不出來就要被AI代替了”,孫燕姿本人對此顯得尤為淡定,她回應“人類無法超越AI,做自己已然足夠”。

能像孫燕姿這樣坦然面對AI對職業挑戰的藝人并不多,最近曾因“文生圖”應用Stable Diffusion一戰成名的Stability AI,又在“文生音”領域做了一款新工具——StableAudio,可能要威脅到音樂人的飯碗了。

StableAudio簡化了使用者生産音頻的模式,使用者隻需要輸入關鍵詞,通常包含樂器名稱、風格、情境、甚至節拍數,就可以一鍵生成音頻。該工具采用“潛在擴散模型”,它能根據使用者輸入的文本生成豐富多彩、高品質的音頻,範圍涵蓋了音樂、對話、環境音和特效聲等。

音樂人的“噩夢”?StabilityAI推出音樂生成工具StableAudio

StableAudio目前隻有網頁版,界面非常簡單,使用者進入後,可以輸入關鍵詞,一鍵生成音頻。

音樂人的“噩夢”?StabilityAI推出音樂生成工具StableAudio

想象一下,在金色的伊比沙島海灘上,落日的餘晖灑在細軟的沙灘上,微風帶來海鹽和自由的味道。在這樣一個場景中,如果你有一首音樂的設想,StableAudio就能讓你的“思緒”轉化為“旋律”。隻需将這個美好瞬間的描述輸入系統,接下來你就可以坐下來,享受由AI生成的、符合情感和場景的音樂。

假如你想聽一段鋼琴獨奏曲,輸入:Piano Solo, Polish Situation, Inspiring, 112 BPM

大約在10秒之後,你将聽到這樣的一段45秒的音樂:

穩穩的鋼琴獨奏,聽起來也算悅耳,20秒之後基本在重複前半場的調子。

奇怪的是,如果将上面同樣的Prompt翻譯成中文輸入:鋼琴獨奏,波蘭風,鼓舞人心,112BPM

你又會聽到完全不一樣感受的音樂:

基本聽不出來是鋼琴這款樂器的演奏,更多的像是酒吧裡一群年輕人熱身用的伴奏,聽起來也像是合成樂器,和Prompt最呼應的就是“鼓舞人心”,聽起來很有動感。

有可能是中英文翻譯過程中,給機器傳遞的語義偏差導緻。

我們再試一下中國傳統樂器古筝的效果,輸入Prompt:Guzheng solo, the vastness of the sea, makes people feel emotional, 200BPM

确實是古筝彈出來的,不過聽起來有點“山寨”,有了一些合成音樂的感覺,Prompt描繪的感受被比較完整地演繹出來。

我們換成中文Prompt:古筝獨奏,大海的廣闊感,讓人内心波瀾,200BPM

BUG又出來了,完全聽不出來是古筝,全程隻正确演繹出Prompt裡面的“波瀾壯闊”感。

從這幾個基礎體驗來看,英文Prompt之下,StableAudio的演繹還是相當準确的,但它對中文Prompt的識别能力極差,基本隻能抓住對音樂風格的描述。不過整體感受下來,懂音樂的人或許能将StableAudio運用地更得心應手,他們對不同的樂器,不同的音樂風格的Prompt描述可以更加準确,所生成的音樂美感差異也會比較大。

為了訓練出StableAudio,Stability AI使了什麼招?

雖然在實際體驗中,StableAudio的運作速度并不是非常快,通常需要使用者在輸入Prompt後大約10秒,才能生成音樂,但根據Stability AI對外公布的資訊,它能在不到一秒的時間内,使用NVIDIA A100 GPU渲染出95秒的立體聲音頻,采樣率為44.1 kHz。并且它提供免費試用機會,使用者可以在不支付費用的情況下,可以生成20條音頻,每條音頻的時間不超過45秒。

除了免費試用外,StableAudio還提供專業版和企業版訂閱計劃,具備更多的音樂生成次數和時長,專業版使用者可以生成90秒的音頻,訂閱費用為11.99美金每個月。是否免費的另一個大的差別,是所生成的音頻能否被用于商用,專業版和企業版生成的均被允許商業用途,比如電影制作或遊戲開發行業的人,可以通過StableAudio快速生成他們想要的背景音樂。

音樂人的“噩夢”?StabilityAI推出音樂生成工具StableAudio

為了訓練這款模型,Stability與音樂提供商AudioSparx合作,在超過800000個音頻檔案的資料集上進行了訓練,其中包括音樂、音效和單樂器主幹,以及相應的文本中繼資料。在将19500小時的音頻輸入模型後,StableAudio知道如何模仿它在指令中“聽”到的某些聲音描述。經過大量的訓練的StableAudio,讓使用者通過文本提示就能直接生成搖滾、爵士、電子、嘻哈、重金屬、民謠、流行、朋克、鄉村等20多種類型背景音樂。

據稱,在教育訓練之前,AudioSparx創作人被問及是否願意提供他們的歌曲,這個決定可能是對Stability在Stable Diffusion的教育訓練素材涉及版權辯論中所面臨的大規模反對的回應。

“黑科技”支撐:潛在擴散模型

在過去幾年,擴散模型在圖像、視訊、音頻等領域獲得發展,可提升訓練和推理效率。但音頻領域的擴散模型存在一個問題,通常隻能生成固定大小的内容。例如,音頻擴散模型可能在30秒的音頻片段上進行訓練,并且隻能生成30秒的音頻片段。

為了打破這個技術瓶頸,StableAudio使用了一種更先進的模型:潛在擴散模型(latent diffusion model)。這是一種基于擴散的生成模型,主要在預訓練的自動編碼器的潛在編碼空間中使用,也是一種結合了自動編碼器和擴散模型的方法。

音樂人的“噩夢”?StabilityAI推出音樂生成工具StableAudio

潛在擴散模型的核心思想是将音頻信号從一個高維空間(例如 44.1 kHz 的采樣率)映射到一個低維空間(例如 64 x 64 的潛在空間),然後通過一個随機過程逐漸恢複原始信号,同時加入文本資訊作為條件。這樣,就可以實作從文本到音頻的生成,而不需要大量的資料和計算資源。

擴散過程的原理其實是訓練了一個基于 U-Net 和噪音等級機制 (schedule)的噪音等級預測器。擴散過程包含如下階段:

·資料集準備階段:生成訓練資料

輸入:包含清晰圖像的資料集、不同級别的噪音等級機制

流程:從資料集中抽樣得到清晰圖像,從噪音等級機制中抽樣得到某種級别的噪音樣本,把該噪音和圖像融合

輸出:帶有某種等級的噪音圖像

·訓練階段:訓練噪音等級預測器

輸入:把上一階段中的噪音圖像和清晰圖像作為輸入資料,對應的噪音樣本作為标簽。

訓練:采用 U-Net 作為神經網絡,采用監督 1oss對輸入進行學習

輸出:某種等級的噪音樣本

•推斷階段:去噪并生成圖像

輸入:訓練完成的 U-Net、某個噪音圖像

推斷:U-Net 輸出該噪音圖像的噪音等級(噪音樣本)

輸出:把噪音圖像減去噪音樣本,得到去噪圖像。不斷重複該過程,最終得到類似清晰圖像的圖像(并不一定完全相同)

和其他擴散模型相比,StableAudio優勢在于它能增強音樂品質和音樂連貫性。它可以生成長達90秒的音樂,而其他模型通常隻能生成幾秒鐘的音頻片段。這一創新是通過潛在擴散技術實作的,StableAudio的模型可以逐漸減少噪音,進而使音樂更加連貫,符合使用者的要求。

進入到“人人都能成為音樂節”的時代

在一個充滿數字震蕩和創新潮流的世界裡,Stability AI從2021年起就如一顆冉冉升起的新星,在開源生成人工智能領域展現了令人矚目的活力和創造力。

雖然Stability AI推出的StableAudio在音樂界激起了不小的讨論,但在市場上已有多個不同角度的嘗試。

音樂人的“噩夢”?StabilityAI推出音樂生成工具StableAudio

我們可以逐個體驗一下這幾款工具。例如,HuggingFace社群裡的Music To Image擁有能将音樂轉化為圖檔的能力,拖入一條音頻,這款工具便可以将音樂表達的情境轉化成圖檔。

音樂人的“噩夢”?StabilityAI推出音樂生成工具StableAudio

2022年12月,第一個 對Stable Diffusion的音頻生成的嘗試工具Riffusion出世,它可以生成光譜圖,根據定制的音樂風格來産生聲音。

音樂人的“噩夢”?StabilityAI推出音樂生成工具StableAudio

2023年5月,谷歌釋出将文本轉化為音樂的工具MusicLM,使用者可以鍵入“晚餐派對的靈魂爵士樂”或“建立催眠的工業技術聲音”等提示,并讓該工具建立歌曲的幾個版本,它對Prompt的描述要求較高。

音樂人的“噩夢”?StabilityAI推出音樂生成工具StableAudio

進入MusicLM,使用者就會被引導提示如何設定Prompt。

音樂人的“噩夢”?StabilityAI推出音樂生成工具StableAudio

與以上相比,MusicGen最大的差别是在Prompt之外,使用者可以插入一個參考性的音頻檔案,幫助校準所生成的音頻的效果。

音樂人的“噩夢”?StabilityAI推出音樂生成工具StableAudio

總體而言,StableAudio作為一款“文生音”工具,古筝、鋼琴的音色出乎意料的接近現實聲音,還可以solo演奏,生成的音樂不但擁有主題,還有遞進的結構,但生成的音頻可以聽到旋律有一定的重複。但在體驗中也能感受到,有部分樂器會出現失真狀況。

整體感受下來,StableAudio能夠滿足使用者對「文生音」的好奇心,并且适合對于音樂創作毫無經驗的新手小白去進行創作,但懂音樂樂理和基礎知識的玩家會更有優勢。

在這個快速演變的數字時代,StableAudio不僅是一個AIGC工具,或許也是一個讓音樂夢想成真、激發創意和情感的平台。人人都能成為音樂家的時代,或許很快到來。

本文由騰訊科技和适道(ID:survivalbiz)聯合出品,如需交流歡迎加作者微信:aiyukuailetongzai ,煩請備注公司+職務。

繼續閱讀