音乐人的“噩梦”？StabilityAI推出音乐生成工具StableAudio

《新鲜计划》栏目由腾讯科技推出，挖掘最新鲜的产品，体验智慧浪潮中的Aha时刻。

文 / 适道

编辑 / 周小燕

今年5月，“AI孙燕姿”翻唱的歌曲在全网获得百万播放，“AI孙燕姿”一夜之间爆火出圈，网友们喊话孙燕姿“再不出来就要被AI代替了”，孙燕姿本人对此显得尤为淡定，她回应“人类无法超越AI，做自己已然足够”。

能像孙燕姿这样坦然面对AI对职业挑战的艺人并不多，最近曾因“文生图”应用Stable Diffusion一战成名的Stability AI，又在“文生音”领域做了一款新工具——StableAudio，可能要威胁到音乐人的饭碗了。

StableAudio简化了用户生产音频的模式，用户只需要输入关键词，通常包含乐器名称、风格、情境、甚至节拍数，就可以一键生成音频。该工具采用“潜在扩散模型”，它能根据用户输入的文本生成丰富多彩、高质量的音频，范围涵盖了音乐、对话、环境音和特效声等。

StableAudio目前只有网页版，界面非常简单，用户进入后，可以输入关键词，一键生成音频。

想象一下，在金色的伊比沙岛海滩上，落日的余晖洒在细软的沙滩上，微风带来海盐和自由的味道。在这样一个场景中，如果你有一首音乐的设想，StableAudio就能让你的“思绪”转化为“旋律”。只需将这个美好瞬间的描述输入系统，接下来你就可以坐下来，享受由AI生成的、符合情感和场景的音乐。

假如你想听一段钢琴独奏曲，输入：Piano Solo, Polish Situation, Inspiring, 112 BPM

大约在10秒之后，你将听到这样的一段45秒的音乐：

稳稳的钢琴独奏，听起来也算悦耳，20秒之后基本在重复前半场的调子。

奇怪的是，如果将上面同样的Prompt翻译成中文输入：钢琴独奏，波兰风，鼓舞人心，112BPM

你又会听到完全不一样感受的音乐：

基本听不出来是钢琴这款乐器的演奏，更多的像是酒吧里一群年轻人热身用的伴奏，听起来也像是合成乐器，和Prompt最呼应的就是“鼓舞人心”，听起来很有动感。

有可能是中英文翻译过程中，给机器传递的语义偏差导致。

我们再试一下中国传统乐器古筝的效果，输入Prompt：Guzheng solo, the vastness of the sea, makes people feel emotional, 200BPM

确实是古筝弹出来的，不过听起来有点“山寨”，有了一些合成音乐的感觉，Prompt描绘的感受被比较完整地演绎出来。

我们换成中文Prompt：古筝独奏，大海的广阔感，让人内心波澜，200BPM

BUG又出来了，完全听不出来是古筝，全程只正确演绎出Prompt里面的“波澜壮阔”感。

从这几个基础体验来看，英文Prompt之下，StableAudio的演绎还是相当准确的，但它对中文Prompt的识别能力极差，基本只能抓住对音乐风格的描述。不过整体感受下来，懂音乐的人或许能将StableAudio运用地更得心应手，他们对不同的乐器，不同的音乐风格的Prompt描述可以更加准确，所生成的音乐美感差异也会比较大。

为了训练出StableAudio，Stability AI使了什么招？

虽然在实际体验中，StableAudio的运行速度并不是非常快，通常需要用户在输入Prompt后大约10秒，才能生成音乐，但根据Stability AI对外公布的信息，它能在不到一秒的时间内，使用NVIDIA A100 GPU渲染出95秒的立体声音频，采样率为44.1 kHz。并且它提供免费试用机会，用户可以在不支付费用的情况下，可以生成20条音频，每条音频的时间不超过45秒。

除了免费试用外，StableAudio还提供专业版和企业版订阅计划，具备更多的音乐生成次数和时长，专业版用户可以生成90秒的音频，订阅费用为11.99美金每个月。是否免费的另一个大的区别，是所生成的音频能否被用于商用，专业版和企业版生成的均被允许商业用途，比如电影制作或游戏开发行业的人，可以通过StableAudio快速生成他们想要的背景音乐。

为了训练这款模型，Stability与音乐提供商AudioSparx合作，在超过800000个音频文件的数据集上进行了训练，其中包括音乐、音效和单乐器主干，以及相应的文本元数据。在将19500小时的音频输入模型后，StableAudio知道如何模仿它在命令中“听”到的某些声音描述。经过大量的训练的StableAudio，让用户通过文本提示就能直接生成摇滚、爵士、电子、嘻哈、重金属、民谣、流行、朋克、乡村等20多种类型背景音乐。

据称，在培训之前，AudioSparx创作人被问及是否愿意提供他们的歌曲，这个决定可能是对Stability在Stable Diffusion的培训素材涉及版权辩论中所面临的大规模反对的回应。

“黑科技”支撑：潜在扩散模型

在过去几年，扩散模型在图像、视频、音频等领域获得发展，可提升训练和推理效率。但音频领域的扩散模型存在一个问题，通常只能生成固定大小的内容。例如，音频扩散模型可能在30秒的音频片段上进行训练，并且只能生成30秒的音频片段。

为了打破这个技术瓶颈，StableAudio使用了一种更先进的模型：潜在扩散模型（latent diffusion model）。这是一种基于扩散的生成模型，主要在预训练的自动编码器的潜在编码空间中使用，也是一种结合了自动编码器和扩散模型的方法。

潜在扩散模型的核心思想是将音频信号从一个高维空间（例如 44.1 kHz 的采样率）映射到一个低维空间（例如 64 x 64 的潜在空间），然后通过一个随机过程逐步恢复原始信号，同时加入文本信息作为条件。这样，就可以实现从文本到音频的生成，而不需要大量的数据和计算资源。

扩散过程的原理其实是训练了一个基于 U-Net 和噪音等级机制 (schedule）的噪音等级预测器。扩散过程包含如下阶段：

·数据集准备阶段：生成训练数据

输入：包含清晰图像的数据集、不同级别的噪音等级机制

流程：从数据集中抽样得到清晰图像，从噪音等级机制中抽样得到某种级别的噪音样本，把该噪音和图像融合

输出：带有某种等级的噪音图像

·训练阶段：训练噪音等级预测器

输入：把上一阶段中的噪音图像和清晰图像作为输入数据，对应的噪音样本作为标签。

训练：采用 U-Net 作为神经网络，采用监督 1oss对输入进行学习

输出：某种等级的噪音样本

•推断阶段：去噪并生成图像

输入：训练完成的 U-Net、某个噪音图像

推断：U-Net 输出该噪音图像的噪音等级（噪音样本）

输出：把噪音图像减去噪音样本，得到去噪图像。不断重复该过程，最终得到类似清晰图像的图像（并不一定完全相同)

和其他扩散模型相比，StableAudio优势在于它能增强音乐质量和音乐连贯性。它可以生成长达90秒的音乐，而其他模型通常只能生成几秒钟的音频片段。这一创新是通过潜在扩散技术实现的，StableAudio的模型可以逐渐减少噪音，从而使音乐更加连贯，符合用户的要求。

进入到“人人都能成为音乐节”的时代

在一个充满数字震荡和创新潮流的世界里，Stability AI从2021年起就如一颗冉冉升起的新星，在开源生成人工智能领域展现了令人瞩目的活力和创造力。

虽然Stability AI推出的StableAudio在音乐界激起了不小的讨论，但在市场上已有多个不同角度的尝试。

我们可以逐个体验一下这几款工具。例如，HuggingFace社区里的Music To Image拥有能将音乐转化为图片的能力，拖入一条音频，这款工具便可以将音乐表达的情境转化成图片。

2022年12月，第一个对Stable Diffusion的音频生成的尝试工具Riffusion出世，它可以生成光谱图，根据定制的音乐风格来产生声音。

2023年5月，谷歌发布将文本转化为音乐的工具MusicLM，用户可以键入“晚餐派对的灵魂爵士乐”或“创建催眠的工业技术声音”等提示，并让该工具创建歌曲的几个版本，它对Prompt的描述要求较高。

进入MusicLM，用户就会被引导提示如何设置Prompt。

与以上相比，MusicGen最大的差别是在Prompt之外，用户可以插入一个参考性的音频文件，帮助校准所生成的音频的效果。

总体而言，StableAudio作为一款“文生音”工具，古筝、钢琴的音色出乎意料的接近现实声音，还可以solo演奏，生成的音乐不但拥有主题，还有递进的结构，但生成的音频可以听到旋律有一定的重复。但在体验中也能感受到，有部分乐器会出现失真状况。

整体感受下来，StableAudio能够满足使用者对「文生音」的好奇心，并且适合对于音乐创作毫无经验的新手小白去进行创作，但懂音乐乐理和基础知识的玩家会更有优势。

在这个快速演变的数字时代，StableAudio不仅是一个AIGC工具，或许也是一个让音乐梦想成真、激发创意和情感的平台。人人都能成为音乐家的时代，或许很快到来。

本文由腾讯科技和适道（ID：survivalbiz）联合出品，如需交流欢迎加作者微信：aiyukuailetongzai ，烦请备注公司+职务。

音乐人的“噩梦”？StabilityAI推出音乐生成工具StableAudio

音乐人的“噩梦”？StabilityAI推出音乐生成工具StableAudio

继续阅读

“工资调整，年终奖暂停”，公务员工资或发生新变动，教师尴尬了

孙燕姿妹妹自称已不爱姐姐孙燕姿，回应父母偏爱姐姐：更偏向势力

孙燕姿妹妹发文回应父母偏爱：确实有那么一点点，准确的是偏势力

孙燕姿妹妹宣布与孙燕姿断绝关系

孙燕姿与妹妹“断绝关系”,刘德华姐姐住“贫民窟”:为何变成这样

妹妹与孙燕姿决裂，喊话“停止小动作”：后半生允许我为自己生活

姐妹绝交！孙燕姿到底犯了何罪？

好久不见，见字如面。我怀念的是无话不说，我怀念的是一起做梦，我怀念的是…#要久久爱#杨紫黄瀛子#孙燕姿样子#时光啊#学生

《要久久爱》躲过杨紫和范丞丞，没躲过友情出演的孙燕姿

《要久久爱》成为爆剧是因为成功的抓住了中年人这批观众。剧中的孙燕姿、仙剑、魔兽世界等情怀让这批中年观众不可自拔。谁不是当

🦋要久久爱☀时间：2024年1月20日💎地区：中国大陆❤主演：杨紫、范丞丞、朱颜曼滋、金世佳、孙燕姿、王乾越、方悦乔、钊

盘点《要久久爱》中特别出演的配角们，歌手孙燕姿惊喜加盟

#分享照片#孙燕姿#孙燕姿音乐dna又动了#孙燕姿唱的是要久久爱的样子

#孙燕姿#依然热爱生活#逛gai#孙燕姿唱的是要久久爱的样子

#微头条首发挑战赛#《要久久爱》今晚迎来大结局笑中带泪的故事剧情一场蒋翼等了很久很久的求婚还兑现了把孙燕姿邀请现场的承诺

5位嫁给普通人的女明星！从万茜到孙燕姿，比起嫁豪门她们更幸福