天天看点

音乐人的“噩梦”?StabilityAI推出音乐生成工具StableAudio

音乐人的“噩梦”?StabilityAI推出音乐生成工具StableAudio

音乐人的“噩梦”?StabilityAI推出音乐生成工具StableAudio

《新鲜计划》栏目由腾讯科技推出,挖掘最新鲜的产品,体验智慧浪潮中的Aha时刻。

文 / 适道

编辑 / 周小燕

今年5月,“AI孙燕姿”翻唱的歌曲在全网获得百万播放,“AI孙燕姿”一夜之间爆火出圈,网友们喊话孙燕姿“再不出来就要被AI代替了”,孙燕姿本人对此显得尤为淡定,她回应“人类无法超越AI,做自己已然足够”。

能像孙燕姿这样坦然面对AI对职业挑战的艺人并不多,最近曾因“文生图”应用Stable Diffusion一战成名的Stability AI,又在“文生音”领域做了一款新工具——StableAudio,可能要威胁到音乐人的饭碗了。

StableAudio简化了用户生产音频的模式,用户只需要输入关键词,通常包含乐器名称、风格、情境、甚至节拍数,就可以一键生成音频。该工具采用“潜在扩散模型”,它能根据用户输入的文本生成丰富多彩、高质量的音频,范围涵盖了音乐、对话、环境音和特效声等。

音乐人的“噩梦”?StabilityAI推出音乐生成工具StableAudio

StableAudio目前只有网页版,界面非常简单,用户进入后,可以输入关键词,一键生成音频。

音乐人的“噩梦”?StabilityAI推出音乐生成工具StableAudio

想象一下,在金色的伊比沙岛海滩上,落日的余晖洒在细软的沙滩上,微风带来海盐和自由的味道。在这样一个场景中,如果你有一首音乐的设想,StableAudio就能让你的“思绪”转化为“旋律”。只需将这个美好瞬间的描述输入系统,接下来你就可以坐下来,享受由AI生成的、符合情感和场景的音乐。

假如你想听一段钢琴独奏曲,输入:Piano Solo, Polish Situation, Inspiring, 112 BPM

大约在10秒之后,你将听到这样的一段45秒的音乐:

稳稳的钢琴独奏,听起来也算悦耳,20秒之后基本在重复前半场的调子。

奇怪的是,如果将上面同样的Prompt翻译成中文输入:钢琴独奏,波兰风,鼓舞人心,112BPM

你又会听到完全不一样感受的音乐:

基本听不出来是钢琴这款乐器的演奏,更多的像是酒吧里一群年轻人热身用的伴奏,听起来也像是合成乐器,和Prompt最呼应的就是“鼓舞人心”,听起来很有动感。

有可能是中英文翻译过程中,给机器传递的语义偏差导致。

我们再试一下中国传统乐器古筝的效果,输入Prompt:Guzheng solo, the vastness of the sea, makes people feel emotional, 200BPM

确实是古筝弹出来的,不过听起来有点“山寨”,有了一些合成音乐的感觉,Prompt描绘的感受被比较完整地演绎出来。

我们换成中文Prompt:古筝独奏,大海的广阔感,让人内心波澜,200BPM

BUG又出来了,完全听不出来是古筝,全程只正确演绎出Prompt里面的“波澜壮阔”感。

从这几个基础体验来看,英文Prompt之下,StableAudio的演绎还是相当准确的,但它对中文Prompt的识别能力极差,基本只能抓住对音乐风格的描述。不过整体感受下来,懂音乐的人或许能将StableAudio运用地更得心应手,他们对不同的乐器,不同的音乐风格的Prompt描述可以更加准确,所生成的音乐美感差异也会比较大。

为了训练出StableAudio,Stability AI使了什么招?

虽然在实际体验中,StableAudio的运行速度并不是非常快,通常需要用户在输入Prompt后大约10秒,才能生成音乐,但根据Stability AI对外公布的信息,它能在不到一秒的时间内,使用NVIDIA A100 GPU渲染出95秒的立体声音频,采样率为44.1 kHz。并且它提供免费试用机会,用户可以在不支付费用的情况下,可以生成20条音频,每条音频的时间不超过45秒。

除了免费试用外,StableAudio还提供专业版和企业版订阅计划,具备更多的音乐生成次数和时长,专业版用户可以生成90秒的音频,订阅费用为11.99美金每个月。是否免费的另一个大的区别,是所生成的音频能否被用于商用,专业版和企业版生成的均被允许商业用途,比如电影制作或游戏开发行业的人,可以通过StableAudio快速生成他们想要的背景音乐。

音乐人的“噩梦”?StabilityAI推出音乐生成工具StableAudio

为了训练这款模型,Stability与音乐提供商AudioSparx合作,在超过800000个音频文件的数据集上进行了训练,其中包括音乐、音效和单乐器主干,以及相应的文本元数据。在将19500小时的音频输入模型后,StableAudio知道如何模仿它在命令中“听”到的某些声音描述。经过大量的训练的StableAudio,让用户通过文本提示就能直接生成摇滚、爵士、电子、嘻哈、重金属、民谣、流行、朋克、乡村等20多种类型背景音乐。

据称,在培训之前,AudioSparx创作人被问及是否愿意提供他们的歌曲,这个决定可能是对Stability在Stable Diffusion的培训素材涉及版权辩论中所面临的大规模反对的回应。

“黑科技”支撑:潜在扩散模型

在过去几年,扩散模型在图像、视频、音频等领域获得发展,可提升训练和推理效率。但音频领域的扩散模型存在一个问题,通常只能生成固定大小的内容。例如,音频扩散模型可能在30秒的音频片段上进行训练,并且只能生成30秒的音频片段。

为了打破这个技术瓶颈,StableAudio使用了一种更先进的模型:潜在扩散模型(latent diffusion model)。这是一种基于扩散的生成模型,主要在预训练的自动编码器的潜在编码空间中使用,也是一种结合了自动编码器和扩散模型的方法。

音乐人的“噩梦”?StabilityAI推出音乐生成工具StableAudio

潜在扩散模型的核心思想是将音频信号从一个高维空间(例如 44.1 kHz 的采样率)映射到一个低维空间(例如 64 x 64 的潜在空间),然后通过一个随机过程逐步恢复原始信号,同时加入文本信息作为条件。这样,就可以实现从文本到音频的生成,而不需要大量的数据和计算资源。

扩散过程的原理其实是训练了一个基于 U-Net 和噪音等级机制 (schedule)的噪音等级预测器。扩散过程包含如下阶段:

·数据集准备阶段:生成训练数据

输入:包含清晰图像的数据集、不同级别的噪音等级机制

流程:从数据集中抽样得到清晰图像,从噪音等级机制中抽样得到某种级别的噪音样本,把该噪音和图像融合

输出:带有某种等级的噪音图像

·训练阶段:训练噪音等级预测器

输入:把上一阶段中的噪音图像和清晰图像作为输入数据,对应的噪音样本作为标签。

训练:采用 U-Net 作为神经网络,采用监督 1oss对输入进行学习

输出:某种等级的噪音样本

•推断阶段:去噪并生成图像

输入:训练完成的 U-Net、某个噪音图像

推断:U-Net 输出该噪音图像的噪音等级(噪音样本)

输出:把噪音图像减去噪音样本,得到去噪图像。不断重复该过程,最终得到类似清晰图像的图像(并不一定完全相同)

和其他扩散模型相比,StableAudio优势在于它能增强音乐质量和音乐连贯性。它可以生成长达90秒的音乐,而其他模型通常只能生成几秒钟的音频片段。这一创新是通过潜在扩散技术实现的,StableAudio的模型可以逐渐减少噪音,从而使音乐更加连贯,符合用户的要求。

进入到“人人都能成为音乐节”的时代

在一个充满数字震荡和创新潮流的世界里,Stability AI从2021年起就如一颗冉冉升起的新星,在开源生成人工智能领域展现了令人瞩目的活力和创造力。

虽然Stability AI推出的StableAudio在音乐界激起了不小的讨论,但在市场上已有多个不同角度的尝试。

音乐人的“噩梦”?StabilityAI推出音乐生成工具StableAudio

我们可以逐个体验一下这几款工具。例如,HuggingFace社区里的Music To Image拥有能将音乐转化为图片的能力,拖入一条音频,这款工具便可以将音乐表达的情境转化成图片。

音乐人的“噩梦”?StabilityAI推出音乐生成工具StableAudio

2022年12月,第一个 对Stable Diffusion的音频生成的尝试工具Riffusion出世,它可以生成光谱图,根据定制的音乐风格来产生声音。

音乐人的“噩梦”?StabilityAI推出音乐生成工具StableAudio

2023年5月,谷歌发布将文本转化为音乐的工具MusicLM,用户可以键入“晚餐派对的灵魂爵士乐”或“创建催眠的工业技术声音”等提示,并让该工具创建歌曲的几个版本,它对Prompt的描述要求较高。

音乐人的“噩梦”?StabilityAI推出音乐生成工具StableAudio

进入MusicLM,用户就会被引导提示如何设置Prompt。

音乐人的“噩梦”?StabilityAI推出音乐生成工具StableAudio

与以上相比,MusicGen最大的差别是在Prompt之外,用户可以插入一个参考性的音频文件,帮助校准所生成的音频的效果。

音乐人的“噩梦”?StabilityAI推出音乐生成工具StableAudio

总体而言,StableAudio作为一款“文生音”工具,古筝、钢琴的音色出乎意料的接近现实声音,还可以solo演奏,生成的音乐不但拥有主题,还有递进的结构,但生成的音频可以听到旋律有一定的重复。但在体验中也能感受到,有部分乐器会出现失真状况。

整体感受下来,StableAudio能够满足使用者对「文生音」的好奇心,并且适合对于音乐创作毫无经验的新手小白去进行创作,但懂音乐乐理和基础知识的玩家会更有优势。

在这个快速演变的数字时代,StableAudio不仅是一个AIGC工具,或许也是一个让音乐梦想成真、激发创意和情感的平台。人人都能成为音乐家的时代,或许很快到来。

本文由腾讯科技和适道(ID:survivalbiz)联合出品,如需交流欢迎加作者微信:aiyukuailetongzai ,烦请备注公司+职务。

继续阅读