天天看点

Metor生成式A/语音:Voicebox惊艳问世。·Controlor在元宇宙上摔了大跟头。2022年经历大规模裁员,

作者:白莲如风

Metor生成式A/语音:Voicebox惊艳问世。

·Controlor在元宇宙上摔了大跟头。2022年经历大规模裁员,但小扎丝毫没有自暴自弃,而是一鼓作气研发出了生成式Al语音系统voice box。语音的核心问题是什么?需要大量的专业数据来对特定的AI语音进行训练,耗时长、成本高而且能力单一。

voicebox是一种基于流匹配的方法,能够学习到语音和文本之间的非确定的映射关系,减少了繁琐的语音标注环节。mentor训练voicebox采用了六个国家的语言,英语、法语、德语、西班牙语、波兰语、葡萄牙语,包含了5000个小时的录音、转录文本以及公共领域的有声书。

·Voicebox不仅能够合成这6种语言,还能够进行噪声消除内容编辑、转换音频风格。因为担心这种技术被滥用,现在Mentor并不打算公开语音的AI模型。

接下来看看生成式的语音系统到底厉害在哪里?

·第一点,特定语境的文本转语音。Y box仅需2秒左右的音频样本输入就能将文字生成和样本风格一致的语音内容。这个技术的应用价值非常大,比如可以定制你喜欢的虚拟助手,可以让有视听障碍的人士像正常人一样沟通和对话。

·第二点,跨语言风格迁移。给定一段语音样本和对应的文本片段,不管是英语、法语、德语,还是西班牙语、波兰语、葡萄牙语。voice box能以任何一种语言读出文本,这不就是随身携带了一个翻译机吗?不同国家之间再也没有语言障碍。普通人可以通过自己的语调,语气来说外语,对于喜欢旅游跨国工作的人真是太实用了。

·第三点,语音的降噪和编辑,噪音污染是语音系统的棘手问题。voicebox拥有上下文的学习能力,因此当音频中出现被噪声污染的片段可以通过voicebox进行自动裁剪并与整体的音频无缝衔接。这项能力对于内容创造者真是太友好了。

拿我自己来讲,我也经常编辑短视频,但是在录音的过程中难免会出错,一旦等到视频编辑完了再发现这个错误那已经太晚了,还得重新录一遍。Voicebox可以自动化的解决这个问题。

·第四点多样化的语音采样。voicebox通过学习海量、多样化的语音数据可以合成超级自然的人声,未来不管是游戏中的NCP还是数字人、影视配音,AI的表现会越来越接近真人。此外这种能力还可以合成数据帮助训练语音助理,值得欣喜的是它的表现和使用真人语音数据训练的模型差不多。这种方式可以极大降低语音应用的开发成本提升效率。

技术总是会有两面性的,mentor为了降低这个技术被恶意使用,它构建了一种分类器能够识别真人的声音和voicebox创造出来的声音。

好了今天先到这里了,面对强大的Voicebox你心动了吗?过去AI的核心价值是降本增效增收,未来价值体系变成如何让"人人平等"。论文地址:speech-generation-at-scale/更多价值信息关注公众号:夏叶华。视频号:Eva产品战略。

Metor生成式A/语音:Voicebox惊艳问世。·Controlor在元宇宙上摔了大跟头。2022年经历大规模裁员,
Metor生成式A/语音:Voicebox惊艳问世。·Controlor在元宇宙上摔了大跟头。2022年经历大规模裁员,
Metor生成式A/语音:Voicebox惊艳问世。·Controlor在元宇宙上摔了大跟头。2022年经历大规模裁员,
Metor生成式A/语音:Voicebox惊艳问世。·Controlor在元宇宙上摔了大跟头。2022年经历大规模裁员,
Metor生成式A/语音:Voicebox惊艳问世。·Controlor在元宇宙上摔了大跟头。2022年经历大规模裁员,
Metor生成式A/语音:Voicebox惊艳问世。·Controlor在元宇宙上摔了大跟头。2022年经历大规模裁员,
Metor生成式A/语音:Voicebox惊艳问世。·Controlor在元宇宙上摔了大跟头。2022年经历大规模裁员,

继续阅读