天天看点

爱奇艺AI技术应用——AI RAP

背景

由爱奇艺平台倾力打造的S+级自制超级网综《中国新说唱》上线,首播4小时破亿,从播出效果来看, “吴亦凡 skr”“阿凡真的很严格”“那吾克热 黑马”“3bangz 快乐源泉”等话题迅速抢占微博热搜榜,可谓口碑流量双丰收。在全民说唱氛围的刺激下,很多人都会有freestyle的欲望,但又缺乏说唱的创作环境,因此很多好的说唱灵感转瞬即逝。

基于此,凭借深度学习和语音合成技术,我们团队发布了全民搞说唱(AI RAP),围绕“让用户快乐更简单,让娱乐更有趣”的AI愿景,满足普通用户一键生成专属的RAP歌曲。

爱奇艺AI技术应用——AI RAP

技术实现

相对平时说话,说唱具有语速快,发音边界模糊等特点,端到端的语音合成模型可以较好地解决语音合成的连贯性问题,但是并不能精确获取每个字的边界信息,同时在推断的准确性和实时性方面也存在问题。而爱奇艺AI RAP技术在这个方面做了很多优化工作。

AI RAP融合了多项AI技术,首次将基于位置敏感的注意力(location sensitive attention)和Inference Mask联合运用,显著提高了对齐结果的正确率。然后根据对齐情况,将语音合成结果自动适配到背景音乐的节奏点,保证了用户填的词对应到背景音乐的各个节奏点上。最后根据节奏选取最优的拉伸策略,将语音中的各个词拉伸到RAP歌曲对应的节拍数上。这样,一首具有专业flow水准的“差不多先生”RAP就大功告成了。

在语音合成方面,Google提出的tacotron模型虽然能够很好地还原训练数据的音色,但是无法产生稳定的单调递增对齐结果,容易出现漏字和重复的情况。因此,爱奇艺AI RAP对tacotron模型做了进一步优化,不仅显著提高了对齐准确性和语音合成质量,并可支持不同音色的发音需求。

爱奇艺AI技术应用——AI RAP

 AI RAP的TTS模型结构

此外, AI RAP借鉴了tacotron2中的location sensitive注意力模块,使其有能力感知对齐过程中的位置相关信息。同时,在推断时加入inference mask,使注意力的准确率进一步提升,在网络书籍测试集(8000+测试集,涵盖各种长度)上的对齐准确率从80% 提升到100%。值得一提的是,inference mask与传统的monotonic attention不同,它通过限制字间的注意力来保持单调性,从而保证了语音合成后的自然度和准确性。

爱奇艺AI技术应用——AI RAP

基于8000+的测试集上的对齐准确率对比

注意力优化前

注意力优化后

爱奇艺AI技术应用——AI RAP
爱奇艺AI技术应用——AI RAP
爱奇艺AI技术应用——AI RAP
爱奇艺AI技术应用——AI RAP

注意力优化前后对比

在音色方面,爱奇艺AI RAP通过大量训练集,训练出带有IP特征的音色,如蜡笔小新,小丸子,相声男神和女神等,满足了不同年龄段用户的需求,真正实现用户填词,明星帮唱RAP的特色玩法。

此外,合成速度是传统端到端模型的另一块短板。而爱奇艺AI RAP通过自研的波形恢复算法,来替代需多次迭代的Griffin-Lim算法,大大提升了语音合成速度。经过测试,在CPU上即可达到1秒钟完成多达40个字的语音合成。

为了大家可以尽情玩和尽情分享互动,这次结合语音合成的速度优化,并采用分布式部署,可以支持每天百万的用户来RAP。

爱奇艺AI技术应用——AI RAP

多种波形重建算法速度对比