爱奇艺AI技术应用——AI RAP

背景

由爱奇艺平台倾力打造的S+级自制超级网综《中国新说唱》上线，首播4小时破亿，从播出效果来看， “吴亦凡 skr”“阿凡真的很严格”“那吾克热黑马”“3bangz 快乐源泉”等话题迅速抢占微博热搜榜，可谓口碑流量双丰收。在全民说唱氛围的刺激下，很多人都会有freestyle的欲望，但又缺乏说唱的创作环境，因此很多好的说唱灵感转瞬即逝。

基于此，凭借深度学习和语音合成技术，我们团队发布了全民搞说唱（AI RAP），围绕“让用户快乐更简单，让娱乐更有趣”的AI愿景，满足普通用户一键生成专属的RAP歌曲。

技术实现

相对平时说话，说唱具有语速快，发音边界模糊等特点，端到端的语音合成模型可以较好地解决语音合成的连贯性问题，但是并不能精确获取每个字的边界信息，同时在推断的准确性和实时性方面也存在问题。而爱奇艺AI RAP技术在这个方面做了很多优化工作。

AI RAP融合了多项AI技术，首次将基于位置敏感的注意力（location sensitive attention）和Inference Mask联合运用，显著提高了对齐结果的正确率。然后根据对齐情况，将语音合成结果自动适配到背景音乐的节奏点，保证了用户填的词对应到背景音乐的各个节奏点上。最后根据节奏选取最优的拉伸策略，将语音中的各个词拉伸到RAP歌曲对应的节拍数上。这样，一首具有专业flow水准的“差不多先生”RAP就大功告成了。

在语音合成方面，Google提出的tacotron模型虽然能够很好地还原训练数据的音色，但是无法产生稳定的单调递增对齐结果，容易出现漏字和重复的情况。因此，爱奇艺AI RAP对tacotron模型做了进一步优化，不仅显著提高了对齐准确性和语音合成质量，并可支持不同音色的发音需求。

AI RAP的TTS模型结构

此外， AI RAP借鉴了tacotron2中的location sensitive注意力模块，使其有能力感知对齐过程中的位置相关信息。同时，在推断时加入inference mask，使注意力的准确率进一步提升，在网络书籍测试集（8000+测试集，涵盖各种长度）上的对齐准确率从80% 提升到100%。值得一提的是，inference mask与传统的monotonic attention不同，它通过限制字间的注意力来保持单调性，从而保证了语音合成后的自然度和准确性。

基于8000+的测试集上的对齐准确率对比

注意力优化前

注意力优化后

注意力优化前后对比

在音色方面，爱奇艺AI RAP通过大量训练集，训练出带有IP特征的音色，如蜡笔小新，小丸子，相声男神和女神等，满足了不同年龄段用户的需求，真正实现用户填词，明星帮唱RAP的特色玩法。

此外，合成速度是传统端到端模型的另一块短板。而爱奇艺AI RAP通过自研的波形恢复算法，来替代需多次迭代的Griffin-Lim算法，大大提升了语音合成速度。经过测试，在CPU上即可达到1秒钟完成多达40个字的语音合成。

为了大家可以尽情玩和尽情分享互动，这次结合语音合成的速度优化，并采用分布式部署，可以支持每天百万的用户来RAP。

多种波形重建算法速度对比

爱奇艺AI技术应用——AI RAP

继续阅读

高速下载磁力链接工具

华为Mate50系列搭载了强大的鸿蒙操作系统3.0，并首发了超级中转站功能，让大家能够一次批量分享多个文件，简单方便！快

华为地图上线3.0版本1.相比其他地图更加简洁2.导航界面可以看到道路上路灯（感觉没啥用处）地图有测距功能，感觉有时候能

#reactnative##app#reactnative钱包应用分享，github地址是ekoprassetyo/re

【#HarmonyOS3.0#技巧上新】#华为P40#和#华为Mate40#系列的朋友们，现在可以来#我的华为#App里

4个Android必装应用分享

撒花！苹果iOS迅雷手机版终于上架App Store应用简介下载安装写在最后

[吃瓜群众][吃瓜群众][吃瓜群众]目前手机上最主流的系统，就是iOS、鸿蒙、安卓了吧，但是系统之间的差别也是相当滴大，

Burp Suite应用分享之Web漏洞扫描

ERP应用分享：客户信用控制操作介绍