天天看点

百度Deep Voice 1 2 3阅读笔记

7. Deep Voice: Real-time Neural Text-to-Speech

文章于2017年3月发表

百度Deep Voice 1 2 3阅读笔记

Deep Voice是使用DNN开发的语音合成系统,主要思想是将传统参数语音合成中的各个模块使用神经网络来代替,包括以下五个模块:

  1. grapheme-to-phoneme转换模型:将输入本文转为phoneme序列;
  2. segmentation模型:定位音素边界;
  3. phoneme duration模型:预测phoneme持续时长;
  4. fundamental frequency模型:预测基频F0,音素是否发声;其中,phoneme duration模型和fundamental frequency模型一起训练;
  5. audio synthesis模型:综合1/3/4输出进行音频合成。

各个模型具体实现或描述参见文中。

​ MOS值对比:

百度Deep Voice 1 2 3阅读笔记

8. Deep Voice 2: Multi-Speaker Neural Text-to-Speech

文章于2017年5月发表

该模型与DeepVoice 1有类似的pipeline,但它在音频质量上却有显著的提高。该模型能够从每个说话人不到半个小时的语音数据中学习数百种独特的声音,同时实现高音质的合成和几乎完美地保留说话人身份。

这篇文章的重点是处理多个说话人而每个说话人的数据有非常少的情况,待后续学习;

9. DEEP VOICE 3: SCALING TEXT-TO-SPEECH WITH CONVOLUTIONAL SEQUENCE LEARNING

文章于2018年2月发表

论文提出了一个新颖的用于语义合成的全卷积架构,可以实现完全并行计算,并解决了多个应用基于注意机制的 TTS 系统时问题;

主要贡献:

  1. 提出了一个全卷积的特征到频谱的架构,它使我们能对一个序列的所有元素完全并行计算,对比使用RNN结构,其训练速度极大地加快;
  2. 训练很快并且能用于 LibriSpeech这样的大规模数据集,它包含了 2484 个说话人的将近 820 个小时的录音数据;
  3. 论文方法可以生成单调注意行为(monotonic attention behavior),并避免语音合成常见的错误模式;
  4. 介绍了如何实现 Deep Voice3 的一个推理内核,它可以在一个单 GPU 服务器上每天完成多达 1000 万次推断。
百度Deep Voice 1 2 3阅读笔记
  1. encoder: 一种全卷积编码器,将文本特征转换为内部学习表征;
  2. decoder: 一种全卷积因果解码器,以自回归的方式解码学习表示,注意力机制为monotonic attention;
  3. converter:一种全卷积后处理网络,可以从解码的隐藏状态预测最后输出的特征。和解码器不同,转换器是非因果的,因此可以依赖未来的语境信息。

MOS值对比:

百度Deep Voice 1 2 3阅读笔记

欢迎进群交流~

百度Deep Voice 1 2 3阅读笔记
百度Deep Voice 1 2 3阅读笔记

继续阅读