百度Deep Voice 1 2 3阅读笔记

2023-05-01 02:03:32

7. Deep Voice: Real-time Neural Text-to-Speech

文章于2017年3月发表

Deep Voice是使用DNN开发的语音合成系统，主要思想是将传统参数语音合成中的各个模块使用神经网络来代替，包括以下五个模块：

grapheme-to-phoneme转换模型：将输入本文转为phoneme序列；
segmentation模型：定位音素边界；
phoneme duration模型：预测phoneme持续时长；
fundamental frequency模型：预测基频F0，音素是否发声；其中，phoneme duration模型和fundamental frequency模型一起训练；
audio synthesis模型：综合1/3/4输出进行音频合成。

各个模型具体实现或描述参见文中。

MOS值对比：

百度Deep Voice 1 2 3阅读笔记

文章于2017年5月发表

该模型与DeepVoice 1有类似的pipeline，但它在音频质量上却有显著的提高。该模型能够从每个说话人不到半个小时的语音数据中学习数百种独特的声音，同时实现高音质的合成和几乎完美地保留说话人身份。

这篇文章的重点是处理多个说话人而每个说话人的数据有非常少的情况，待后续学习；

文章于2018年2月发表

论文提出了一个新颖的用于语义合成的全卷积架构，可以实现完全并行计算，并解决了多个应用基于注意机制的 TTS 系统时问题；

主要贡献：

百度Deep Voice 1 2 3阅读笔记

MOS值对比：

百度Deep Voice 1 2 3阅读笔记

欢迎进群交流~

百度Deep Voice 1 2 3阅读笔记