mark一下，感謝作者分享！

https://blog.csdn.net/yh0vlde8vg8ep9vge/article/details/78621165

原

DeepMind詳解新WaveNet：比原來快千倍，語音更自然 | 附論文

2017年11月23日 00:00:00 量子位閱讀數：1615

</div>
			<div class="operating">
													</div>
		</div>
	</div>
</div>
<article>
	<div id="article_content" class="article_content clearfix csdn-tracking-statistics" data-pid="blog" data-mod="popu_307" data-dsm="post">
							<div class="article-copyright">
				版權聲明：本文為部落客原創文章，未經部落客允許不得轉載。					https://blog.csdn.net/yH0VLDe8VG8ep9VGe/article/details/78621165				</div>
							            <link rel="stylesheet" href="https://csdnimg.cn/release/phoenix/template/css/ck_htmledit_views-f76675cdea.css" target="_blank" rel="external nofollow" >
					<div class="htmledit_views">

夏乙編譯自 DeepMind Blog

量子位出品 | 公衆号 QbitAI

DeepMind詳解新WaveNet：比原來快千倍，語音更自然 | 附論文（轉）DeepMind詳解新WaveNet：比原來快千倍，語音更自然 | 附論文

上個月，Google Assistant英語和日語版終于用上了DeepMind一年前推出的語音合成算法：WaveNet。

從算法研究出來到用在産品裡，為什麼隔了一年多的時間呢？DeepMind說，WaveNet在去年論文釋出的時候還隻是個研究用的原型，對于消費類産品來說，它消耗的計算力太多了。

于是，DeepMind用一年時間為這個語音合成算法打造了更新版：并行WaveNet（parallel WaveNet），運作速度比原版快1000倍，語音品質也有所提升。

為了介紹更新版模型的細節，以及讓整個系統能夠在大規模并行計算環境中運作的機率密度蒸餾（probability density distillation）技術，DeepMind同時還公布了一篇論文：

Parallel WaveNet: Fast High-Fidelity Speech Synthesis

Aaron van den Oord, Yazhe Li, Igor Babuschkin, Karen Simonyan, Oriol Vinyals, Koray Kavukcuoglu

George van den Driessche, Edward Lockhart, Luis C. Cobo, Florian Stimberg, Norman Casagrande, Dominik Grewe, Seb Noury, Sander Dieleman, Erich Elsen, Nal Kalchbrenner, Heiga Zen, Alex Graves, Helen King, Tom Walters, Dan Belov, Demis Hassabis

位址：https://deepmind.com/documents/131/Distilling_WaveNet.pdf

原版WaveNet模型用自回歸連接配接來一個樣本一個樣本地合成聲音波形，每一個新樣本受前一個樣本制約。按照這樣的序列生成方法，每秒能夠生成24000個樣本，要部署到實際産品上還是太慢了。

DeepMind詳解新WaveNet：比原來快千倍，語音更自然 | 附論文（轉）DeepMind詳解新WaveNet：比原來快千倍，語音更自然 | 附論文

△ 原版WaveNet逐個生成波形樣本

為了解決這個“太慢了”的問題，就需要一種能夠一次生成長序列樣本，又不用犧牲品質的方法。DeepMind所用的，就是上面提到的機率密度蒸餾。

機率密度蒸餾法就是用一個經過完全訓練的WaveNet模型作為“教師”網絡，把自己的能力教給一個“學生”網絡——更小、更平行、更适用于現代計算機硬體的神經網絡。

學生網絡是一個比較小的dilated CNN，和原始WaveNet結構差不多。但二者有一個關鍵的差別：在學生網絡中，每個樣本的生成不依賴于任何已生成的樣本，這就意味着從第一個詞到最後一個詞，以及中間的整個句子，我們都可以同時生成出來，如下圖所示：

DeepMind詳解新WaveNet：比原來快千倍，語音更自然 | 附論文（轉）DeepMind詳解新WaveNet：比原來快千倍，語音更自然 | 附論文

△ 新WaveNet模型以白噪聲為輸入，并行合成所有樣本

在訓練過程中，學生網絡從随機狀态開始，被輸入随機的白噪聲，它的任務是裡輸出一串連續的聲音波形。

然後，生成出的聲音波形被輸入到以訓練的原始WaveNet模型（也就是教師網絡）中，教師網絡給每個樣本打分，給出一個信号來讓學生了解這個樣本和教師網絡所要求的輸出相差有多遠。

這也是一個通過反向傳播來對學生網絡進行調參的過程，讓學生網絡學會自己該生成什麼樣的聲音。話句話說，就是教師和學生網絡都為每個聲音樣本的值輸出一個可能的機率分布，而訓練的目标是最小化二者之間的KL散度（KL divergence）。

這種訓練方法和生成對抗網絡（GAN）的設計可以平行比較，學生的角色就相當于GAN裡的生成器，而教師相當于鑒别器。與GAN不同的是，學生的目标不是“騙過”教師，而是與教師合作，嘗試達到與教師差不多的性能。

盡管這種訓練方式效果不錯，但我們還是需要再加上一些額外的損失函數，才能讓學生達到我們所需要的水準。

我們添加了感覺損失（perceptual loss）來防止産生不好的發音，用contrastive loss來進一步消除噪音，用power loss協助比對人類語音的能量。

這些損失函數都是很有用的，比如說如果不加power loss，模型合成的語音就都是耳語，而不像人類大聲說話的聲音。

把上述方法都用上，我們訓練出的并行WaveNet所合成的語音，就能夠達到和原始WaveNet相同的品質，見下表所示的平均意見分（MOS）：

DeepMind詳解新WaveNet：比原來快千倍，語音更自然 | 附論文（轉）DeepMind詳解新WaveNet：比原來快千倍，語音更自然 | 附論文

MOS這個評分體系，讓人類被試用1-5的數字來衡量語音聽起來有多自然。特别需要說明的是，真人的語音的MOS評分也隻有4.667。

當然，讓WaveNet符合實際産品應用所需的速度和品質，需要很多步驟，機率密度蒸餾隻是其中之一。

為了将并行WaveNet整合到Google Assistant的服務流中，DeepMind應用團隊和Google語音團隊都需要付出同樣多的工程努力，兩個團隊共同努力12個月，才能夠把WaveNet這項基礎研究用到谷歌的大規模産品中。

最後，附上相關文章位址：

DeepMind部落格文章位址：https://deepmind.com/blog/high-fidelity-speech-synthesis-wavenet/

Parallel WaveNet論文：https://deepmind.com/documents/131/Distilling_WaveNet.pdf

原版WaveNet論文：https://arxiv.org/pdf/1609.03499.pdf

— 完 —

加入社群

量子位AI社群11群開始招募啦，歡迎對AI感興趣的同學，加小助手微信qbitbot4入群；

此外，量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募，面向正在從事相關領域的工程師及研究人員。

進群請加小助手微信号qbitbot4，并務必備注相應群的關鍵詞~通過稽核後我們将邀請進群。（專業群稽核較嚴，敬請諒解）

誠摯招聘

量子位正在招募編輯/記者，工作地點在北京中關村。期待有才氣、有熱情的同學加入我們！相關細節，請在量子位公衆号(QbitAI)對話界面，回複“招聘”兩個字。

DeepMind詳解新WaveNet：比原來快千倍，語音更自然 | 附論文（轉）DeepMind詳解新WaveNet：比原來快千倍，語音更自然 | 附論文

量子位 QbitAI · 頭條号簽約作者

追蹤AI技術和産品新動态

DeepMind詳解新WaveNet：比原來快千倍，語音更自然 | 附論文（轉）DeepMind詳解新WaveNet：比原來快千倍，語音更自然 | 附論文

DeepMind詳解新WaveNet：比原來快千倍，語音更自然 | 附論文

夏乙編譯自 DeepMind Blog

量子位出品 | 公衆号 QbitAI

繼續閱讀

簡單文檔分類——樸素貝葉斯算法樸素貝葉斯算法簡單文檔分類執行個體步驟總結樸素貝葉斯分類調用(sklearn)

考證大全 | 證券從業資格考試

敲黑闆！2021年證券從業考試考點預測

2021年銀行從業考試考情介紹,果斷收藏!

證券從業合格證書什麼時候列印？有哪些注意事項？

【幹貨滿滿】初級銀行從業考試《個人理财》重點梳理

2020年經濟師考試，難嗎？

初級銀行從業資格證有什麼用？

MBA提前面試純幹貨分享

MBA值得學麼

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

深度學習模型分析人類複雜疾病的準确性

【趨高機器視覺】機器視覺技術原了解析及解決方案

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡

DeepMind詳解新WaveNet：比原來快千倍，語音更自然 | 附論文（轉）DeepMind詳解新WaveNet：比原來快千倍，語音更自然 | 附論文

DeepMind詳解新WaveNet：比原來快千倍，語音更自然 | 附論文

夏乙 編譯自 DeepMind Blog 量子位 出品 | 公衆号 QbitAI

繼續閱讀

夏乙編譯自 DeepMind Blog

量子位出品 | 公衆号 QbitAI