Deepmind語音生成模型WaveNet正式商用：效率提高1000倍

2021-11-11 02:32:28

2017年10月4日，Deepmind發表部落格稱，其一年前提出的生成原始音頻波形的深層神經網絡模型WaveNet已正式商用于Google Assistant中，該模型比起一年前的原始模型效率提高1000倍，且能比目前的方案更好地模拟自然語音。

以下為Deepmind部落格所宣布的詳細資訊，雷鋒網(公衆号：雷鋒網)摘編如下

一年之前，我們提出了一種用于生成原始音頻波形的深層神經網絡模型WaveNet，可以産生比目前技術更好和更逼真的語音。當時，這個模型是一個原型，如果用在消費級産品中的計算量就太大了。

在過去12個月中，我們一直在努力大幅度提高這一模型的速度和品質，而今天，我們自豪地宣布，WaveNet的更新版本已被內建到Google Assistant中，用于生成各平台上的所有英語和日語語音。

新的WaveNet模型可以為Google Assistant提供一系列更自然的聲音。

為了了解WaveNet如何提升語音生成，我們需要先了解目前文本到語音（Text-to-Speech，

TTS）或語音合成系統的工作原理。

目前的主流做法是基于所謂的拼接TTS，它使用由單個配音演員的高品質錄音大資料庫，通常有數個小時的資料。這些錄音被分割成小塊，然後可以将其進行組合以形成完整的話語。然而，這一做法可能導緻聲音在連接配接時不自然，并且也難以修改，因為每當需要一整套的改變（例如新的情緒或語調）時需要用到全新的資料庫。

另一方案是使用參數TTS，該方案不需要利用諸如文法、嘴型移動的規則和參數來指導計算機生成語音并進行語音拼接。這種方法即便宜又快捷，但這種方法生成的語音不是那麼自然。

WaveNet采取完全不同的方法。在原始論文中，我們描述了一個深層的生成模型，可以以每秒處理16000個樣本、每次處理一個樣本黨的方式建構單個波形，實作各個聲音之間的無縫轉換。

WaveNet使用卷積神經網絡建構，在大量語音樣本資料集上進行了訓練。在訓練階段，網絡确定了語音的底層結構，比如哪些音調互相依存，什麼樣的波形是真實的以及哪些波形是不自然的。訓練好的網絡每次合成一個樣本，每個生成的樣本都考慮前一個樣本的屬性，所産生的聲音包含自然語調和如嘴唇形态等參數。它的“口音”取決于它接受訓練時的聲音口音，而且可以從混合資料集中建立任何獨特聲音。與TTS系統一樣，WaveNet使用文本輸入來告訴它應該産生哪些字以響應查詢。

原始模型以建立高保真聲音為目的，需要大量的計算。這意味着WaveNet在理論上可以做到完美模拟，但難以用于現實商用。在過去12個月裡，我們團隊一直在努力開發一種能夠更快地生成聲波的新模型。該模型适合大規模部署，并且是第一個在Google最新的TPU雲基礎設施上應用的産品。

（新的模型一秒鐘能生成20秒的音頻信号，比原始方法快1000倍）

WaveNet團隊目前正在準備一份能詳細介紹新模型背後研究的論文，但我們認為，結果自己會說話。改進版的WaveNet模型仍然生成原始波形，但速度比原始模型快1000倍，每建立一秒鐘的語音隻需要50毫秒。該模型不僅僅速度更快，而且保真度更高，每秒可以産生24,000個采樣波形，同時我們還将每個樣本的分辨率從8bit增加到16bit，與CD光牒中使用的分辨率相同。

這些改進使得新模型在人類聽衆的測試中顯得發聲更為自然。新的模型生成的第一組美式英語語音得到的平均意見得分（MOS）為4.347（滿分5分），而真實人類語音的評分隻有4.667。

新模式還保留了原始WaveNet的靈活性，使我們能夠在訓練階段更好地利用大量資料。具體來說，我們可以使用來自多個語音的資料來訓練網絡。這可以用于生成高品質和具有細節層次的聲音，即使在所需輸出語音中幾乎沒有訓練資料可用。

我們相信對于WaveNet來說這隻是個開始。我們為所有世界語言的語音界面所能展開的無限可能而興奮不已。

本文作者：岑大師

Deepmind語音生成模型WaveNet正式商用：效率提高1000倍

繼續閱讀

tensorflow學習——keras進階API——序列模型Sequential

SVD原理和案例(奇異值分解)

連續兩年入圍全球Gartner ABI魔力象限，Quick BI在商業智能領域究竟有何魔力？1、互動式的分析和可視化2、建構資料故事3、釘釘內建4、增強分析Quick BI

技術解密｜阿裡雲多媒體 AI 團隊是憑借什麼拿下 CVPR2021 5冠1亞的？頂級挑戰賽戰績顯赫四大挑戰的關鍵技術探索基于視訊了解技術打造多媒體 AI 雲産品

雲通信産品營運帶你玩轉号碼隐私保護

算法專家解讀 | 開放搜尋教育搜題能力和實踐

昆侖KNSIPSP-L4-30W工業場所應用型防水防塵揚聲器，ABS機身材料，防護等級：IP67。易于安裝室外，揚聲器内

Keras使用分批疊代（fit_generate）的方式訓練資料

圖像分割UNet系列------UNet3+（UNet3plus）詳解

圖像分割UNet系列------UNet詳解

特征：什麼是特征和特征選擇？

Pytorch(二) Tensor Tensor的建立Tensor是什麼Tensor的建立

VGGNet------超經典神經網絡結構與PyTorch實作

tensorflow學習——（imdb資料集）文本分類first_2.py

Matlab深度學習-手寫體數字識别Matlab深度學習前言一、MNIST手寫體數字資料二、用到的深度學習架構-LeNet5三、代碼最後

K-近鄰算法以及圖像分類應用