天天看點

DeepMind釋出最新原始音頻波形深度生成模型WaveNet,将為TTS帶來無數可能

編者按:google的deepmind研究實驗室昨天公布了其在語音合成領域的最新成果——wavenet,一種原始音頻波形深度生成模型,能夠模仿人類的聲音,生成的原始音頻品質優于目前google采用的兩種最優文本-語音模型parameric tts與concatenative tts。

wavenets是一種卷積神經網絡,能夠模拟任意一種人類聲音,生成的語音聽起來比現存的最優文本-語音系統更為自然,将模拟生成的語音與人類聲音之間的差異降低了50%以上。

我們也将證明,同一種網絡能夠合成其他音頻信号,如音樂,并能夠自動生成沁人心脾的鋼琴曲。

使人們能夠與機器自由交談是人機互動研究領域長久以來的夢想。過去幾年中,深度神經網絡的應用(如google語音搜尋)為提高計算機了解自然語音的能力帶來了革新。但是,運用計算機生成語音——通常用于指代語音合成或文本-語音(tts)系統——在極大程度上還要依托拼接tts,tts中包含一個超大型記錄單個說話者的簡短語音片段的資料庫,随後将這些語音片段重新合成形成完整的話語。在不記錄一個新的完整資料庫的前提下,這種語音合成方法難以做到修飾聲音(例如,轉換到一個不同的說話者,或者改變其語音中強調的重點或傳達的情感)。

     為了解決語音合成的這一難題,迫切需要運用一種參數tts,在這種文本-語音系統中,生成資料所需要的所有資訊被存儲于模型的參數中,語音所傳達的内容及語音特征可以通過模型的輸入資訊得以控制。然而,目前參數(parametric)tts模型生成的語音聽起來不如拼接(concatenative)tts模型生成的語音自然,這種現象至少出現在音節類語言中,如英語。現有的參數模型通常是運用信号加工算法vocoders計算獲得的輸出資訊,以此生成音頻信号。

     wavenet通過直接為音頻信号的原始波形模組化,一次為一種音頻樣本模組化,來改變這種範式。同生成聽起來更為自然的語音相同,使用原始波形意味着wavenet能夠為任意類型的音頻模組化,包括音樂。

DeepMind釋出最新原始音頻波形深度生成模型WaveNet,将為TTS帶來無數可能

研究者通常避免為原始音頻模組化,因為原始音頻往往瞬間發生變化:通常情況下,每秒出現16,000種或更多音頻樣本,在很多時間标尺内出現重要的結構。很明顯,建構一個完全自動回歸模型是一項具有挑戰性的任務,在這種模型中,對每一種音頻樣本的預測均受到之前所有音頻樣本的影響(用統計學方面的話來講,每一種預測性分布是建立在所有先前觀察的基礎之上的)。

但是,我們今年公布的pixelrnn和pixelcnn模型顯示,做到以每次一個像素,甚至于每次一個顔色通道的方式生成複雜的自然圖像是可能的,這将要求對每個圖像做數千次預測。這也啟發我們将原有的二維pixelnets轉變為一種一維wavenet。

DeepMind釋出最新原始音頻波形深度生成模型WaveNet,将為TTS帶來無數可能

上方動畫所示為一個wavenet模型的内部結構,通常是一種完整的卷積神經網絡,卷積層中有各種各樣的擴張因子,允許其接受域深度成倍增長,并且覆寫數千個時間步長。

在訓練時間段内,輸入序列是從人類說話者記錄得來的真實波形。在訓練之後,我們可以對網絡取樣,以生成合成話語。在取樣的每一個步驟中,将從由網絡計算得出的機率分布中抽取數值。所抽取的數值随後被回報到輸入資訊中,這樣便完成下一步新預測。像這樣每做一次預測就取樣會增加計算成本,但是我們已經發現,這樣的取樣方法對于生成複雜且聽起來真實的音頻是至關重要的。

我們曾經運用google的一些tts資料集來訓練wavenet,以便用于評估wavenet的性能。下圖所示為與google目前最優tts系統(參數型tts和拼接型tts)和使用mean opinion scores(mos:用于評估語音通訊系統品質的方法)獲得的人類語音相比,在标尺(1-5)上wavenets的品質。mos是一種用于主觀語音品質測試的标準測定方法,在人群中進行盲試驗。我們可以看到,wavenets将最優模型生成語音的品質與人類自然語音(us英語和漢語國語)之間的差距降低了50%以上。

就漢語和英語來講,google目前的tts系統在世界範圍内被認為是最優文本-語音系統,是以,用一種單一模型來改善生成漢語與英語語音品質将會是一項重大成就。

DeepMind釋出最新原始音頻波形深度生成模型WaveNet,将為TTS帶來無數可能

教會wavenet說有意義的話

為了實作運用wavenet将文本轉化為語音,我們得告訴wavenet文本的内容是什麼。我們通過将文本轉換成語言和語音特征(包括音位、音節、單詞等),把轉換得來的特征提供給wavenet,完成這一過程。這意味着網絡的預測步驟不僅僅基于先前獲得的音頻樣本,而且要基于文本所傳達的内容。

如果我們想要脫離文本序列來訓練網絡,網絡依然能夠生成語音,但是得自行編造想要傳達的内容。這種條件下生成的音頻簡直是胡言亂語,有意義的單詞被編造的像單詞的聲音隔斷開。

 注意,有時wavenet也會生成一些非語音類型的聲音,如呼吸或口腔運動;這反映出一種原始音頻模型具有高度靈活性。

一個單一的wavenet具備學習許多不同聲音(男性和女性)的特征。為了確定wavenet能夠知道用何種聲音比對給定的任何一段話語,我們訓練網絡使之學習獲得說話者的身份特征。有趣的是,我們發現,與單一訓練單個說話者的特征相比,用許多說話者的語言、語音及身份等特征來訓練網絡使得wavenet能夠更好地模拟單個說話者,這種訓練模式暗含着一種遷移學習形式。

通過改變說話者的身份,我們可以用wavenet以不同的聲音表達同一段話語。

 同樣,我們可以為該模型提供額外的輸入資訊,如情感或口音,使得生成的語音變得更為多樣化,更有趣。

由于wavenet能夠用來模拟任何一種音頻信号,我們認為,嘗試用wavenet生成音樂也将很好玩。與tts實驗不同,我們的網絡不是基于一個輸入序列,告訴它怎麼演奏音樂(如一篇樂譜);相反,我們隻是簡單地允許wavenet任意生成一種音樂。當我們采用一個古典鋼琴曲資料集來訓練wavenet時,它将生成一曲美妙樂章。

 wavenets将為tts帶來無數可能,大體上來講,有生成音樂和模拟音頻兩類。事實上,直接運用深度神經網絡一個時間步長一個時間步長地生成音樂,這種方法适用于所有16khz音頻,這将是非常令人驚喜的。我們非常期待wavenets未來将會帶給大家的驚喜。

本文作者:高婓

繼續閱讀