論文題目:ASEGAN:WGAN音頻超分辨率
這篇文章并不具有權威性,因為沒有發表,說不定是外國的某個大學的畢業設計,或者課程結束後的作業、或者實驗報告。
CS230: Deep Learning, Spring 2018, Stanford University, CA. (LateX template borrowed from NIPS 2017.)
代碼:github
作者:Jonathan Gomes-Selman, Arjun Sawhney, WoodyWang
摘要
本文提出使用Wasserstein(沃瑟斯坦)生成對抗網絡來提高現有神經網絡的性能,訓練神經網絡來執行音頻超分辨率任務。受SRGAN[3]的啟發,我們利用一個預先訓練過的ASRNet版本,如Kuleshov等人描述的模型[2],作一個全卷積鑒别器模型的生成器。我們對生成器使用一個自适應的損失函數,将content loss内容損失(生成器輸出和對應的真實音頻信号之間的MSE)與傳統的對抗性損失相加。結果表明,該模型在信噪比(SNR)和對數譜距離(LSD)兩方面均優于bicubic interpolation(雙三次插值)基線。與ASRNet相比,我們的模型在LSD度量上表現出了更強的性能,并且我們的模型重構低分辨率信号的更高頻率而降低了信噪比。ASRNet和我們的模型在MUSHRA測試中都達到了近乎相同的性能,該測試結合了人類對産生的音頻信号清晰度的感覺,并且都顯著優于基線。
1 引言
随着個人助理系統和音頻資料的興起,對技術裝置的聽覺輸入變得越來越普遍;然而,考慮到聲音的粗糙性和可變性以及錄音裝置的細微差别,以音頻作為輸入的系統常常不得不處理品質較差的音頻,有時必須重新确認或重複詢問相同的問題來解釋輸入語音。是以,如果一個網絡能夠以品質較差的音頻作為輸入,在不需要使用者确認或重複的情況下增強或解析它,就可以改善個人助理和其他使用音頻資料通知操作的技術的體驗。
考慮到這個動機,我們提出了改進現有的模型,執行語音帶寬擴充,一種特定形式的音頻超分辨率。從一個下采樣的版本低品質音頻,通過重建,生成高品質的音頻,如[2]所述。考慮到SRGAN[3]利用生成對抗網絡(GAN)對現有的圖像超分辨率模型進行改進的成功,我們提出了一種改進的Wasserstein GAN體系結構來增強由[2]引入的音頻超分辨率模型ASRNet。通過将改進後的ASRNet作為生成器與深度卷積鑒頻器耦合,我們的ASRWGAN結果顯示了使用GANs增強目前音頻超分辨率方法的前景。
2 相關工作
我們的靈感來自于各種音頻和非音頻相關的深度學習方法。從根本上說,正如前面提到的,我們項目的主要目标是改進現有的用于音頻超分辨率的深度殘差啊網絡(ASRNet)的性能。ASRNet是由[2]提出的,它借鑒了前人對圖像超分辨率的研究成果,将其模組化為具有殘差跳躍連接配接的深度卷積神經網絡。ASRNet已被證明大大優于傳統插值技術,并為音頻超分辨率提供了一個有前途的實時網絡架構。
我們提出了一個模型來進一步提高ASRNet的性能,結合了生成對抗網絡的優點。正如[2]所指出的,音頻超分辨率的任務在很大程度上反映了圖像超分辨率的任務。是以,我們提出的模型和方法與SRGAN[3]中提出的模型和方法密切相關。SRGAN是一種用于圖像超分辨率的GAN,在大縮放因子下超分辨率圖像的表現優于現有的先進體系結構。
在開發我們的GAN架構時,我們也從Wave- GAN[1]的實作中得到了靈感。WaveGAN探索了使用全卷積架構進行音頻合成的問題,而不是使用與時間序列模組化密切相關的RNNs。WaveGAN的性能展示了将卷積模型應用于一維時間序列資料的潛力,這是我們在這裡進一步研究的一種方法。
3 資料集和特征
我們使用的資料來自語音與技術研究中心[5]提供的CSTR VCTK語料庫。這個資料集包括109個母語為英語的人的語音資料,每個人背誦大約400個英語句子,盡管我們隻是為了效率和計算時間的限制而對單個演講者的資料進行教育訓練。順便說一句,我們注意到,在未來的應用中,我們可以預見到為Skype或Alexa等服務中的單說話人專門訓練的音頻超分辨率模型。資料采用WAV檔案格式,我們使用Python的librosa庫将其轉換為一個numpy數組,固定采樣率為16000Hz。我們将音頻信号表示為函數$f(t):[0,T]-->R$,其中$f(t)$是$t$處的振幅,$t$是信号的時間長度。為了将連續信号作為輸入進行處理,必須将$f(t)$離散為向量$x(t):[\frac{1}{R},\frac{2}{R},...,\frac{RT}{R}]$,其中R為輸入音頻的采樣率,機關為Hz。
為了标準化輸入長度,我們從資料集中的語音中抽取半秒的patch作為樣本,經過預處理得到shape為(8192,1)的向量。然後我們随機打亂這些向量,并執行以下的訓練/測試資料集分割
訓練集: 3328 樣本, 測試集: 500 樣本
我們使用Chebyshev低通濾波器對每個高分辨率的語音進行預處理,将初始信号抽取為低分辨率的等長信号,并将其作為生成器網絡的輸入。基線我們采用雙三次插值方法進行音頻超分辨率任務。
4 方法及最終模型
如圖1所示,我們提出的模型靈感主要來源于三個主要模型:SRGAN[3]、wave-GAN[1]和ASRNet[2]。密切關注我們的一般方法SRGAN中提出的方法,其中包括使用pre-trained生成器網絡(ASRNet)來避免局部最小值和在生成器丢失中加入内容損失成份,通過提供有關手頭實際任務的領域知識(超分辨率)來提高性能。對于GAN體系結構的生成器和鑒别器,我們分别使用了修改後的ASRNet和WaveGAN鑒别器。我們選擇WaveGAN 鑒别器是因為它在音頻時間序列資料上的表現,這在很大程度上關系到長一維卷積濾波器能否成功捕捉到聲音的周期性。
在我們的架構研究中,我們主要關注兩種類型的GAN,即尋常 GAN和Wasserstein GAN (WGAN)[4]。我們最初的實作是一個普通的GAN,使用傳統的GAN訓練技術,比如使用非飽和成本函數,以及Leaky Relu非線性激活函數(如CS230課程中所述)等。然而,這個模型在訓練時表現出模式崩潰、爆炸梯度和不同的損失,是以我們轉向WGAN以獲得更大的訓練穩定性。

圖1:調整後超參數的ASR-WGAN架構
WGAN通過重新定義損失函數、合并權重剪裁、降低學習速度和使用非基于動量的優化器(RMS Prop)來适應普通的GAN。正如在[4]中提到的,這些更改允許更可靠的梯度反向傳播到生成器,同時保持參數值較小,以防止出現模型崩潰等問題
修改後的損失函數
$$公式1:Discriminator\_Loss=max_DE_{x\sim p_x}[D(x)]-E_{z\sim p_z}[D(G(z))]$$
根據[4]中描述的WGAN訓練算法,鑒别器不再訓練來識别真實和預測的例子,而是訓練來計算Wasserstein沃瑟斯坦距離
$$公式2:Generator\_Loss=\frac{1}{n}||x-G(z)||_2^2+\lambda max_GE_{z\sim p_z}[D(G(z))]$$
我們修改了[4]中提出的生成器損失,由于在[3]中類似方法的成功,是以在傳統對抗性損失的基礎上加入内容損失。我們使用預測和真實示例之間的MSE(均方誤差)來提供關于實際任務目标(超分辨率)的領域知識,以及一個額外的超參數$\lambda$來平衡内容損失和對抗性損失。具體地說,我們用$\lambda$來控制我們的模型對内容丢失的優化
5 結構與讨論
度量:根據Kuleshov等人的研究[2],我們使用信噪比和對數譜距離作為度量。給定一個目标信号$y$和重建$x$,信噪比和LSD定義如方程(3)和(4)所示,其中$X$和$\hat{X}$是$x$和$y$的對數譜功率大小,它被定義為$X=\log |S|^2$, $S$是短時傅裡葉變換的信号,和$l,k$分别為index名額幀和頻率。
$$公式3:SNR(x,y)=10\log \frac{||y||_2^2}{||x-y||_2^2}$$
$$公式4:LSD(x,y)=\frac{1}{L}\sum_{l=1}^L\sqrt{\frac{1}{K}\sum_{k=1}^K(X(l,k)-\hat{X}(l,k))^2}$$
圖2:來自各種重建方法的語音語譜圖
圖3:鑒别器和生成器的損失曲線,y軸上分别為損失值,x軸上為小批量疊代次數
估計:如圖2所示。與基線雙三次插值或樣條重建相比,我們的ASRWGAN重建顯示出在解決更高頻率的顯着改善。相對于ASRNet,我們的ASR-WGAN仍然可以恢複更多的高頻率,但是會出現一些原始高分辨率語音中不存在的無關噪聲,這可以通過儲存更多的預訓練生成器模型來解決。
從表1和表2的客觀名額來看,我們看到信噪比略有下降,大約為1-2 dB,但LSD有所改善(減少)。LSD名額比信噪比名額[2]更能分辨更高的頻率。在仔細檢查了epochs 1-5所儲存的權重之後,信噪比顯著下降到~ 5,這表明利用預先訓練好的網絡的好處正在減少,這可能是由于我們的鑒别器和生成器之間的性能差距造成的。然而,我們看到基線性能在短短40個周期内快速恢複和改進。是以,盡管與ASRNet生成器相比,我們似乎引入了更多的噪聲,但作為權衡,我們恢複了更多的高頻。
Objective Metrics | Spline | ASRNet | ASR-WGAN |
SNR | 14.8 | 17.1 | 15.7 |
log Spectral Distance | 8.2 | 3.6 | 3.3 |
表1:在上縮放比率為4時候的音頻超分辨率方法的客觀評價
MUSHRA | Sample 1 | Sample 2 | Sample 3 | Sample 4 |
ASR-WGAN | 70 | 61 | 73 | 68 |
ASRNet | 67 | 63 | 75 | 68.3 |
SPline | 42 | 34 | 36 | 37.3 |
表2:對每個音頻樣本的平均MUSHRA使用者打分
在添加了權重和梯度裁剪并過渡到WGAN之後,我們避免了模型崩潰,并在訓練中看到了改進的穩定性,如圖3中我們的損失曲線所示。我們可以看到,當鑒别器在連續的疊代中不斷更新時,生成器的損失穩步下降。
根據Kuleshov等人[2]的工作建議,然後我們通過詢問10名受過訓練的音樂家,讓他們使用MUSHRA(帶有隐藏參考和錨點的多個因素)測試來評估重建的總體品質。我們從VCTK單說話人資料集中随機選取三個音頻樣本,對樣本進行降采樣,然後使用雙三次樣條插值、ASRNet和我們的ASRWGAN重構樣本。然後,我們要求每位受試者給每個樣本打分,分值從0(糟糕)到100(完美)。實驗結果見表2所示。我們看到我們的ASR-WGAN重建評分明顯高于樣條,但ASRNets和ASRWGAN重建之間的差異不那麼明顯。
6 結論與未來的工作
我們介紹了一種新的音頻超分辨率的深層架構。我們的方法是新穎的,因為它結合了SRGAN, Wave-GAN和ASRNet。與傳統評價方法相比,實證評價方法的性能有所提高。
特别适用于生成音頻信号的高頻分量。與傳統方法相比,MUSHRA評估的最終結果也優于傳統方法。我們的架構中同時使用了普通的GAN和WGAN。我們最終選擇了WGAN,由于它的學習速度更小,損失函數更小,并且增加了權重和梯度剪切,提高了訓練的穩定性,是以更适合我們的問題。
我們最強的模型,命名為ASR-WGAN,在信噪比(SNR)和對數光譜距離(LSD)方面都比傳統的雙三次插值方法表現出更強的性能,同時在LSD度量上表現出更強的性能,與ASRNet相比信噪比降低。我們認為這些結果與我們的模型試圖重建輸入音頻信号的最高頻率的觀察結果是一緻的,這可能是音頻超分辨率最具挑戰性的部分。該模型以不連續的形式對預測的輸出信号引入了一些噪聲。在定性上,MUSHRA實驗表明,輸出信号的清晰度與ASRNet相當,且遠優于我們的基線模型。
未來工作:我們假設ASRWGAN的結構,特别是鑒别器和生成器之間的初始性能差距,導緻ASRWGAN不能充分利用生成器的初始預訓練狀态。鑒于此,我們未來工作的第一個行動是通過引入跳過連接配接和殘差單元使我們的識别器更具表現力,并調整鑒别器與生成器的訓練比例。此外,我們打算對生成器上的損失函數進行實驗,特别是内容損失,以便更好地反映優化人類耳朵性能的最終目标。給定更多的計算時間,一個自然的擴充将是在VCTK資料集中的多個揚聲器上訓練我們的模型,并執行更徹底的超參數搜尋,以找到權值剪切邊界。
7 貢獻
每個團隊成員對項目的貢獻是平等的。Jonathan編寫了大部分代碼來建立ASRWGAN的體系結構。Woody編寫代碼在AWS執行個體上訓練和測試模型。Arjun在分析音頻和圖像超分辨率領域現有GAN實作的基礎上,對資料集進行預處理,并對GAN體系結構進行調整和實作。所有團隊成員都認真閱讀了相關論文,提高了團隊的工作效率,花時間調試和重構代碼,并在最終報告的撰寫中做出了同等的貢獻。
8 緻謝
我們要感謝Volodymyr Kuleshov對我們整個項目的支援,幫助我們了解他最初的models架構。我們也要感謝Ahmad Momeni, Brandon Yang和CS230的全體教師幫助我們實施和了解我們的ASRWGAN。
9 代碼
項目代碼可在https://github.com/jonathangomesselman/CS230-Project中找到
參考文獻
[1] Donahue, Chris et al. Synthesizing Audio with Generative Adversarial Networks in arXiv, 2018.
[2] Kuleshov, Volodymyr et al. Audio Super Resolution with Neural Networks in arXiv (Workshop Track) 2017.
[3] Ledig, Christian et al. Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network in arXiv 2017.
[4] Arjovsky, Martin et al. Wasserstein GAN in ICML, 2017.
[5] English Multi-speaker Corpus for CSTR Voice Cloning Toolkit, 2010.
[6] Abadi, Martín et al. TensorFlow: Large-scale machine learning on heterogeneous systems, 2015. Software available from tensorflow.org, 2015. 6