天天看點

X-Vector 資料增益方法X-Vector 資料增益方法

X-Vector 資料增益方法

論文:Snyder D, Garcia-Romero D, Sell G et al. X-Vectors: Robust DNN Embeddings for Speaker Recognition. 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)[C]. 2018: 5329–5333.

文章目錄

  • X-Vector 資料增益方法
    • 摘要
    • 方法
    • 資料集
    • 資料增益系統及其結論
    • 參考文獻

摘要

在說話人識别中,DNN 投影可變長度的語音段為固定次元的說話人嵌入,被稱之為 x-vector。在已有的研究中,x-vector 比 i-vector 能更好地利用大規模地資料集。然而,收集如此大規模資料是非常困難的。D. Snyder 提出了一種高效的資料增益的方法,該方法包含增加噪聲和混響的技術,以增加訓練資料和改善系統魯棒性。實驗表明:以 SITW 和 SRE16 Cantonese (廣東話) 為評測資料集,1)資料增益對 i-vector 提取器無收益,2)資料增益 x-vector (TDNN) 收益顯著,3)x-vector 提取器的資料增益的改善效果優于 PLDA 的資料增益,4)VoxCeleb 1 資料集 (除去SITW重疊的說話人) 對 x-vector 改善效果最明顯。

方法

論文中提及了三種說話人識别系統:acoustic i-vector、i-vector (BNF) 和 x-vector。

  1. acoustic i-vector
    • 模型:輸入 ↦ \mapsto ↦ UBM ↦ \mapsto ↦ T ↦ \mapsto ↦ PLDA
    • 輸入:共 60 次元,幀長 25 ms 的均值歸一化 20 MFCC + Δ \Delta Δ + Δ Δ \Delta\Delta ΔΔ,在此基礎上,基于能量的語音活動檢測(VAD)選擇對應語音幀,語音最長 3 s
    • UBM:2048 分量全協方差高斯混合模型
    • T:提取 600 維 i-vector
    • PLDA:用于得分計算,具體過程為:中心化 ↦ \mapsto ↦ LDA ↦ \mapsto ↦ L-norm ↦ \mapsto ↦ PLDA ↦ \mapsto ↦ 自适應 s-norm,其中 LDA 采用 SITW 的開發資料進行訓練,将 i-vector 降為 200 次元,将 x-vector 降維 150 次元
  2. i-vector
    • 模型:與 acoustic i-vector 相同,但輸入不同
    • 輸入:共 100 次元,60 維語音瓶頸特征 (BNF) + 與 acoustic i-vector 相同的 MFCC 與 Δ \Delta Δ,進行與 acoustic i-vector 相同的特征處理
  3. X-vector
    • 模型:輸入 ↦ \mapsto ↦ TDNN ↦ \mapsto ↦ PLDA
    • 輸入:共 24 次元,幀長 25 ms 的均值歸一化 24 濾波器組,在此基礎上,基于能量的語音活動檢測(VAD)過濾非語音幀,語音最長 3 s
    • TDNN:一種特殊結構的卷積神經網絡,見參考文獻,激活參數都采用 ReLU,temporal pooling layer 之後的第一層 segment6,非線性化之前,作為說話人嵌入
    • PLDA:與 acoustic i-vector 相同

資料集

訓練資料集由電話語音和麥克風語音組成,大部分是英語,都采用 8kHz 采樣。語料包含 4 類:

  1. SWBD:包含 Switchboard 2 Phases 1, 2, 3 與 Switchboard Cellular,約 28,000 記錄,2,600 人
  2. SRE:包含 SRE04-10 與 Mixer 6,約 63,000 記錄,4,400 人。
  3. VoxCeleb:除去與 SITW 重疊的 60 人,約 20,000 記錄,1,191 人。
  4. Fisher English

這四個語料用于訓練上述的模型,

表1. 模型訓練的資料集

模型/語料 SWBD SRE VoxCeleb Fisher English
UBM/T Yes Yes Add in "Including VoxCeleb" setting
TDNN Yes Yes Add in "Including VoxCeleb" setting
PLDA Yes Add in "Including VoxCeleb" setting
BNF Yes

資料增益系統及其結論

資料增益能夠增加資料的豐富性,采用加噪聲和加混響的方式來實作該過程,具體地說,1 份幹淨的資料 + 2 份增益的副本。語料分别采用 RIRs 與 MUSAN,實作方法是在原有的語音段上随機選擇一種增益方式,可選的增益方法為:babble、music、noise、reverb。

資料增益方法的基礎上,評估以下五種系統性能(提取器是 UBM/T 和 TDNN 嵌入的統稱,即 i-vector 和 x-vector 的統稱):

表2. 各種系統在不同資料增益條件下的等錯誤率(EER/%)

系統 模型 SITW core SRE16 Cantonese
原始系統 i-vector (acoustic) 9.29 9.23
i-vector (BNF) 9.10 9.68
x-vector 9.40 8.00
PLDA增益 i-vector (acoustic) 8.64 8.92
i-vector (BNF) 8.00 8.82
x-vector 7.56 7.45
提取器增益 i-vector (acoustic) 8.89 9.20
i-vector (BNF) 7.27 8.89
x-vector 7.19 6.29
PLDA與提取器增益 i-vector (acoustic) 8.04 8.95
i-vector (BNF) 6.49 8.29
x-vector 6.00 5.86
Including VoxCeleb i-vector (acoustic) 7.45 9.23
i-vector (BNF) 6.09 8.12
x-vector 4.16 5.71

結論:

  1. 原始系統:BNF在英語語音上的收益不一定能轉化到非語音語音上。
  2. PLDA 增益:x-vector收益最明顯。
  3. 提取器增益:i-vector的收益不一緻;DNN訓練的收益明顯,且比PLDA增益更明顯。
  4. PLDA與提取器增益:x-vector整體最優。
  5. Including VoxCeleb:測試加入大規模麥克風語音的效果,VoxCeleb相對于SITW屬于同領域資料(in-domain),通過檢測錯誤折中曲線(DET)看整體(不同錯誤報警機率和誤檢測機率)的效果,x-vector 在大規模域内資料集上的收益最為明顯。

參考文獻

[1] Snyder D, Garcia-Romero D, Sell G et al. X-Vectors: Robust DNN Embeddings for Speaker Recognition. 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)[C]. 2018: 5329–5333.

[2] D. Sturim and D. Reynolds, “Speaker adaptive cohort selection for tnorm in text-independent speaker verification,” in Acoustics, Speech, and Signal Processing, 2005. Proceedings.(ICASSP’05). IEEE International Conference on. IEEE, 2005, vol. 1, pp. I–741.

[3] Snyder D, Garcia-Romero D, Povey D, et al. Deep Neural Network Embeddings for Text-Independent Speaker Verification. 18th Annual Conference of the International Speech Communication Association[C]. 2017: 999–1003.

作者資訊:

CSDN:https://blog.csdn.net/i_love_home?viewmode=contents

Github:https://github.com/mechanicalsea

2019級同濟大學博士研究所學生 王瑞 [email protected]

研究方向:說話人識别、說話人分離

繼續閱讀