X-Vector 資料增益方法
論文:Snyder D, Garcia-Romero D, Sell G et al. X-Vectors: Robust DNN Embeddings for Speaker Recognition. 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)[C]. 2018: 5329–5333.
文章目錄
- X-Vector 資料增益方法
-
- 摘要
- 方法
- 資料集
- 資料增益系統及其結論
- 參考文獻
摘要
在說話人識别中,DNN 投影可變長度的語音段為固定次元的說話人嵌入,被稱之為 x-vector。在已有的研究中,x-vector 比 i-vector 能更好地利用大規模地資料集。然而,收集如此大規模資料是非常困難的。D. Snyder 提出了一種高效的資料增益的方法,該方法包含增加噪聲和混響的技術,以增加訓練資料和改善系統魯棒性。實驗表明:以 SITW 和 SRE16 Cantonese (廣東話) 為評測資料集,1)資料增益對 i-vector 提取器無收益,2)資料增益 x-vector (TDNN) 收益顯著,3)x-vector 提取器的資料增益的改善效果優于 PLDA 的資料增益,4)VoxCeleb 1 資料集 (除去SITW重疊的說話人) 對 x-vector 改善效果最明顯。
方法
論文中提及了三種說話人識别系統:acoustic i-vector、i-vector (BNF) 和 x-vector。
- acoustic i-vector
- 模型:輸入 ↦ \mapsto ↦ UBM ↦ \mapsto ↦ T ↦ \mapsto ↦ PLDA
- 輸入:共 60 次元,幀長 25 ms 的均值歸一化 20 MFCC + Δ \Delta Δ + Δ Δ \Delta\Delta ΔΔ,在此基礎上,基于能量的語音活動檢測(VAD)選擇對應語音幀,語音最長 3 s
- UBM:2048 分量全協方差高斯混合模型
- T:提取 600 維 i-vector
- PLDA:用于得分計算,具體過程為:中心化 ↦ \mapsto ↦ LDA ↦ \mapsto ↦ L-norm ↦ \mapsto ↦ PLDA ↦ \mapsto ↦ 自适應 s-norm,其中 LDA 采用 SITW 的開發資料進行訓練,将 i-vector 降為 200 次元,将 x-vector 降維 150 次元
- i-vector
- 模型:與 acoustic i-vector 相同,但輸入不同
- 輸入:共 100 次元,60 維語音瓶頸特征 (BNF) + 與 acoustic i-vector 相同的 MFCC 與 Δ \Delta Δ,進行與 acoustic i-vector 相同的特征處理
- X-vector
- 模型:輸入 ↦ \mapsto ↦ TDNN ↦ \mapsto ↦ PLDA
- 輸入:共 24 次元,幀長 25 ms 的均值歸一化 24 濾波器組,在此基礎上,基于能量的語音活動檢測(VAD)過濾非語音幀,語音最長 3 s
- TDNN:一種特殊結構的卷積神經網絡,見參考文獻,激活參數都采用 ReLU,temporal pooling layer 之後的第一層 segment6,非線性化之前,作為說話人嵌入
- PLDA:與 acoustic i-vector 相同
資料集
訓練資料集由電話語音和麥克風語音組成,大部分是英語,都采用 8kHz 采樣。語料包含 4 類:
- SWBD:包含 Switchboard 2 Phases 1, 2, 3 與 Switchboard Cellular,約 28,000 記錄,2,600 人
- SRE:包含 SRE04-10 與 Mixer 6,約 63,000 記錄,4,400 人。
- VoxCeleb:除去與 SITW 重疊的 60 人,約 20,000 記錄,1,191 人。
- Fisher English
這四個語料用于訓練上述的模型,
模型/語料 | SWBD | SRE | VoxCeleb | Fisher English |
---|---|---|---|---|
UBM/T | Yes | Yes | Add in "Including VoxCeleb" setting | |
TDNN | Yes | Yes | Add in "Including VoxCeleb" setting | |
PLDA | Yes | Add in "Including VoxCeleb" setting | ||
BNF | Yes |
資料增益系統及其結論
資料增益能夠增加資料的豐富性,采用加噪聲和加混響的方式來實作該過程,具體地說,1 份幹淨的資料 + 2 份增益的副本。語料分别采用 RIRs 與 MUSAN,實作方法是在原有的語音段上随機選擇一種增益方式,可選的增益方法為:babble、music、noise、reverb。
資料增益方法的基礎上,評估以下五種系統性能(提取器是 UBM/T 和 TDNN 嵌入的統稱,即 i-vector 和 x-vector 的統稱):
系統 | 模型 | SITW core | SRE16 Cantonese |
---|---|---|---|
原始系統 | i-vector (acoustic) | 9.29 | 9.23 |
i-vector (BNF) | 9.10 | 9.68 | |
x-vector | 9.40 | 8.00 | |
PLDA增益 | i-vector (acoustic) | 8.64 | 8.92 |
i-vector (BNF) | 8.00 | 8.82 | |
x-vector | 7.56 | 7.45 | |
提取器增益 | i-vector (acoustic) | 8.89 | 9.20 |
i-vector (BNF) | 7.27 | 8.89 | |
x-vector | 7.19 | 6.29 | |
PLDA與提取器增益 | i-vector (acoustic) | 8.04 | 8.95 |
i-vector (BNF) | 6.49 | 8.29 | |
x-vector | 6.00 | 5.86 | |
Including VoxCeleb | i-vector (acoustic) | 7.45 | 9.23 |
i-vector (BNF) | 6.09 | 8.12 | |
x-vector | 4.16 | 5.71 |
結論:
- 原始系統:BNF在英語語音上的收益不一定能轉化到非語音語音上。
- PLDA 增益:x-vector收益最明顯。
- 提取器增益:i-vector的收益不一緻;DNN訓練的收益明顯,且比PLDA增益更明顯。
- PLDA與提取器增益:x-vector整體最優。
- Including VoxCeleb:測試加入大規模麥克風語音的效果,VoxCeleb相對于SITW屬于同領域資料(in-domain),通過檢測錯誤折中曲線(DET)看整體(不同錯誤報警機率和誤檢測機率)的效果,x-vector 在大規模域内資料集上的收益最為明顯。
參考文獻
[1] Snyder D, Garcia-Romero D, Sell G et al. X-Vectors: Robust DNN Embeddings for Speaker Recognition. 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)[C]. 2018: 5329–5333.
[2] D. Sturim and D. Reynolds, “Speaker adaptive cohort selection for tnorm in text-independent speaker verification,” in Acoustics, Speech, and Signal Processing, 2005. Proceedings.(ICASSP’05). IEEE International Conference on. IEEE, 2005, vol. 1, pp. I–741.
[3] Snyder D, Garcia-Romero D, Povey D, et al. Deep Neural Network Embeddings for Text-Independent Speaker Verification. 18th Annual Conference of the International Speech Communication Association[C]. 2017: 999–1003.
作者資訊:
CSDN:https://blog.csdn.net/i_love_home?viewmode=contents
Github:https://github.com/mechanicalsea
2019級同濟大學博士研究所學生 王瑞 [email protected]
研究方向:說話人識别、說話人分離