天天看點

學習說話人識别和驗證的判别特征

Learning Discriminative Features for Speaker Identification and Verification

學習說話人識别和驗證的判别特征

摘要

任何文本獨立的說話者識别和/或驗證系統的成功依賴于系統學習辨識特征的能力。

在本文中,我們提出了一種基于流行的非常深VGG [1] CNN的卷積神經網絡(CNN)架構,通過關鍵修改來适應可變長度頻譜圖輸入,減少模型磁盤空間要求并減少參數數量,進而産生在教育訓練時間顯着減少。我們還提出了一個統一的深度學習系統,用于文本無關的說話人識别和說話人驗證,通過在Softmax損失和中心損失的共同監督下訓練拟議的網絡架構。

[2]獲得适用于說話人識别和驗證任務的高度辨識力的深度特征。

我們使用最近釋出的VoxCeleb資料集[3],其中包含超過1200名屬于不同種族的名人的數十萬個現實世界話語,用于對我們的方法進行基準測試。我們最好的CNN模型獲得了84.6%的前1準确度,比Vox-Celeb的方法有4%的絕對改進,而與Center Loss相結合的訓練将Top-1準确度提高到89.5%,絕對值提高了9% Voxceleb的方法。

索引術語࿱

繼續閱讀