天天看點

精華文稿|聲紋識别可靠評測

分享嘉賓 | 李藍天

文稿整理 | William

嘉賓介紹

引言

近年來,聲紋識别技術發展迅猛,在一些基準評測中取得了令人鼓舞的性能。然而,基于這些主流技術所搭建的聲紋識别系統在實際應用中的表現卻難言可靠。從應用方的回報來看,聲紋識别系統在許多應用場景下的魯棒性并不理想。這種基準評測和應用表現的不一緻性問題,極大地困擾了聲紋識别的研究者和從業者,也限制了聲紋識别技術的大規模推廣應用。

為了了解和解釋這種不一緻性問題,本報告将從聲紋評測的視角出發,在評測資料(Data)、測試清單(Trial)和評價名額(Metric)三個次元上進行分析,并嘗試給出一些可靠的解決方案。

精華文稿|聲紋識别可靠評測

圖1 聲紋識别評測的三要素

評測資料篇 — CN-Celeb [1][2]首先是測試資料(Data)。目前主流基準評測的資料大都是在限定條件下采集得到的。例如,被采集者會預先知曉資料采集的基本要求(時間、地點、裝置、文本等),顯然這樣采集到的資料無法描述真實應用場景中的複雜變動性。這種複雜變動性通常包括說話人的内在變動性(例如,說話方式、語速、時變、身體狀态等)和外在變動性(例如,錄音裝置、周圍環境、背景噪聲、傳輸信道等)。換言之,這些測試資料無法評測出聲紋識别系統在實際應用場景下的真實性能,進而引發了基準評測和實際表現的性能不一緻性。

那麼如何得到能夠描述複雜變動性的資料呢?為了實作這一目标,我們聚焦在多場景聲紋識别研究。多場景是目前聲紋識别所面臨最具挑戰性的情形。在多場景情形中,其涵蓋了幾乎所有的複雜變動性。在多場景下取得優秀的識别性能是聲紋識别技術走向實際應用的充要條件。不幸的是,目前還沒有一個真正意義上的多場景聲紋識别資料集,這将無法開展面向多場景聲紋識别的研究。

為了解決多複雜場景資料空白的問題,我們建構了一個大規模多場景聲紋識别資料集 CN-­Celeb,用于多場景聲紋識别訓練和評測。整個資料集的采集流程分為兩個階段:在第一個階段,利用自動化工具擷取大量的明星音視訊片段;在第二個階段,通過人工質檢,删除标簽錯誤的片段,確定資料标注的準确性。整個采集流程如下圖2所示。

精華文稿|聲紋識别可靠評測

圖2 CN-Celeb 采集流程圖

最終,我們采集了來自網際網路公開可下載下傳的3,000位中國明星的音頻資料,覆寫了包括訪談、演講、唱歌、影視、文娛等11類真實場景。

精華文稿|聲紋識别可靠評測

圖3 CN-Celeb 資料分布圖

進一步地,我們搭建了i-vector、x-vector基線系統以及更主流的x-vector系統,測試這些系統在VoxCeleb和CN-Celeb上的性能表現,如下表1所示。實驗表明,這些系統在場景單一的VoxCeleb上取得了令人滿意的性能表現,然而在CN-Celeb上的性能相當糟糕。

表1 VoxCeleb和CN-Celeb在不同聲紋識别系統上的性能對比

精華文稿|聲紋識别可靠評測

綜上,測試資料的場景受限問題是造成目前聲紋評測與實際性能不一緻的關鍵因素之一。為了更好地評測聲紋識别系統在實際場景下的真實性能,我們釋出了多場景聲紋資料集 CN-Celeb。實驗表明,目前主流的聲紋識别系統在複雜場景下的表現并不如意,也證明了多場景聲紋識别任務的挑戰性。

測試清單篇 — Hard Trials [3]

測試清單用于衡量聲紋識别模型和系統的性能,其作用就像一個探測器。顯然,如果探測器設計的不好,性能評價就不能可靠。然而,測試清單的重要性尚未得到廣泛重視,而簡單的交叉配對(cross-­pairing)方法仍然是目前測試清單設計中最受歡迎的方法。

經過理論經驗分析和仿真實驗驗證,我們發現基于這種交叉配對方法所生成的測試清單中存在大量的簡單測試清單,即系統可以非常容易的對這些清單做出正确的判決。顯然,這些清單對系統評測來說毫無意義,由其所得到的性能表現也過于理想,引發了基準評測和實際應用的不一緻性。

為了解決這一問題,我們認為應該對測試清單進行有效選擇:濾除簡單測試清單、聚焦困難測試清單(下圖4灰色區域),避免測試清單存在的偏差,得到系統的真實性能。

精華文稿|聲紋識别可靠評測

圖4 測試清單的分數分布圖(紅色點代表闖入測試的分數分布,綠色星代表自識别測試的分數分布;灰色區域代表困難測試清單的分數分布)

那麼如何挖掘可靠的困難測試清單呢?根據支援向量機(SVM)的邊界理論,我們訓練出一個正樣本(自識别測試清單)和負樣本(闖入測試清單)的二分類SVM模型,将位于邊界面之上以及邊界面之外的測試清單視為困難測試清單(Hard trials)。

精華文稿|聲紋識别可靠評測

圖5 SVM 的邊界理論

具體地,我們首先構造若幹個基線系統。然後對于每個測試清單,計算其在每個系統上的判決分數,并拼接成一個分數向量。基于這些分數向量(分為自識别測試清單的分數向量和闖入測試清單的分數向量)訓練SVM模型。模型訓練完成後,模型中的支援向量(support vectors)即為困難測試清單。實驗結果表明,在VoxCeleb和SITW測試清單中存在困難測試清單,如下表2所示。

表2 VoxCeleb和SITW中的原始測試清單與困難測試清單

精華文稿|聲紋識别可靠評測

進一步地,我們測試這些困難測試清單在主流聲紋識别系統上的性能表現,如下表3所示。實驗結果表明,主流聲紋識别系統在這些困難測試清單上的表現不盡人意。這一方面驗證了目前測試清單中存在大量的簡單測試清單,緻使取得的性能過于理想;另一方面表明聲紋評測應該更加關注于困難測試清單,進而更好地展現出系統的真實性能。

表3 原始測試清單(Full trials)和困難測試清單(Hard trials)的性能對比

精華文稿|聲紋識别可靠評測

評價名額篇 — C-P Map [4]目前聲紋識别系統的評價名額通常僅是針對于某一個測試清單集,因而無法實作對某個系統的綜合評價,也無法實作對兩個系統的全面對比。

舉例來說,給定一組注冊/測試語音,測試配置定義為一個測試清單的子集,用于目标系統性能評測。全交叉配對是最大的測試配置,其對應的測試清單中涵蓋了所有的測試清單。如下圖6所示,A代表所有的測試清單,B表示A中的一個子集。

精華文稿|聲紋識别可靠評測

圖6 測試配置示意圖(A是最大的測試配置,B是A的一個子集)

顯然,對于一個特定的聲紋識别系統,不同測試配置的性能是不同的,這反映了目标系統在不同部署情況下的性能。通過收集所有測試配置及其相應的性能,我們可以更全面地評價目标系統的能力。

這個想法可通過一個配置-­性能分布圖 (config­-performance map, C-P map) 來實作。在該分布圖中,x軸對應于正測試清單的子集,y軸對應于負測試清單的子集。是以,圖中的每個位置 (x,y)對應于一個特定的測試配置。令(x,y)處的顔色代表性能度量,我們就得到了最終的配置-性能圖。進一步地,為了使配置-性能圖具有空間結構屬性,我們對正負測試清單的子集進行限定:對于正例測試清單(x 軸),我們從左到右逐漸選擇得分較高的測試清單,而對于負例測試清單(y 軸),我們從下到上逐漸選擇分數較低的測試清單。

下圖7給出了一個基于i-vector系統的配置-性能圖。由圖可見,大量的高性能區域(右上)表明在全交叉配對的測試配置中存在大量的簡單測試清單(代表了基線評測的性能),而靠近原點的低性能區域(左下)暗示系統性能并不完美(代表了實際應用的性能),解釋了基準評測和實際應用的性能不一緻性問題。

精華文稿|聲紋識别可靠評測

圖7 基于i-vector系統的配置-性能圖

如果測試配置的順序是固定的,那麼配置­-性能圖将會更有價值。例如,可以選擇多個聲紋識别基線系統來評估每個測試清單,并使用平均分數對測試清單進行排序,建構有序的測試配置。通過使用這些有序的測試配置來繪制各個系統的配置-­性能圖。進一步地,通過計算兩個系統的配置-性能圖的內插補點,得到配置­-性能內插補點圖(delta C-P map),便可全面地比較兩個系統在不同測試配置下的性能表現。是以,配置­-性能內插補點圖是一個強大的評價工具,可用于确定技術的有效性,鑒定創新的真僞。圖8呈現了不同聲紋識别技術的配置­-性能圖和配置-­性能內插補點圖,建構了一幅路線圖,總結了近年來聲紋識别技術的發展。通過這個路線圖,可以清楚地看到哪些技術是有效的,哪些創新是革命性的。這進一步表明,我們所提出的配置-­性能圖是一個非常有價值的技術分析和系統比較工具。

精華文稿|聲紋識别可靠評測

圖8 基于配置-性能圖的聲紋識别技術路線圖

總結本報告從目前聲紋識别的基準評測與實際應用的性能不一緻性問題出發,提出了可靠聲紋識别評測的概念,從評測資料、測試清單和評價名額三個角度來解釋和解決這一不一緻問題。從評測資料的角度,我們建構了CN-Celeb多複雜場景聲紋識别資料集,更好地描述實際應用場景中複雜變動性;從測試清單的角度,我們提倡關注于困難測試清單,提出了基于邊界理論的挖掘方法;從評價名額的角度,我們設計了配置-性能圖和配置-性能內插補點圖,實作對系統更全面的性能評價。最後,我們呼籲整個聲紋社群更多地關注于可靠聲紋識别評測。

參考文獻

[1] Y. Fan, J. Kang, L. Li, K. Li, H. Chen, S. Cheng, P. Zhang, Z. Zhou, Y. Cai, and D. Wang, "CN-Celeb: a challenging Chinese speaker recognition dataset," in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020, pp. 7604–7608.

[2] L. Li, R. Liu, J. Kang, Y. Fan, H. Cui, Y. Cai, R. Vipperla, T. F. Zheng, and D. Wang, "CN-Celeb: multi-genre speaker recognition," Speech Communication, vol. 137, pp. 77–91, 2022.

[3] L. Li, D. Wang, and D. Wang, "Pay attention to hard trials," in 2022 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC). IEEE, 2022, pp. 204–209.

[4] L. Li, D. Wang, W. Du, and D. Wang, "C-P map: A novel evaluation toolkit for speaker verification," arXiv preprint arXiv:2203.02942, 2022.

繼續閱讀