1. 聲紋識别類型
說話人識别(Speaker identification)–确定測試說話人與注冊說話人中的哪個比對
說話人驗證(Speaker verification)–确定測試說話人是否與特定說話人比對
說話人分離(Speaker diarization)-“說話人何時說話”細分并标記說話人的連續錄音
依賴于文本(Text dependent)–對于說話者識别和驗證,測試說話者是否按照規定文本說話?
封閉式(Closed set )–是否有固定的說話人

2. 聲紋識别評價标準
錯誤接受率(FAR):FAR = nontarget_is_target / ( target_is_target + nontarget_is_target )
錯誤拒絕率(FRR):FRR = target_is_nontarget / ( target_is_nontarget + nontarget_is_nontarget )
等錯誤率 (EER-Equal Error Rate):調整門檻值,使得誤拒絕率(False Rejection Rate,FRR)等于誤接受率 (False Acceptance Rate,FAR),此時的FAR與FRR的值稱為等錯誤率。取一組0到1之間的等差數列,分别作為識别模型的判别界限,既坐标x軸,畫出FFR和FAR的坐标圖,交點就是EER值。
3.聲紋識别特征
幀級别特征:比如MFCC, LPCC, 等 請移步我的另一篇部落格(https://blog.csdn.net/m0_37854651/article/details/103421675)
話語和說話者級别特征:
高斯混合模型 超向量 GMM supervectors
i-vector
DNN 嵌入層 DNN embeddings
d-vectors
x-vectors
UBM (通用背景模型):–在普通人群的語音基礎上訓練具有許多高斯(例如2048)的GMM:無序列模組化(無HMM)-僅分布在MFCC上,然後使用MAP适應将UBM适應于每個目标說話者 通過對數似然比(LLR)直接使用這些GMM來驗證目标說話者,其中X是觀察到的測試發音,θs是目标說話者模型,θ0是UBM。 :
LLR(X,s)=log(p(X|θs)/p(X|θ0))=logp(X|θs)-logp(X|θ0)
設定一個門檻值T
如果LLR(X,s)>=T 接受,如果 LLR(X,s)<T 拒絕
MAP 适應 MAP adaption
MAP适應的基本思想是在通用資料上估計的參數與目标說話者的估計之間取得平衡
假設對于第m個高斯函數,
其中
是分量所占機率。
MAP 适應模型的估計:
其中,α控制平衡SI估計值和适應資料(通常0≤α≤20)
是時間n處的自适應矢量
此高斯在此時的機率.
i-Vector
使用GMM(平均值)參數代表說話人-将目标發言人的平均值參數串聯起來以形成GMM超向量
。 UBM GMM的典型尺寸為2048,是以使用39維參數,這可以是一個尺寸非常大的矢量(〜80000個分量)。
将話音
的超向量表示為UBM超向量和話音i-向量的組合:
- 和
聲紋識别原理1. 聲紋識别類型2. 聲紋識别評價标準3.聲紋識别特征i-Vector 是話音u和UBM的D維超向量。聲紋識别原理1. 聲紋識别類型2. 聲紋識别評價标準3.聲紋識别特征i-Vector - 是第i個向量(“身份向量”)–話語u(d〜400)的降維(d)表示。
聲紋識别原理1. 聲紋識别類型2. 聲紋識别評價标準3.聲紋識别特征i-Vector - T是一個D×d矩陣(有時稱為“總可變性矩陣”),它将超向量向下投影到i-向量表示形式。
- 使用EM算法為發育語料估計T,為說話人估計i-vector 作為給定Xu和T的
聲紋識别原理1. 聲紋識别類型2. 聲紋識别評價标準3.聲紋識别特征i-Vector (高斯)後驗分布的平均值。聲紋識别原理1. 聲紋識别類型2. 聲紋識别評價标準3.聲紋識别特征i-Vector
說話人驗證涉及計算目标和測試i向量之間的(
)分數。
餘弦分數:
機率線性判别分析(PLDA)–解釋說話人變異性和聲道變異性的機率模型。 可用于計算對數似然比,是以
其中H1是測試說話者和目标說話者相同的假設,H0是他們不同的假設
目前最新的神經網絡方法使用NN提取嵌入,然後由PLDA對其評分。
d-vector(Variani等,2014)。
開發–訓練一個DNN以識别說話者。
注冊–從最後一個隐藏層中提取說話者特定的功能。
dvector–整個發聲(pooling)幀中特定于說話者的平均特征。
x-vector(Snyder等,2018)。
與d-vector相似,提取語音水準特征作為嵌入。
用幀級輸入和話語級輸出訓練TDNN。
體系結構包括一個“stats pooling”層,該層可計算最高幀級隐藏層的發聲的平均值和sd。
d-vector
x-vector