1. 聲紋識别類型

說話人識别(Speaker identification)–确定測試說話人與注冊說話人中的哪個比對

說話人驗證(Speaker verification)–确定測試說話人是否與特定說話人比對

說話人分離(Speaker diarization)-“說話人何時說話”細分并标記說話人的連續錄音

依賴于文本(Text dependent)–對于說話者識别和驗證，測試說話者是否按照規定文本說話？

封閉式(Closed set )–是否有固定的說話人

聲紋識别原理1. 聲紋識别類型2. 聲紋識别評價标準3.聲紋識别特征i-Vector

2. 聲紋識别評價标準

錯誤接受率（FAR）:FAR = nontarget_is_target / ( target_is_target + nontarget_is_target )

錯誤拒絕率（FRR）:FRR = target_is_nontarget / ( target_is_nontarget + nontarget_is_nontarget )

等錯誤率 (EER-Equal Error Rate):調整門檻值，使得誤拒絕率(False Rejection Rate，FRR)等于誤接受率 (False Acceptance Rate，FAR)，此時的FAR與FRR的值稱為等錯誤率。取一組0到1之間的等差數列，分别作為識别模型的判别界限，既坐标x軸，畫出FFR和FAR的坐标圖，交點就是EER值。

3.聲紋識别特征

幀級别特征：比如MFCC, LPCC, 等請移步我的另一篇部落格(https://blog.csdn.net/m0_37854651/article/details/103421675)

話語和說話者級别特征：

高斯混合模型超向量 GMM supervectors

i-vector

DNN 嵌入層 DNN embeddings

d-vectors

x-vectors

UBM (通用背景模型)：–在普通人群的語音基礎上訓練具有許多高斯（例如2048）的GMM：無序列模組化（無HMM）-僅分布在MFCC上，然後使用MAP适應将UBM适應于每個目标說話者通過對數似然比（LLR）直接使用這些GMM來驗證目标說話者，其中X是觀察到的測試發音，θs是目标說話者模型，θ0是UBM。：

LLR(X,s)=log(p(X|θs)/p(X|θ0))=logp(X|θs)-logp(X|θ0)

設定一個門檻值T

如果LLR(X,s)>=T 接受，如果 LLR(X,s)<T 拒絕

MAP 适應 MAP adaption

MAP适應的基本思想是在通用資料上估計的參數與目标說話者的估計之間取得平衡

假設對于第m個高斯函數，

聲紋識别原理1. 聲紋識别類型2. 聲紋識别評價标準3.聲紋識别特征i-Vector

其中

聲紋識别原理1. 聲紋識别類型2. 聲紋識别評價标準3.聲紋識别特征i-Vector

是分量所占機率。

MAP 适應模型的估計：

聲紋識别原理1. 聲紋識别類型2. 聲紋識别評價标準3.聲紋識别特征i-Vector

其中，α控制平衡SI估計值和适應資料（通常0≤α≤20）

聲紋識别原理1. 聲紋識别類型2. 聲紋識别評價标準3.聲紋識别特征i-Vector

是時間n處的自适應矢量

聲紋識别原理1. 聲紋識别類型2. 聲紋識别評價标準3.聲紋識别特征i-Vector

此高斯在此時的機率.

聲紋識别原理1. 聲紋識别類型2. 聲紋識别評價标準3.聲紋識别特征i-Vector

i-Vector

使用GMM（平均值）參數代表說話人-将目标發言人的平均值參數串聯起來以形成GMM超向量

聲紋識别原理1. 聲紋識别類型2. 聲紋識别評價标準3.聲紋識别特征i-Vector

。 UBM GMM的典型尺寸為2048，是以使用39維參數，這可以是一個尺寸非常大的矢量（〜80000個分量）。

将話音

聲紋識别原理1. 聲紋識别類型2. 聲紋識别評價标準3.聲紋識别特征i-Vector

的超向量表示為UBM超向量和話音i-向量的組合：

聲紋識别原理1. 聲紋識别類型2. 聲紋識别評價标準3.聲紋識别特征i-Vector

聲紋識别原理1. 聲紋識别類型2. 聲紋識别評價标準3.聲紋識别特征i-Vector
和

聲紋識别原理1. 聲紋識别類型2. 聲紋識别評價标準3.聲紋識别特征i-Vector
是話音u和UBM的D維超向量。
聲紋識别原理1. 聲紋識别類型2. 聲紋識别評價标準3.聲紋識别特征i-Vector
是第i個向量（“身份向量”）–話語u（d〜400）的降維（d）表示。
T是一個D×d矩陣（有時稱為“總可變性矩陣”），它将超向量向下投影到i-向量表示形式。
使用EM算法為發育語料估計T，為說話人估計i-vector

聲紋識别原理1. 聲紋識别類型2. 聲紋識别評價标準3.聲紋識别特征i-Vector
作為給定Xu和T的

聲紋識别原理1. 聲紋識别類型2. 聲紋識别評價标準3.聲紋識别特征i-Vector
（高斯）後驗分布的平均值。

說話人驗證涉及計算目标和測試i向量之間的（

聲紋識别原理1. 聲紋識别類型2. 聲紋識别評價标準3.聲紋識别特征i-Vector

）分數。

餘弦分數：

聲紋識别原理1. 聲紋識别類型2. 聲紋識别評價标準3.聲紋識别特征i-Vector

機率線性判别分析（PLDA）–解釋說話人變異性和聲道變異性的機率模型。可用于計算對數似然比，是以

聲紋識别原理1. 聲紋識别類型2. 聲紋識别評價标準3.聲紋識别特征i-Vector

其中H1是測試說話者和目标說話者相同的假設，H0是他們不同的假設

目前最新的神經網絡方法使用NN提取嵌入，然後由PLDA對其評分。

d-vector（Variani等，2014）。

開發–訓練一個DNN以識别說話者。

注冊–從最後一個隐藏層中提取說話者特定的功能。

dvector–整個發聲（pooling）幀中特定于說話者的平均特征。

x-vector（Snyder等，2018）。

與d-vector相似，提取語音水準特征作為嵌入。

用幀級輸入和話語級輸出訓練TDNN。

體系結構包括一個“stats pooling”層，該層可計算最高幀級隐藏層的發聲的平均值和sd。

聲紋識别原理1. 聲紋識别類型2. 聲紋識别評價标準3.聲紋識别特征i-Vector

d-vector

聲紋識别原理1. 聲紋識别類型2. 聲紋識别評價标準3.聲紋識别特征i-Vector

x-vector

聲紋識别原理1. 聲紋識别類型2. 聲紋識别評價标準3.聲紋識别特征i-Vector

1. 聲紋識别類型

2. 聲紋識别評價标準

3.聲紋識别特征

LLR(X,s)=log(p(X|θs)/p(X|θ0))=logp(X|θs)-logp(X|θ0)

i-Vector

繼續閱讀

X-Vector 資料增益方法X-Vector 資料增益方法

20.LOCAL INFORMATION MODELING WITH SELF-ATTENTION FORSPEAKER VERIFICATION1.介紹

19.MFA-Conformer: Multi-scale Feature Aggregation Conformer forAutomatic Speaker Veriﬁcation

【Rep】18.REP WORKS IN SPEAKER VERIFICATION1 介紹

基于GMM的語音識别python實作

語音識别/聲紋識别的基礎概念

聲紋識别2

聲紋識别初學

MFCC特征提取過程中，各步驟的概念詳解

基于梅爾頻譜的音頻信号分類識别(Pytorch)基于梅爾頻譜的音頻信号分類識别(Pytorch)

EM算法的了解及EM算法應用于GMMEM算法高斯混合模型 GMM

啟辰大VDD-i精緻内飾進入啟辰大VDD-i超混動車内，和外觀對比起來，會顯得有一些低調，中控螢幕和全液晶儀表屏采用組合

#榮耀MagicV2#好多天沒抽獎了，再試試。2018年12月17日，榮耀官方宣布，榮耀Magic2icon全面更新骨聲

#榮耀MagicV2#雖然抽不上，再試一次吧。2018年12月17日，榮耀官方宣布，榮耀Magic2icon全面更新骨聲

#榮耀MagicV2#根本就抽不到[流淚]2018年12月17日，榮耀官方宣布，榮耀Magic2icon全面更新骨聲紋版

#榮耀MagicV2#。。。2018年12月17日，榮耀官方宣布，榮耀Magic2icon全面更新骨聲紋版本，新版本版本