天天看點

語音信号處理、語音特征提取

語音信号處理、語音特征提取

語音信号是一種短時平穩信号, 即時變的,十分複雜,攜帶很多有用 的資訊,這些資訊包括語義、個人特 征等,其特征參數的準确性和唯一性 将直接影響語音識别率的高低,并且 這也是語音識别的基礎。

語音信号特征參數是分幀提取的, 每幀特征參數一般構成一個矢量, 是以語音信号特征是一個矢量序列。

語音信号特征提取的基礎是分幀, 将語音信号切成一幀一幀,每幀大 小大約是20-30ms。

特征參數應該能夠比較 準确地表達語音信号的 特征具有一定的唯一性

端點檢測:一段語音信号中準确地找出 語音信号的起始點和結束點

目的:把有效的語音信号好無用的噪聲 信号分離

在語音識别,語音增強,語音編碼,回 聲抵消等系統中應用廣泛

語音端點檢測方法分類

(1)基于門檻值的方法:根據語音信号和噪聲 信号的不同特征,提取每一段語音信号的特 征并與設定的門檻值進行比較

(2)基于模式識别的方法,需要估計語音信 号和噪聲信号的模型參數來進行比較,鑒于 模式識别方法自身複雜度高,運算量大,很 難應用到實時語音信号中

端點檢測本質上是根據語音和 噪聲的相同參數所表現出的不 同特征來進行區分。 傳統的短時能量和過零率相結 合的語音端點檢測算法,短時 過零率來檢測清音,用短時能 量來檢測濁音,兩者相配合實 現了信号信噪比較大情況下的 端點檢測(以短時能量檢測為 主,短時過零率檢測為輔)

語音信号處理、語音特征提取

短時能量法可以較好地區分出濁音和靜音

短時過零率對于清音,其能量較小,會因為低于能 量門限而被誤判為靜音,短時過零率可以區分靜音 和清音

雙門限法:基于短時能量(高門限)和過零率(低 門限)的雙門限端點檢測算法(當低門限被超過時, 有可能是噪聲引起的,未必是語音的開始,當高門 限被超過并在接下來的時間段内一直超過低門限時, 意味着語音信号的開始)

雙門限法步驟:

(1)計算短時能量(高門限) 和過零率(低門限)

(2)選取一個較高的門限 ,語音信号的能量包絡 大部分都在此門限之上,進行一次初判,語音起止 點位于該門限與短時能量包絡交點所對應的時間間 隔之外

語音信号處理、語音特征提取

(3)根據噪聲能量,确定一個較低的門限 T并從初判起 點往左,從初判終點往右搜尋,分别找到能零比曲線 第一次與門限 T,相交的兩個點,兩點之間段就是用 雙門限方法所判定的語音段

(4)以短時平均過零率為準,從低門限點往左右搜尋, 找到短時平均過零率低于某門檻值的兩點,為語音的起 止點

語音信号處理、語音特征提取
語音信号處理、語音特征提取

譜熵法

熵表示資訊的有序程度,語音的熵和噪聲的熵 存在較大的差異,可以展現語音和噪聲在整個 信号段中的分布機率

譜熵語音端點檢測方法是通過檢測譜的平坦程 度,達到語音端點檢測的目的自相關法:

(1)短時自相關(已講)

(2)由于兩種信号的自相關函數存在極大的差異, 可以利用這種差别來提取語音端點。根據噪聲的 情況,設定兩個門檻值 T1和T2 ,當相關函數最大值大 于T2 時,便判定是語音;當相關函數最大值大于或 小于T1 時,則判定為語音信号的端點。

語音信号處理、語音特征提取
語音信号處理、語音特征提取

基于譜熵的端點檢測: 基于譜熵語音端點檢測方法是通過檢 測譜的平坦程度,來進行語音端點檢測 的,為了更好地進行語音端點檢測,采 用語音信号的短時功率譜構 造語音資訊譜熵,進而對語音段和噪 聲進行區分。 檢測思路:基于譜熵的端點檢測檢測思路:

語音信号處理、語音特征提取
語音信号處理、語音特征提取

比例法 (1)能零比的端點檢測 在噪聲情況下,信号的短時能量和短時過零率會發生一定 變化,嚴重時會影響端點檢測。 如右圖所示, 語音信号的說話區間能量是向上 凸起的,而過零率相反,是下凹 的,這說明說話區間能量值大, 過零率小,噪聲區間能量值小, 過零率大,進而可以檢測語音 端點

語音信号處理、語音特征提取
語音信号處理、語音特征提取
語音信号處理、語音特征提取

基音:一般的聲音都是由發音體發出的一 系列頻率、振幅各不相同的振動複合而成的。 這些振動中有一個頻率最低的振動,由它發 出的音就是基音,其餘為泛音。 基音周期是指聲帶振動頻率的倒數。 基音周期是語音信号最重要的參數之一, 它描述了語音激勵源的一個重要特征

基音周期資訊在多個領域有着廣泛的應用,如:語 音識别、說話人識别、語音分析與綜合以及低碼率 語音編碼、發音系統疾病診斷、聽覺殘障者的語言 指導等。

由于漢語是一種有調語言,基音的變化模式稱為聲 調,它攜帶着非常重要的具有辨意作用的資訊,有 差別意義的功能,是以,基音的提取和估計對漢語 更是一個十分重要的問題

基音檢測的主要困難在于: ①聲門激勵信号并不是一個完整周期的序列,在語音的頭、 尾部并不具有聲帶振動那樣的周期性,有些清音和濁音 的過度幀是很難準确地判斷是周期還是非周期性的; ②在許多情況下,清音語音和低電平濁音語音段之間的過 渡段是非常細微的,确定它是極其困難的;

基音檢測的主要困難在于: ①從語音信号中去除聲道影響,直接取出僅和聲帶振動有關 的激勵信号的資訊并不容易,例如聲道的共振峰有時會嚴 重影響激勵信号的諧波結構。這種影響在發音器官快速動 作而共振峰也快速改變時,對對基音檢測是最具危害性的。

盡管基音檢測有許多困難,但因為它的重要性, 基音的檢測提取一直是一個研究的課題。 為此提出了各種各樣的基音檢測算法,如

自相關函數(ACF)法、

峰值提取算法(PPA)、

平均幅度差函數(AMDF)法、

并行處理技術、

倒譜法、

簡化逆濾波法(SIFT)

譜圖法、

小波法 …… 這一節将介紹幾種常用的基音提取方法。

短時自 相關

語音信号是非平穩的信号,是以對信号的處理都使用短時自 相關函數。 短時自相關函數是在信号的第N個樣本點附近用短時窗截取 一段信号,做自相關計算所得的結果

語音信号處理、語音特征提取

m表示窗函數是從第m點開始加入

自相關法

語音信号處理、語音特征提取
語音信号處理、語音特征提取

平均幅度差函數法(AMDF)

語音信号的短時平均幅度差函數(AMDF) Fn(k) 定義為:

語音信号處理、語音特征提取

與短時自相關函數一樣,對周期性的濁音語 音,Fn(k)也呈現與濁音語音周期相一緻的周 期特性,不過不同的是Fn(k)在周期的各個整 數倍點上具有谷值特性而不是峰值特性

平均幅度差函數法(AMDF)

因而通過Fn(k)的計算同樣可以來确定基音周期。而對于 清音語音信号,Fn(k)卻沒有這種周期特性。利用Fn(k) 的這種特性,可以判定一段語音是濁音還是清音,并估 計出濁音語音的基音周期。 但是,短時平均幅度差函數來估計基音周期時,要求窗 長取得足夠長。可以采用LPC逆濾波和中心削波處理等 方法來減少輸入語音中聲道特性或共振峰的影響,提供 基音周期估計效果Rn (k) and Fn (k)

無論是利用自相關函數還是平均幅度差函數,語音幀應使用矩形 窗

窗長的選擇要合适,一般認為窗長至少應該大于兩個基音周期, 而為了改善估計結果,窗長應選的更長一些,是幀信号包含足夠 多個語音周期

平均幅度差的計算無需乘法運算,其計算複雜度較小,且基音周 期點處的平均幅度差的谷點銳度比自相關函數的峰點銳度更尖銳, 估值精度更高(原因:平均幅度差與語音信号幅度的快速變化比 較敏感,影響估計的精度)

倒譜(CEP)法

倒譜法是傳統的基音周期檢測算法之一,它利用語音信号 的倒頻譜特征,檢測出表征聲門激勵周期的基音資訊。

原因:濁音語音的複倒譜中存在峰值,其出現時間等于基 因周期;而清音語音段的複倒譜則不出現這種峰值。利用 這一性質可以進行清/濁音判斷并估計濁音的基音周期。

步驟: 計算複倒譜 ü解卷 ü提取出聲門激勵資訊,在預期的基音周期附近尋找峰值 如果峰值超過了預先設定的門限,則語音斷定為濁音, 而峰的位置就是基音周期的估值如果不存在超出門限的峰值,則語音斷定為清音

如果計算的是依賴于時間的複倒譜,則可估計出激勵 源模型及基音周期随時間的變化

倒譜(CEP)法

語音信号處理、語音特征提取
語音信号處理、語音特征提取

反應資訊的倒譜峰,在過渡音和含噪語音中将會變得不 清晰甚至完全消失。其原因當然主要是因為過渡音中周 期激勵信号能量降低和類噪激勵信号幹擾或含噪語音中 的噪聲幹擾所緻。

對于一幀典型的濁音語音的倒譜,其倒譜域中基音資訊 與聲道資訊并不是完全分離的,在周期激勵信号能量較 低的情況下,聲道響應(特别是其共振峰)對基音倒譜峰 的影響就不可忽略。

如果設法除去語音信号中的聲道響應資訊,對類噪激勵 和噪聲加以适當抑制,倒譜基音檢測算法的檢測結果将 有所改善,特别對過渡語音的檢測結果将有明顯改善。

語音信号處理、語音特征提取
語音信号處理、語音特征提取

聲道可以看成是一根具有非均勻截面的聲管, 在發音時起共鳴器的作用。當準周期脈沖激 勵進入聲道時會引起共振特性,産生一組共 振頻率,稱為共振峰頻率或簡稱共振峰。

共振峰參數包括共振峰頻率和頻帶寬度,它 是差別不同韻母的重要參數。共振峰資訊包 含在語音頻譜包絡中,是以共振峰參數提取 的關鍵是估計自然語音頻譜包絡,并認為譜 包絡中的最大值就是共振峰提取共振峰特性最簡 便的手段是使用語譜儀。 分析共振峰參數也可采 用數字信号處理的方法, 它可獲得與語譜圖相同的 資訊。但精确的共振峰估 值是很困難的(原因:虛 假峰值、共振峰合并、高 音調語音)為此,下面讨 論常用的幾種解決方法。

語音信号處理、語音特征提取

帶通濾波器組法

這種方法類似于語譜儀,但由于使用了計算機,使濾波器特 性的選取更具靈活性,實作框圖如圖所示。

這是共振峰提取的最早形式,與線性預測法相比,濾波器組 法有些遜色。 但通過濾波器組的設計可以 使估計的共振峰頻率同人耳  的靈敏度相比對,其比對的 程度比線性預測法要好。

語音信号處理、語音特征提取

濾波器的中心頻率有兩種分布方法: ①等間距地分布在分析頻段上,則所有帶通濾波器的帶寬可設 計成相同,進而保證了各通道的群延時相同。 ②是非均勻地分布,例如為了獲得類似于人耳的頻率分辨特性, 在低頻端間距小,高頻端間距大,帶寬也随之增加,這時濾 波器的階數必須設計成與帶寬成正比,使得它們輸出的群延 時相同,不會産生波形失真。

缺點: 由于濾波器組中的濾波器數目有限,估計的共振峰頻率不 可避免地存在誤差; 而且對共振峰帶寬不易确定; 由于無法去除聲門激勵的影響,可能會造成虛假峰值。倒譜法

語音信号處理、語音特征提取
語音信号處理、語音特征提取
語音信号處理、語音特征提取

對于濁音和清音,倒譜法的檢測效果不同:

濁音時,若頻譜包絡的變換和基音峰值的變換在倒譜中的間隔 足夠大,則頻譜包絡的變換很容易識别。而聲道沖激響應h(n) 的倒譜的特性取決于聲道傳遞函數H(z)的極零點分布。當H(z) 的極零點的模不是很接近于1時,将随n的增加而迅速減小。 p清音時,聲門激勵序列具有噪聲特性,其倒譜沒有明顯峰值, 且分布于從低倒譜域到高倒譜域的很寬的範圍内,因而在低倒 譜域對聲道響應的資訊産生了影響。 注意:求得的聲道模型對數譜與實際的聲道對數譜之間将存在一 定差别

倒譜法存在的缺陷: 并不是所有的譜峰都為共振峰; 帶寬的計算。 原因: ① 當兩個共振峰很靠近時,發生譜重疊,很難從頻譜曲 線計算共振峰的帶寬。 ② 而且峰值檢測器認為此處隻存在一個共振峰

線性預測編碼(LPC)法 Ø LPC法的重要性在于提供了一組簡潔的語音信号模型參數, 比較精确地表征了語音信号的幅度譜。 語音信号共振峰的LPC法的一個主要特點在于能夠由預測 系數構成的多項式中精确地估計共振峰頻率和帶寬。 LPC法可對語音信号進行參數解卷,它所提供的譜包絡恢 複方法快速、準确并且在理論上完全得到了證明; LPC法的不足是其頻率靈敏度和人耳不相比對,但它仍然 是一種最廉價、最優良且行之有效的方法——因為線性 預測方法提供了一個優良的聲道模型(條件是語音基本 上不含噪聲

線性預測編碼(LPC)法

用LPC進行共振峰估計的兩種方案: 對全極模型的分母多項式A(z)進行因式分解,即用任何一 種标準的求取複根的程式确定A(z)的根,根據求得的根來 确定共振峰——求根法

進行LPC譜估計。LPC譜的特點是在信号的峰值處和信号譜 比對的很好,是以能夠準确地求得共振峰參數;即求出語 音譜包絡後,搜尋包絡上的局部極大值,用峰值檢測器确 定共振峰

LPC法常常可以得到比較尖銳的共振峰估計,比實際的共振峰 可能還要窄

語音信号處理、語音特征提取