天天看點

語音增強簡介

1  單麥克風語音增強

        麥克風,又稱話筒或傳聲器,是一種将模拟聲音信号轉換成數字電子信号的換能器。按聲場作用力麥克風可分為壓強式麥克風、壓差式麥克風和壓強壓差組合式麥克風。我們常用的麥克風就是壓強式麥克風。用單麥克風對語音進行增強,可通過實體結構和設計濾波器兩種方法實作。

(1) 實體結構實作

        指向性描述了麥克風對來自不同方向聲音的靈敏度,可分為全指向性麥克風、雙指向性麥克風和單一指向性麥克風。

        全指向性麥克風是壓強式麥克風,是最普遍的麥克風。它隻有一個入聲口,傳聲器膜片壓強的變化産生相應的輸出電壓。由于壓強是一個标量,因而它對不同方向上的聲音的靈敏度是相同的。是以這種麥克風采集四周環境的所有聲音,不能增強期望語音。

        雙指向性麥克風是壓差式麥克風,它有兩個入聲口,通過其傳聲器膜片兩側壓強差的變化産生相應的輸出電壓。這種麥克風可接受來自麥克風前方和後方的聲音,因而如果期望信号在這兩個方向上時,即可實作語音增強。

        單一指向性麥克風是壓強與壓差複合式麥克風,其結構上是在麥克風管的一端和管側開口,形成一個聲幹涉管,如圖1-1所示。來自管開口端的聲音信号同時到達傳聲器膜片,沒有相位幹涉,可獲得最大輸出;而來自管側的聲音信号到達傳聲器膜片的路徑不同,産生相位幹涉,輸出被抑制,進而可增強麥克風前端的語音信号。常見的單一指向性麥克風有心型指向性麥克風、超心型指向性麥克風和槍型指向性麥克風。

語音增強簡介

                                                                                                   圖1-1 聲幹涉管原理示意圖

        規格上常用極性圖來表示麥克風的指向性,如圖1-2所示,每個圖中虛線圓形的上方表示麥克風的前方,下方則表示麥克風的後方。

語音增強簡介

                      圖 1-2 各種麥克風的極性圖

        這種利用實體結構特點增強後的語音在人的主觀感受上有所改善,但對于語音人機互動系統來說仍達不到要求,即使是超指向性麥克風,來自管側的幹擾語音還是會嚴重影響語音識别的識别率。

(2) 設計濾波器實作

        将單個麥克風采集到的信号通過特别設計的濾波器,過濾掉非期望的噪聲,實作語音增強。按處理域的不同可分為時域、頻域和Karhunen-Loeve展開域(KLE)方法。時域方法就是設計一個最優時域濾波器來盡可能衰減噪音。頻域方法是将信号變換到頻域,在每個頻率點上設計一個最優濾波器來衰減噪聲。KLE域方法是先将麥克風采集到的資料的相關矩陣進行QR分解,利用得到的特征向量和特征值來衰減噪聲。

        這種方法能提高語音的信噪比,但是也引起語音信号的失真,進而影響語音信号的可懂度。

2 麥克風陣列語音增強

     麥克風陣列通過其拓撲結構排列來捕獲空時資訊,并運用這些資訊來估計一些參數或提取感興趣的信号。雖然窄帶天線陣列問題已得到很好的解決,但實際上麥克風陣列遇到的問題則要複雜得多,因為語音是寬帶信号,室内聲場混響很高,環境和信号是非統計的,噪聲可能和期望信号具有相同的空間譜特征。

     許多麥克風陣列處理算法都是基于窄帶的或是由窄帶陣列簡單擴充而來。這些算法的優點是已經廣泛應用于天線陣列,因而僅需簡單擴充就可以運用于麥克風陣列。但這些算法沒有一個能适用于真實聲學環境,因而簡單的将這些算法應用于寬帶語音處理效果并不理想。

        麥克風陣列語音增強主要需解決的問題有:噪聲衰減,回聲消除,去混響,聲源定位,聲源數估計,聲源分離和“雞尾酒會效應”。與單麥克風語音增強算法不同,運用麥克風陣列要在保證期望信号不失真的情況下盡可能衰減噪聲。

3  盲源分離

        盲源分離問題起源于20世紀80年代,最早應用于數字通信系統。它是要在不知道輸入信号任何資訊和信道傳播特性的情況下對混合輸出信号進行分離,估計出輸入信号。在生物醫學及圖像處理方面,盲源分離已有了很好的應用。

        在盲源分離問題中,獨立成分分析是應用最為廣泛的工具,因為它充分利用了輸入信号的獨立性。當各輸入信号是瞬時線性混合時,獨立成分分析能很好的将信号分離開來,然而在室内混響環境中,獨立成分分析效果則不理想。盡管最近很多基于獨立成分分析的理論方法被提出,但現在仍然不知道它怎樣運用于語音聲學環境中。是以基于卷積模型的盲源分離方法應運而生,它優化了輸入信号的混合模型,更符合現實語音混合模型,但是基于此模型的相關算法有待進一步完善,以更好的應用。

4  麥克風陣列語音增強的研究進展

        語音增強和陣列技術的研究開展較早,雖然随着數字信号處理領域相關理論的完善和成熟,這兩項技術也取得了一定的成果,但最早的語音增強重點研究單個麥克風語音增強,最早的陣列技術也是利用窄帶天線陣列進行探測,而将陣列技術運用到語音增強中來,則始于20世紀80年代,并在90年代成為研究熱點。國内的相關研究則更晚。每年國際國内重要期刊和會議上都會有大量相關的文獻文章。

(1) 固定波束形成法

        固定波束形成法又稱延遲-相加波束形成法,最早是由Flanagan于1985年提出的。它先對麥克風陣列各陣元接收到的聲音信号進行時延補償,使各陣元的信号同步,然後設計一個有限長度濾波器進行權重求和,輸出的信号就是增強後的信号。因為設計的濾波器系數在處理過程中是固定不變的,是以稱這種方法為固定波束形成法。

        這種方法的實作比較簡單,但它需要較多的麥克風陣元才能達到較好的語音增強效果。

(2) 自适應波束形成法

        最早的自适應波束形成法是Frost于1972年提出的線性限制最小方差(Linearly Constrained Minimum Variance,LCMV)算法。該方法也稱為Frost波束形成法,它在保證注視方向(Look direction)上期望信号頻率響應不變的同時,通過限制條件使得陣列輸出功率最小,即等價于使陣列輸出噪聲功率最小,進而實作噪聲抑制。在此算法的基礎上,Griffths和Jim于1982年提出廣義旁瓣抵消(Generalized Sidelobe Canceler,GSC)算法,通過引入阻塞矩陣,将有限制的Frost濾波器擴充為無限制的GSC濾波器。GSC算法将陣列輸出通過上下兩個通道,上通道産生語音參考信号,下通道産生噪聲參考信号,然後用語音參考信号減去噪聲參考信号,進而得到增強信号。這種方法最大的問題在于噪聲參考信号中并不僅僅都是噪聲信号,也可能包含一些語音信号,這樣在相減時可能抵消部分語音信号,造成語音信号失真。為了解決這一問題,許多學者對算法進行了改進,比如Hoshuyma于1996年提出的韌性自适應波束形成法,改進了阻塞矩陣,使得噪聲參考信号中的語音成分最小,進而減小了信号失真。因為設計的濾波器系數在處理過程中是随着輸入信号的變化而變化的,是以稱這種方法為自适應波束形成法。

        自适應波束形成法能有效衰減相幹噪聲,在麥克風陣元數大于聲源數時有較好的處理效果。

(3) 後置濾波法

        在麥克風陣列中運用後置濾波器進行波束形成的方法是由Zelinski于1988年提出的。該方法以維納濾波器為基礎,在延時-相加波束形成器的輸出端加一個濾波器,通過求解Wiener-Hopf方程來求得濾波器系數。在此基礎上,許多學者通過不同的方法提出許多不同的後置濾波器,比如McCowan于2002年提出的廣義後置濾波器法,就是将噪聲場中相關理論模型擴充到後置濾波器的轉移函數中,進而改善濾波器性能。

        後置濾波器法一般不單獨使用,而是與固定波束形成器或自适應波束形成器結合使用,這樣通過自适應波束形成器衰減相幹噪聲,通過後置濾波器衰減非相幹噪聲,進而更好的抑制了噪聲。

(4) 子空間法

        子空間法是先對每個麥克風陣元的信号使用單通道子空間或利用輸入信号的相關矩陣子空間建構信号子空間,然後采用固定波束形成或自适應波束形成實作語音增強。這種算法分别由Hansen和Asano于1997年提出,并在之後的幾年裡被其他學者不斷完善,比如Doclo等提出的基于廣義奇異值分解的波束形成法。

        子空間法最大的缺點是計算複雜度太大,難于實時應用于數字信号處理。

(5) 子帶波束形成法

        針對語音信号是寬帶信号這一特點,許多學者于21世紀初提出了子帶波束形成法。這種方法先将麥克風采集到的聲音信号從時域經過傅裡葉變換到頻域,然後将頻帶分段,在每一段運用窄帶波束形成法産生輸出,然後逆傅裡葉變換到時域,進而得到增強後的語音信号。比如McCowan于2001年,Grbic于2003年提出的基于均勻DFT子帶波束形成法。

        子帶波束形成法具有噪聲抑制能力強,收斂速度快等優點。

(6) 頻率不變波束形成法

        一般波束形成法在不同頻段的波束形成效果不同,實際應用中男聲的頻率一般低于女聲的頻率,導緻一般的波束形成法對男聲和女聲的增強效果不同。針對這一問題,許多學者提出了頻率不變波束形成法,即波束形成效果不随頻率的改變而改變。這一方法的關鍵在于頻率不變波束形成器的設計,如1970年Hixson和Au等提出利用諧波嵌套法,1988年Doles和Benedict提出的利用非均勻陣列的漸近理論設計法,2002年Weiss等提出的倍頻分解法。

        線上性陣列的基礎上,Chan和Chen于2002年提出了圓陣頻率不變波束形成器,于2005年到2007年擴充到同軸圓陣和同軸球型陣,進而将波束形成由一維擴充到二維和三維。

繼續閱讀