Adaptive Decision Fusion for Audio-Visual Speech Recognition(2008)
視聽語音識别中的自适應決策融合
研究内容
自動語音識别技術的其中一個問題是識别性能的噪聲魯棒性;雖然語音識别系統可以在安靜的環境下産生較高的識别精度,但在大多數實際應用中,背景噪聲的存在往往會顯著降低其性能。
近年來,視聽語音識别(AVSR)作為解決這一問題的一種方法受到了廣泛關注,AVSR将視覺語音資訊(即嘴唇運動)與聲學語音資訊結合起來進行識别。由于視覺信号不受聲噪聲的影響,它可以作為一個強大的信号源,用于補償噪聲條件下純聲語音識别的性能下降。
圖1顯示了AVSR的一般過程:首先,通過麥克風和攝像頭分别記錄聲音和視覺信号。然後,從每個信号中提取顯著和緊湊的特征。最後,将這兩種模式結合起來識别給定的語音。
![](https://img.laitimes.com/img/9ZDMuAjOiMmIsIjOiQnIsIyZuBnLmNTO5M2N1QjY3YzM0YTNhNmMlRDZxEGZmRWNhFDM4Q2Lc52YucWbp5GZzNmLn9Gbi1yZtl2Lc9CX6MHc0RHaiojIsJye.png)
Fig. 1. 視聽語音識别的一般程式
在本章中,我們将重點讨論AVSR,如何将這兩種模式有效地結合起來,這也AVSR抗噪聲的一個重要問題。
AVSR的主要挑戰是在各種噪聲條件下獲得等同于或優于任何模态的性能。當噪聲水準較低時,聲學模态的性能優于視覺模态,是以,視聽識别性能應至少與聲學語音識别性能相同。當噪聲水準較高且視覺識别性能優于聲學識别時,內建(視聽)識别性能應至少與純視覺識别性能相同或更好。
此外,我們希望通過使用AVSR系統,這兩種模式能夠産生協同效應。是以,利用視聽資訊進行語音識别的第二個挑戰的目标是在盡可能高的模式協同作用下提高識别性能。
這兩個挑戰如圖3所示。 (signal to noise ratio(信噪比))
Fig. 3. AVSR的兩個挑戰。(a) 內建性能至少是在每種噪聲水準下表現出更好性能的模态的內建性能。(b)內建識别系統顯示出協同效應。
一般來說,我們可以将視聽資訊融合方法分為兩大類:特征融合(或早期融合)和決策融合(或後期融合),如圖4所示。
在前一種方法中,将兩種模式的特征連接配接起來,形成一個複合特征向量,輸入分類器進行識别。在後一種方法中,每個模态的特征被分别用于識别,然後,兩個分類器的輸出被組合為最終的識别結果。
Fig. 4.整合聲音和視覺資訊的模型。(a)特征融合。(b)決策融合。
在實作抗噪聲AVSR系統時,決策融合方法有一些優點。
首先,在決策融合方法中,根據語音的噪聲水準,相對容易采用自适應權重方案來控制兩種模式對最終識别的貢獻數量,這是因為聲音和視覺信号是獨立處理的。這種自适應方案有助于實作了AVSR的主要目标,即通過有效地利用模态的互補性,在各種噪聲條件下識别的噪聲魯棒性。
- 決策融合允許對兩個資訊流的時間相關性進行靈活模組化,而特征融合假設聲學和視覺特征序列之間完全同步。衆所周知,語音和視覺語音之間存在一種異步特征:嘴唇和舌頭有時會在語音信号發出前幾百毫秒開始移動。
- 雖然建構基于特征融合的AVSR系統需要訓練一個全新的識别器,但利用現有的單峰系統可以組織一個基于決策融合的識别器。
提出的方法&模型架構
基于自适應權重方案的決策融合
聲學和視覺語音識别的主要範式是隐馬爾可夫模型(HMM)(Rabiner,1989)。我們訓練隐馬爾可夫模型來建構一個語音類的聽覺或視覺表達模型。并且,所有語音類的HMM集合構成了一個語音分類器。在基于HMM的AVSR系統中,決策融合是通過利用對給定的視聽語音資料的聲學和視覺HMM的輸出來實作的。
重要的問題是如何實作自适應決策融合,以獲得在各種噪聲環境下的噪聲魯棒性。為了解決這個問題,有必要定義模态的相對可靠性度量(受噪聲級影響),并根據測量的可靠性确定适當的權重。
在本節中,我們将介紹自适應權重的原理、可靠性度量的各種定義,以及根據可靠性獲得适當內建權重的基于神經網絡的方法。
自适應權重
決策融合中的自适應權重按以下方式執行:當獲得未知類别的給定視聽語音資料的聲學和視覺特征 (OA and OV) 時,可識别的話語類别C*由(Rogozan&Deléglise,1998)給出
內建權重γ決定了最終決策在多大程度上取決于每種模式。它的值介于0和1之間,并根據聲學語音中包含的噪聲量而變化。當聲學語音幹淨時,權重應該很大,因為幹淨聲學語音的識别效果通常優于視覺語音;另一方面,當聲學語音包含很多噪聲時,權重應該足夠小。
是以,對于各種噪聲條件下的噪聲魯棒識别性能,根據給定語音信号的噪聲條件自動确定适當的權重值是非常重要的。
可靠性措施(測量)
每個模态的可靠性可以通過相應HMM的輸出進行測量。當聲學語音不含任何噪聲時,聲學HMM的輸出之間存在很大差異。當聲學語音包含噪聲時,差異變得很小,這反映了噪聲導緻識别模糊度的增加。這一現象如圖5所示,圖5顯示了當呈現幹淨或噪聲條件下的語音資料時,HMM對所有話語類别的輸出(對數機率)。
Fig. 5. 不同噪聲水準下的HMMs的輸出。
考慮到這一觀察結果,我們可以用多種方式定義一種模式的可靠性:
•對數機率的平均絕對差異(AbsDiff):
•對數可能性(Var)的變化:
•對數可能性與最大值的平均差異(DiffMax):
•後驗機率逆熵(InvEnt):
實驗部分将比較AVSR中上述措施的性能。
神經網絡融合
神經網絡對兩個可靠性和內建權重之間的輸入-輸出映射進行模組化,以估計最佳內建權重,如圖6所示,即,
式中,f是由神經網絡模組化的函數,γˆ是給定聲學和視覺可靠性(分别為SA and SV)的估計內建權重。神經網絡的普遍逼近定理表明,如果前饋神經網絡的隐藏神經元數量不受限制,則它可以對任何具有期望誤差界的任意函數進行模組化。
Fig. 6. 用于估計內建權值的神經網絡。
在将神經網絡用作內建權重的估計器之前,應先對其進行訓練。使用,被白噪聲污染的幹淨、20dB、10dB和0dB噪聲語音資料用于訓練。然後,神經網絡根據其泛化能力為訓練過程中未考慮的噪聲條件生成适當的權重。
訓練按如下方式進行:
首先,我們使用可靠性度量之一,計算每個訓練資料的每個模态的可靠性。
然後,我們詳盡地獲得了正确識别資料的內建權重;在将權重從0增加到1的同時,我們測試使用權重值的識别結果是否正确。
最後,利用兩種模式的可靠性和找到的權重作為訓練輸入和目标對,對神經網絡進行訓練。
正确識别的內建權重顯示為一個區間,而不是一個特定值。圖7顯示了一個例子。可以觀察到,對于較大的信噪比,較大的權重區間産生正确的識别,并且随着信噪比變小,區間變小。
Fig. 7.內建權重産生正确識别的間隔。
是以,神經網絡訓練輸入向量的期望目标由一個區間給出。為了在訓練中解決這個問題,神經網絡訓練算法中使用的原始誤差函數。
前提知識(可選)
人類的語言産生過程本質上是雙峰的:舌頭、下巴、牙齒和嘴唇的形狀決定了産生哪種特定的聲音。許多這樣的發音動作都是可見的。面對面的對話中,我們傾聽别人的話,同時觀察他們的嘴唇動作、面部表情和手勢。特别是,如果我們在聽的過程中遇到環境噪音的問題,視覺資訊對語言了解起着重要作用。即使在幹淨的環境下,當說話的人臉可見時,語音識别性能也會提高。衆所周知,聽力受損的人通常具有良好的唇讀技能。研究表明,許多在聲學上容易混淆的音素很容易通過視覺資訊(例如,/b/和/g/)來區分。心理學實驗表明,與隻聽聲音的情況相比,看到說話者的嘴唇可以通過降低語音的聽覺檢測門檻值來增強在噪聲中檢測語音的能力。
盡管如上所示,語音感覺的雙峰性已得到廣泛證明,但其機制尚未得到明确了解,因為它需要對感官信号處理、進階資訊處理、語言感覺、記憶等機制進行廣泛而深入的心理和生物學了解。
資料集
我們使用兩個獨立的單詞資料庫進行實驗: the DIGIT database and the CITY database 。the DIGIT database包含11個韓語數字,the CITY database包含16個著名的南韓城市名稱。在這兩個資料庫中,56名發言者将每個單詞發音三次。當說話者發單詞時,錄影機和麥克風分别同時記錄說話者嘴邊的面部區域和語音信号。聲學語音以32 kHz的頻率記錄,并降采樣至16 kHz進行特征提取。演講者的嘴唇運動被記錄為一張720x480像素的運動圖像,頻率為30赫茲。
識别實驗是以獨立于說話人的方式進行的。為了提高實驗的可靠性,我們采用了刀切法;将56名發言者的資料分為四組,我們使用三組(42名發言者)的資料進行訓練,并使用剩餘組(14名發言者)的資料進行測試。
為了模拟各種噪聲條件,我們使用NOISEX-92資料庫的四個噪聲源:白噪聲(WHT)、F-16駕駛艙噪聲(F16)、工廠噪聲(FAC)和手術室噪聲(OPS)。我們将每個噪聲加入到幹淨的聲學語音中,以獲得各種SNR的噪聲語音。
結果
可靠度名額的比較
首先,我們比較給出的可靠性度量。Levenberg-Marquardt算法是神經網絡中最快的訓練算法之一,用于訓練網絡。
Fig. 10. the DIGIT database的可靠度名額的比較. (a) WHT. (b) F16. (c) FAC. (d) OPR.
Fig. 11. the CITY database 的可靠度名額的比較. (a) WHT. (b) F16. (c) FAC. (d) OPR.
圖10和圖11分别比較了每個資料庫的可靠性度量。據觀察,DiffMax在整體意義上表現出最好的識别性能。
單峰和雙峰識别性能
圖12和圖13分别比較了兩個資料庫中僅聲學、僅視覺和內建識别的錯誤率。從結果中,我們可以觀察到以下幾點:
1.純聲識别對幹淨語音的識别率接近100%,但由于語音含有更多噪聲,其性能顯著降低;對于某些噪聲,0dB時的錯誤率甚至高于70%。
2.對于每個資料庫,僅視覺識别的錯誤率分别為36.1%和22.0%,無論噪聲條件如何,錯誤率都保持不變。這些值大于幹淨語音的純聲識别性能,但小于含噪語音的識别性能。
3.內建系統的性能至少與單峰系統相似或更好。尤其是在5dB~15dB時,協同效應顯著。與僅聲學識别相比,雙峰識别對每個資料庫的錯誤率的相對降低平均分别為39.4%和60.4%。在高噪聲條件下(即0dB~10dB),每個資料庫的錯誤率相對降低分别為48.4%和66.9%,表明識别的噪聲魯棒性得到了實作。
4.神經網絡成功地适用于未經訓練的噪聲條件。為了訓練神經網絡,我們隻使用幹淨的語音和被白噪聲污染的20dB、10dB和0dB噪聲語音。然而,對于同一噪聲源的其他噪聲級和其他三個噪聲源的噪聲條件,內建是成功的。
Fig. 12.the DIGIT database的單峰和雙峰系統錯誤率(%)的識别性能. (a) WHT. (b) F16. (c) FAC. (d) OPR.
Fig. 13. the CITY database單峰和雙峰系統的錯誤率(%)的識别性能. (a) WHT. (b) F16. (c) FAC. (d) OPR.
圖14顯示了神經網絡相對于數字資料庫SNR确定的內建權重值(平均值和标準偏差)。據觀察,自動确定的權重值在高SNR時較大,而在低SNR時較小,正如預期的那樣。
總結
對視聽語音識别(AVSR)進行分析,提出挑戰,和目前最常用的兩個模型,對其中一個模型進行展開講解。做了對比實驗。