天天看點

語音晶片為何選擇HW-VAD模式喚醒裝置HW-VAD的概念SW-VAD vs HW-VADHW-VAD vs Standby

HW-VAD的概念

VAD(Voice Activity Detection語音激活檢測)是用于檢測目前輸入信号中是否有語音的技術。VAD一般會綜合分析輸入信号的能量特征,以及頻譜特征等資訊判斷是否存在語音。

VAD可以通過軟體或硬體來實作,使用軟體檢測時稱為SW-VAD,使用硬體檢測時稱為HW-VAD。

SW-VAD vs HW-VAD

基于SW-VAD 的語音處理結構

語音晶片為何選擇HW-VAD模式喚醒裝置HW-VAD的概念SW-VAD vs HW-VADHW-VAD vs Standby

基于SW-VAD的語音處理結構示意圖如上圖所示,語音經ADC模數轉換後,經資料總線傳遞給處理器(CPU/DSP),語音首先經過軟體實作的VAD算法判斷是否包含語音資訊,當判斷存在語音資訊後,再将語音資訊傳遞給後續步驟,依次為關鍵字識别(Keyword Spotting),語音識别(Speech Recognition),以及自然語言處理(Natural Language Processing)。

一般情況下,端側的處理能力達不到語音識别和自然語言處理的要求,相關算法需要更高算力的系統來實作。

基于HW-VAD 的語音處理結構

語音晶片為何選擇HW-VAD模式喚醒裝置HW-VAD的概念SW-VAD vs HW-VADHW-VAD vs Standby

基于HW-VAD的語音處理結構示意圖如上圖所示。當沒有語音資訊時,關鍵字識别(Keyword Spotting)相關的處理器(CPU/DSP)處在低功耗區域内,保持等待喚醒的低功耗狀态。當HW-VAD檢測到包含語音資訊後,HW-VAD發出wakeup的信号喚醒低功耗區域,被喚醒的處理器做進一步的關鍵字識别(Keyword Spotting)操作;然後再依次完成語音識别,自然語言處理等步驟。

需要說明的是,HW-VAD模式時,低功耗區域是處于時鐘被關閉的狀态,但這些區域仍帶電。是以,HW-VAD模式僅能消除由信号翻轉等因素導緻的動态功耗,但無法消除由漏電流引起的靜态功耗。

另外,為了更高的內建度,有的HW-VAD IP會将ADC做到其内部,對外呈現為模拟接口。

HW-VAD模式較SW-VAD模式的優勢

HW-VAD模式相較于SW-VAD模式,優勢在于功耗低。SW-VAD模式時,需要執行SW-VAD算法的CPU或DSP保持在運作狀;而在HW-VAD模式時,相關的CPU或DSP可以保持在等待喚醒的低功耗狀态,而不是運作狀态,是以大大降低了監聽狀态下的功耗。

HW-VAD vs Standby

Standby模式簡介

在低功耗設計中,經常會有Standby模式,在該模式下,晶片大部分區域都處于掉電狀态,僅保留小部分區域帶電。小部分一直帶電的區域被稱作永遠開啟區域(AON,Always ON domain),該AON區域保證晶片可以從Standby模式恢複到工作狀态。

Standby模式既消除了動态功耗,也消除了靜态功耗,是維持晶片能夠工作的最低功耗的模式。

HW-VAD模式與Standby模式的選擇

從功耗的角度來分析,HW-VAD模式仍會産生靜态功耗,比Standby模式的功耗,即HW-VAD模式的功耗比Standby模式高。這樣看,似乎選擇Standby模式更為合理。

但是,從實際晶片工作的場景來分析,則會産生一個相反的結論,即選擇HW-VAD模式。

選擇HW-VAD模式的原因是從喚醒時間來考慮的。低功耗區域如果從HW-VAD模式喚醒,僅需要打開時鐘使能,喚醒處理器即可,整個過程在微秒(us)級别完成;但如果從Standby模式喚醒,則需要将低功耗區域從掉電狀态下喚醒,整個過程需要幾十毫秒(ms)級别的時間才能完成。

喚醒時間達到幾十毫秒以後,會産生如下問題: 1.增加裝置的喚醒時間,影響客戶對裝置反應速度的感受; 2.喚醒時間内使用者說的語音會丢失,處理器的“關鍵字識别(Keyword Spotting)”的識别率會降低,即降低正确喚醒裝置的機率。嚴重時,客戶必須說兩次才能喚醒裝置,影響客戶體驗。

綜上,雖然Standby模式有更低的功耗,但是Standby模式無法達到客戶對于語音裝置的感受的要求。最終還是選擇采用在HW-VAD模式,不掉電的情況下喚醒裝置。

原文作者:藍空

點選檢視原文

繼續閱讀