天天看點

智能音箱 之 音頻通路品質--測試與參數

一、概述

當将語音識别算法接入到裝置時,務必要保證裝置的音頻通路具有足夠的品質。是以對裝置進行音頻測試,以評估能夠影響語音識别性能的音頻前端的音頻參數。如下要點對語音識别至關重要:

  • 自然聲音
  • 合适的增益
  • 良好的信噪比
  • 一緻的響應,信号不能包括如下資訊: 自動增益控制 AGC  啟動響應  直流偏置過大
  • 适當的頻響 (高低滾降,理想平滑,沒有混跌)

二、測試裝置

  • 帶有錄音軟體的被測試裝置
  • 音頻測試儀器:CD機,均衡器,音箱,人工嘴和聲壓計
  • 帶分析工具的PC機(CoolEditor、Audition、Audacity和Wavesurfer等)

三、音頻檔案

  • 正常音頻檔案:用于主觀判斷音頻品質和增益設定以及信噪比;
  • 大增益檔案:用于判定削波時的增益設定;
  • 1K-sine增益Sweep檔案0~105dB:用于評估削波,決定最大數值和判定AGC存在與否;
  • 0~8K/16K掃頻檔案:用于測試裝置的頻響和混跌;

四、測試項目

1. 主觀聽音

用品質好的耳機去聽裝置的音質,進而發現一些非正常聲音;比如:雜音、諧波和共振等;

音頻路徑上過多的信号處理可能導緻聲音畸變為人造聲,不符合正常自然聲音,會對軟體識别造成很大困難。

2. 增益評估

裝置在各種使用場景下,務必保持增益的設定不要使信号削波;削波會嚴重降低識别性能,必須禁止。

95dB的聲音應該剛好填滿16bit音程;

3. 信噪比

靜默值作為底噪,聲音波形的中部作為信号;尤其注意某些記錄将具有資料實際值為零的引導/拖尾部分,不要使用這部分作為靜默測量;麥克風單體的信噪比,除了本身規格書之外,在實際産品中收到電路噪聲影響很大,尤其注意模拟麥克風bias電源。

信号比:S/N>30對于識别是良好的比值,大于20也是可行的;如果小于20的話,則說明音頻路徑上太吵了導緻很難識别成功。

4. 自動增益控制AGC

AGC的存在,當音頻信号的幅度增大時,它通常表現為增益逐漸減小。它會影響識别效果,是以得關閉此功能,類似的有自動電平控制寄存器ALC等。

同時部分功放帶有動态調節音量的功能,務必關閉此項功能,否則嚴重影響AEC效果;所有的動态調節都務必在AEC采樣點之前進行,具體如下圖示意:

智能音箱 之 音頻通路品質--測試與參數

5. 啟動瞬态Startup transients

音頻系統經常在錄音指令下達後,需要一段時間才能真正啟動操作,這導緻了啟動瞬态;如果這主要包括低頻的話,将不會對識别造成影響,因為識别器中有低通濾波器。

然而試圖消除瞬态的話,将信号鉗位在零電平上超過幾十毫秒的話,會嚴重影響識别。在這種情況下,最好完全跳過音頻,而不是将此錯誤資訊發送給識别器。

智能音箱 之 音頻通路品質--測試與參數

上圖中紅色框中125ms的啟動瞬态,應該跳過。

6. 直流偏置過大DC offset

直流偏置可以看作是靜音信号在零信号線上高于或者低于的信号;

如果偏移量為滿刻度限制的百分之幾或者更少,是沒有問題的;

但是如果超過10%則需要糾正,很大的偏移将導緻不對稱削波。

7. 頻響曲線Response curve

為了隔絕麥克分錄音到其他雜音,麥克風需要與喇叭足夠近,大緻2.5cm處錄音。

檢查FFT大小設定為2048個采樣點,采樣視窗設定為Blackmann Harris;

理想的頻率響應曲線在頂端220Hz和3200~3900Hz之間的幾分貝内是平坦的,內插補點一般控制在10dB以内是可以接受的(16K采樣率的為6400Hz~7400Hz)如下圖所示:

智能音箱 之 音頻通路品質--測試與參數

頻響曲線是個慢慢的漸變過程,如果個别區域出現急劇變化,應該重點關注并研究,音頻可能存在其他問題。

8. 混疊Aliasing

當超過采樣速率的一半(奈奎斯特極限)的信号被允許進入模數轉換器(ADC)時,出現混疊現象。如下為ES7210調試初期出現的混疊現象:

智能音箱 之 音頻通路品質--測試與參數

混疊是影響識别的一個重大因素,必須消除混疊;

故ADC需要有抗混疊處理,例如抗混疊濾波器等。

9. 諧波失真Harmonic distortion

當錄音系統增加輸入信号的泛音時,會出現諧波失真;

AEC對信号失真是非常敏感的,音頻通路的整體諧波失真需要控制在5%以内,故從麥克風到功放到揚聲器和音腔,均需要嚴格控制;除了單體品質之外,尤其注意功放和揚聲器的功率比對、阻抗比對和頻率比對;

如下圖為1K-sine信号的頻譜圖,有奇次諧波、偶次諧波:

智能音箱 之 音頻通路品質--測試與參數

如下圖為8K-sweep信号的頻譜圖,有奇次諧波、偶次諧波:

智能音箱 之 音頻通路品質--測試與參數

諧波失真越小越好,一般要求最好是小于3%。

補充小結項:

1-靈敏度和諧波失真
2-頻響和混疊
3-失真和完整性
4-麥陣相關性
5-相對延遲、系統延遲
6-底噪

彙總補充如下:

麥克風信噪比:60~70 分近中遠三場景;

麥克風靈敏度:-40(模拟)  -26(數字);

頻響平坦度:2dB (100Hz~6KHz);

收音孔氣密性:大于20dB;

麥克風一緻性:相位小于10,幅度小于2dB;

麥克風間距:25~60mm之間; 間距小影響低頻,間距大影響高頻;疊加裝配的誤差率,體驗上在正常噪音環境下影響喚醒率和打斷率1個點左右;

采樣信号幅度:最大幅度下不截幅;

采樣信号非線性失真:低頻小于10%,300Hz~2KHz小于3%;

采樣信号底噪:小于-70dB;

各通道信号同步;采樣波形無畸變,無混疊;

參考信号信噪比:大于40dB;

參考信号:無截幅;

繼續閱讀