天天看點

17. 聲音信号

聲音信号

将n個采樣點集合成一個觀測機關,成為幀。通常N的值為256或512,覆寫範圍約為20-30ms左右。為來避免兩幀之間變化過大,是以會讓相鄰幀之間有一段重疊區域。通常語音識别所采用的語音信号的采樣頻率為8khz或16khz

MFCC梅爾頻率倒譜系數

MFCC是一種廣泛使用的語音特征。

語音被分為很多幀,每幀語音對應于一個頻譜(通過FFT快速傅裡葉變換得到),頻譜表示頻率與能量的關系。

頻譜圖

spectrogram聲譜圖

共振峰

峰值表示語音的主要頻率成份,這些峰值成為共振峰。共振峰攜帶來聲音辨識屬性,用它就可以識别不同的聲音。

包絡

我們需要把共振峰提取出來,不僅需要提取共振峰的位置,還要提取他們的轉變過程,也就是頻譜的包絡。包絡就是一條連接配接這些共振峰點的平滑曲線。

Mel頻率分析。

語音處理流程: 輸入語音–>預加重,分幀和加窗—FFT—取絕對值或平方值—Mel濾波----取對數—DCT(discrete cosine transform) —動态特征(delta MFCC)—> 輸出特征向量

https://github.com/librosa/librosa

https://serv.cusp.nyu.edu/projects/urbansounddataset