17. 聲音信号

2023-06-25 11:14:27

聲音信号

将n個采樣點集合成一個觀測機關，成為幀。通常N的值為256或512，覆寫範圍約為20-30ms左右。為來避免兩幀之間變化過大，是以會讓相鄰幀之間有一段重疊區域。通常語音識别所采用的語音信号的采樣頻率為8khz或16khz

MFCC梅爾頻率倒譜系數

MFCC是一種廣泛使用的語音特征。

語音被分為很多幀，每幀語音對應于一個頻譜（通過FFT快速傅裡葉變換得到），頻譜表示頻率與能量的關系。

頻譜圖

spectrogram聲譜圖

共振峰

峰值表示語音的主要頻率成份，這些峰值成為共振峰。共振峰攜帶來聲音辨識屬性，用它就可以識别不同的聲音。

包絡

我們需要把共振峰提取出來，不僅需要提取共振峰的位置，還要提取他們的轉變過程，也就是頻譜的包絡。包絡就是一條連接配接這些共振峰點的平滑曲線。

Mel頻率分析。

語音處理流程：輸入語音–>預加重，分幀和加窗—FFT—取絕對值或平方值—Mel濾波----取對數—DCT（discrete cosine transform) —動态特征（delta MFCC)—> 輸出特征向量

https://github.com/librosa/librosa

https://serv.cusp.nyu.edu/projects/urbansounddataset

17. 聲音信号

聲音信号

MFCC梅爾頻率倒譜系數

頻譜圖

spectrogram聲譜圖

共振峰

包絡

Mel頻率分析。

語音處理流程：輸入語音–>預加重，分幀和加窗—FFT—取絕對值或平方值—Mel濾波----取對數—DCT（discrete cosine transform) —動态特征（delta MFCC)—> 輸出特征向量

繼續閱讀

matlab中 FFT 的意義學習記錄matlab中 FFT 函數的使用學習記錄

牛客國慶集訓派對Day4 F - NTT

STM32F407三重ADC+DMA的思考

STM32 FFT DMA ADC THD

ADC學習（2）——頻譜性能名額ADC學習（2）——頻譜性能名額

數字信号處理3: 快速傅裡葉變換（FFT）（含代碼）1. FFT推導2. FFT為什麼快?3. 一些加速措施4. FFT代碼

快速入門 FFT快速入門 FFT

FFT之頻率與幅值的确定

mVision機器視覺軟體開發包 mVision機器視覺軟體開發包

利用numpy計算傅裡葉譜和地震動傅裡葉振幅譜引言傅裡葉譜地震動傅裡葉振幅譜

從頭到尾徹底了解傅裡葉變換算法、下

Matlab中FFT函數的源代碼示例

POJ 2389 Bull Math （FFT）

[轉載]20世紀十大算法

STFT filter bankSTFT filter bank

相位相關算法

17. 聲音信号

聲音信号

MFCC梅爾頻率倒譜系數

頻譜圖

spectrogram聲譜圖

共振峰

包絡

Mel頻率分析。

語音處理流程： 輸入語音–>預加重，分幀和加窗—FFT—取絕對值或平方值—Mel濾波----取對數—DCT（discrete cosine transform) —動态特征（delta MFCC)—> 輸出特征向量

繼續閱讀

語音處理流程：輸入語音–>預加重，分幀和加窗—FFT—取絕對值或平方值—Mel濾波----取對數—DCT（discrete cosine transform) —動态特征（delta MFCC)—> 輸出特征向量