天天看點

關于deep feature、Tandem feature、bottleneck feature...

總是把這三個弄混...

今天算是明白這三個不是一個概念...

标黑的是每個特征的特性。

*************************************************

BN特征是屬于深度特征,這一點無可非議。不過deep feature應該除了bottle neck之外還可以包括d-vector等等,這個概念在Google的2014年ICASSP《DEEP NEURAL NETWORKS FOR SMALL FOOTPRINT TEXT-DEPENDENT SPEAKER VERIFICATION》上有提到。

這些深度特征也都可以适用在語音識别、說話人識别。這樣認為BN等同deep feature也算是可以的。而DNN訓練确實是pre-training加一個fine-tune,而這個過程可以視為DBN的過程,當在最後一層隐含層後再加一層softmax輸出,就會成為DBN-DNN。這個過程在Hinton 的論文裡有詳細的分析《Deep Neural Networks for Acoustic Modeling in Speech Recognition》。而BN通常都是在倒數第二層提取。

bottleneck應該最早源于1994年的《CONNECTIONIST SPEECH RECOGNITION A Hybrid Approach》,裡面首先提出到BN層應該要同時比inputoutput結點數都要少的概念,而把多種特征拼接起來Tandem的概念可以在2000的ICASSP《TANDEM CONNECTIONIST FEATURE EXTRACTION FOR CONVENTIONAL HMM SYSTEMS》裡找到。

繼續閱讀