Study notes on
Cortical processing of pitch: Model-based encoding and decoding of auditory fMRI responses to real-life sounds
Abstract:
音調是一個與聲音基頻(或者說周期)相關的屬性。已經有研究是針對大腦的聽覺皮層對合成音樂的音調的處理或者說編解碼,但是對自然音樂的音調的研究很少。自然音樂裡有複雜諧波成分(信号的頻率成分包含有基頻及基頻的整數倍),大腦對它的加工與對合成音樂加工的機制可能不同。這篇文章首先用一種經典的音高估計算法YIN實作對音樂中音高的估計。接下來,用基于模型的編解碼預測fmri并重新解碼出音高特征,進而來研究人類聽覺皮層對音調的編解碼過程。具體來說,将人類對聲音的響應函數,模組化為"Pitch Height and salience"函數,人類感覺音調的height與基頻有關,而感覺salience則和諧波結構有關。用單體素fmri編碼模型找到編碼音高的區域(pitch ROI):前外側颞橫回,近鄰STG。解碼模型也驗證了這一區域的多體素解碼模型蘊含音高的更多資訊。進一步的多變量分析(multivariate analyses)展示了,補充一個多分辨率的頻譜圖,能對解碼效果産生一個小而顯著的提升。
總的來說,本文提出了一種基于模型的fmri編解碼方法,這種方法以前常被用于測試人類聽覺系統中對音樂特征的表示與處理,在本文被拓展到一個感覺的屬性——音高的表示與處理上。該模型的結果指出外HG、STG區提取和處理了複雜的自然聲音中的音高資訊,這與過去用合成音樂産生fmri的研究結果一緻。在這些區域,與認知相關的音樂表示反映了音高感覺中的height和salience的調制結合(modulatory combination??)。
salience: 可以了解為人耳聽到一個由多種音調組成的和弦音,某種音調的聲音與其他音調相比的顯著性, stemming from wiki:pitch salience is the prominence of a given pitch sensation. For example, the root of a major chord in root position has greater pitch salience than other tones in that chord.
multivariate analyses: Multivariate analysis (MVA) is based on the statistical principle of multivariate statistics, which involves observation and analysis of more than one statistical outcome variable at a time.
頻譜圖:spectro-temporal,應該是對音頻信号進行分幀,每幀做FFT得到每一幀的頻譜圖,連起來構成整個信号的頻譜圖。橫軸時間(幀數),縱軸是頻率的若幹個分辨率,每個小格子被灰階化。具體操作過程見圖1,來自部落格。
圖1
Introduction部分:
對和聲來說,pitch是對基頻的感覺。如果基頻的能量被移除,人仍能産生同樣感覺,因為pitch由聲音的時間包絡線周期決定,而不是由能量決定。
音高感覺的神經機制:
- 時間的假設:聽覺神經通過脈沖序列的間隔時間來編碼聲音中的周期資訊。
- place theory 推測pitch是被harmonic template決定的,這個harmonic template與耳蝸中按位編碼(encoded tonotopically)的頻譜線索(spectral cue)最比對。??
- 最近的研究表明時間和定位都對pitch的準确感覺重要。
人腦對合成的聲音和自然生活中真實存在的聲音的感覺是不同的。
感覺合成聲音的腦區的定位
大腦皮層對音調的處理可以通過fmri反映出來。大腦皮層後HG區和PT雙側在處理時變的音調序列和時不變的音調序列時有着激活模式的差異。
音調處理過程的層次性:起始于皮層下結構,對音調的時間線上的規律性最敏感;終于皮層,對音調的變動敏感,進而更多地編碼音調變化的資訊。
猿猴的音高選擇性神經元,分布在初級聽覺皮層的前外側邊界旁邊的低頻區域,對應于人類的颞橫回。
在颞橫回前外側雙側的神經活動展現着與音高顯著性的共變。
不同研究間存在争議!
感覺自然聲音
自然聲音是更加複雜的,why?自然的聲音的音高受到各種因素的影響。音高顯著性(也就是音高在人類感覺時的強度)受到聲音中諧波成分多少的影響。諧波成分多,顯著性高。自然聲音大多都不是諧波。是以表征自然聲音的音高,需要将基頻和諧波結構兩個次元剝離成height和salience。音調被人類感覺分為感覺其height和感覺其salience。
資料采集
兩個實驗,實驗1:5被試,平均32歲,3男;實驗2:5被試,平均27歲,2男。
自然聲音包括語音,歌聲,動物叫喊,自然場景,樂器,工具聲。實驗1有168條聲音,實驗2有288條。音頻采樣頻率16k,1s長。
TA: TA is the time between the first and the last slice within one scan.
TR: The basic time resolution parameter (sampling time) is designated TR; the TR dictates how often a particular brain slice is excited and allowed to lose its magnetization.
TE: The echo time (TE) represents the time from the center of the RF-pulse to the center of the echo.
4種聲音表示模型
-
pitch model
感覺到的音高隻是音調的height
-
weighted pitch model
感覺到的音高是height和salience的權重
-
tonotopy model
頻譜能量圖
-
timbral brightness model
頻譜的質心的高度,與音色的亮度有關
前兩種模型中都需要用到基頻估計(fundamental frequency estimation)算法,經典的算法是
YIN算法,通過自相關分析估計出基頻。
與這一算法相關的一個稱之為difference function的公式:
後面會再次提到它。
pitch model在估計出的基頻上做了一些處理↓(沒有看懂),總之再在時域求平均,得到聲音的表示。
而weighted pitch模型則通過公式(1)裡的函數,計算出一個反應音高顯著性的數值,數值越小表示顯著性越差。最後将F0 contour與表示顯著性的數值點乘,再在時域求平均得到weighted pitch模型的聲音表示。
模型1和2的差別在于後者基于“刺激的諧波結構資訊對與音高感覺有關的fmri活動有貢獻”的假設。
又提出saliency model和saliency-pitch model做對照,讓實驗更嚴謹。前者是weighted pitch的特征次元做平均,是以是1維的特征。後者是salience和height的直接組合,是以是128+1=129維的特征。
模型3:
對聲音做分幀和短時傅裡葉變換STFT,得到的頻譜圖在頻率軸降采樣(50-8000Hz取對數,128個區間),時域求平均。
模型4:
計算每個時刻,頻譜的質心 S C ( t ) SC(t) SC(t), 具體過程:
X k X_k Xk是每個諧波的幅值, F k F_k Fk是每個諧波對應的頻率,最後将 S C ( t ) SC(t) SC(t)在時域求平均。
用一幅圖總結四種模型的差別:
單體素編碼模型
前面的四個模型都是為了完成從輸入的聲音信号 X X X中提取特征 F S F_{S} FS, S S S表示聲音的數量。 y i = [ y 1 i , y 2 i , ⋯   , y S i ] T y_i=[y_{1i},y_{2i},\cdots,y_{Si}]^T yi=[y1i,y2i,⋯,ySi]T表示第i個體素對S個聲音做出的反應。
對訓練集中的資料, y S t r a i n , i y_{S_{train},i} yStrain,i通過一個線性映射來計算:
y S t r a i n , i = F S t r a i n w i + n i y_{S_{train},i}=F_{S_{train}}w_i+n_i yStrain,i=FStrainwi+ni
權重 w i w_i wi通過嶺回歸算法來估計,正則項通過交叉驗證來決定。測試集,通過公式
y S t e s t , i = F S t e s t w i y_{S_{test},i}=F_{S_{test}}w_i yStest,i=FStestwi預測體素i的反應。
這個過程中,不同刺激下的訓練集體素反應要規範化為0均值,機關方差。用訓練集的方差和均值對測試集也規範化。
如何評判預測品質?
通過voxel-wise的pearson相關系數的計算。模型間差異性檢驗,通過一系列檢驗方法,沒怎麼看懂,大概應該有涉及符号檢驗的知識。
Pitch ROI的自定義和多體素解碼模型
pitch ROI
不同個體有不同的pitch ROI,它的提出是為了證明被試間結果的一緻性。利用訓練資料,找出模型拟合有效性最高的那個區域,作為pitch ROI。有效性通過置換檢驗計算。
多體素解碼模型
在pitch ROI上進行從fmri響應到音樂特征的重建。公式:
f S t r a i n , k = Y S t r a i n w k T + b k 1 + n k f_{S_train,k}=Y_{S_{train}}w_k^T+b_k 1+n_k fStrain,k=YStrainwkT+bk1+nk
其中 w k = [ w k 1 , ⋯   , w k I ] w_k=[w_{k1},\cdots,w_{kI}] wk=[wk1,⋯,wkI]用嶺回歸估計,正則項用交叉驗證決定. k:特征的第k維。I:體素個數。
測試集 f S t e s t , k = Y S t e s t w k T f_{S_{test},k}=Y_{S_{test}}w_k^T fStest,k=YStestwkT
如何評價解碼品質?
對每個聲音 s s s,計算重構出的特征和原始特征間的pearson相關系數 r s r_s rs.
每個被試的最終識别準确率,用 m s m_s ms在不同聲音上求平均來獲得。??
最後會用t檢驗來比較Pitch ROI上和互補Pitch ROI上的識别準确率的差異。
音高-譜時調制相結合來進行多體素解碼
過去的研究表明,通過基于譜時調制(spectro-temporal modulation)的聲音表示模型能夠對自然聲音的fmri響應進行準确的預測。本文就想設計實驗,來探索跟譜時調制相比,前文提出的weighted pitch 模型對解碼效果的貢獻有多大。
譜時調制 spectro-temporal modulation:
聲譜,是一個幅值在時域上變化的信号。頻譜,是一個幅值在頻域上變化的信号。而頻譜圖(spectrogram),是頻譜+時間線,就是幅值在頻域和時域上的變化。是以,針對頻譜圖的調制,可以有頻域和時域兩個參數。是2D的濾波器,其中的spectral modulation 通常用 Ω \Omega Ω表示,機關是cyc/oct, temporal modulation 用 ω \omega ω表示,機關Hz。
文章中用的譜時調制, Ω = [ 0.5 , 1 , 2 , 4 ] c y c / o c t \Omega = [0.5, 1, 2, 4] cyc/oct Ω=[0.5,1,2,4]cyc/oct, ω = [ 1 , 3 , 9 , 27 ] H z \omega = [1, 3, 9, 27]Hz ω=[1,3,9,27]Hz.這樣可以得到16維的特征。為了與weighted pitch 模型解碼的效果(模型提出的特征是128維的)作比較,頻譜圖裡的num of frequency bins設定成8(詳細過程參見該論文)
接下來用譜時調制計算出的特征來進行多體素解碼,再用weighted pitch 和 譜時調制得到的關聯系數做平均,将這兩個結果均與weighted pitch 結果對比,t檢驗來證明是否有差異。
Results
體素預測準度和模型間對比
體素預測準度:weighted pitch model 最高
weighted pitch > pitch > tonotopy model > timbral brightness model
saliency-pitch model > saliency model
分布:weighted pitch, pitch, saliency-pitch model 都比較像
tonotopy model, timbral brightness model比較像
Group-level statistical non-parametric maps comparing the weighted pitch to the competing model:
也就是最優模型與其他模型的對比圖,通過對比,可以看到哪些區域weighted pitch表現出了更優的結果。
與pitch、saliency-pitch模型比,weighted pitch在右腦middle STG和posterior STG有差異
與tonotopy和timbral brightness比,weighted pitch在左右腦的lateral HG和adjacent STG有差異
和saliency比,weighted pitch在middle and posterios STG, HG有差異
證明這些也是weighted-pitch表現突出的重要區域。
Pitch ROI的特性
pitch ROI的特性通過下面四幅圖展現出來。
圖A表明每個被試的pitch ROI存在重合區域(lateral HG and middle STG bilaterally)
圖B表明重合區域與高預測率區域一緻
圖C:用tonotopy model估計的體素的特征頻率拓撲圖(CF),根據圖B,模型在對低頻率敏感的體素上重建的效果更好。與過往研究(猿猴的音調敏感神經元多數分布在初級視覺皮層和lateral belt的低頻區域)的結果一緻。
圖D:maps of characteristic spectral modulations (CSM)。過去的研究表明高光譜刻度(?)上的能量分布攜帶了很多音高資訊,然而圖D的結果,pitch ROI上的大多數體素都是比較低的光譜調制值,這說明Pitch ROI編碼了一種不一樣的音高特征。
多體素解碼
對多體素解碼任務,
無論是在pitch ROI還是其補集上,譜時調制都比weighted pitch有顯著優勢。
下圖:在pitch ROI或者其補集上,weighted pitch 、譜時調制、兩者結合,三種情況下的識别準确率
Discussion
- weighted pitch模型的提出,而且是用real-life sounds做刺激信号
- Pitch ROI的探索:lateral HG, adjacent middle-posterior STG
- weighted pitch是saliency 和height特征的結合,這意味着:Pitch ROI中的神經元群的活動,不僅反映聲音的能量,還表征着音調的資訊。
- timbral brightness模型表現較差,可能反映了這樣的事實:聽覺皮層的反映編碼時域的變化,而不是音調的spectral centroid的長期統計資料。
- weighted pitch模型比較接近于皮層對自然聲音的音調的感覺。
- 提取音調特征的算法用了YIN算法,原因:該算法對基頻和非周期的諧波有着魯棒的估計。
- 譜時調制與pitch的結合取得了最好的識别結果,印證了一個假設:聽覺系統同時利用聲音的音調和多分辨率表示來解析複雜場景的聽覺對象。(聽覺場景分析相關)
Summary
原文可借鑒的地方:
1.一些重要的神經科學的結論
比如哪些腦區對音調編碼貢獻最大:lateral HG, adjacent middle-posterior STG。那麼在後續我們的工作中,就可以對這些腦區的體素或者導聯(EEG,不過空間分辨率過低,實作起來可能效果不好)賦較高的權重。
還有透過weighted pitch模型,可知大腦感覺pitch時同時感覺了聲音的saliency顯著性和height音高的特征。然而大腦真正的編碼過程可能比weighted pitch模型要負責更多。
2.從聲音提取音調特征的算法
YIN算法是一個經典的時域上的基音檢測的算法。除此之外,也有許多其他基音檢測算法如:頻域上HPS(harmonic product spectrum),頻譜法等值得嘗試并作對比。
3.音調特征編解碼算法
采用的基于單體素編碼,多體素解碼的方法,而且用的嶺回歸算法求權重。
可以改進的地方:
音調特征編解碼算法可以用深度神經網絡的方法,由于網絡深度的加深,或許可以對體素進行更好的預測。