磁共振成像(MRI)已經改變了我們對人類大腦的了解,通過對特定結構的能力(例如,損傷研究)和功能(例如,任務功能MRI (fMRI))的複制映射。心理健康研究和護理還沒有從核磁共振成像中實作類似的進步。一個主要的挑戰是複制大腦結構或功能的個體間差異與複雜的認知或心理健康表型之間的關聯(全腦關聯研究(BWAS))。這樣的BWAS通常依賴于适合經典腦成像的樣本量(中位神經成像研究樣本量約為25),但對于捕捉可複制的腦行為表型關聯可能太小了。在這裡,我們使用了目前最大的三個神經成像資料集,總樣本量約為50,000人,以量化BWAS效應大小和可重複性作為樣本量的函數。BWAS的關聯比之前認為的要小,導緻了統計上的研究不足,效應大小和典型樣本量的複制失敗。随着樣本量增加到數千個,複制率開始提高,效應大小資訊減少。功能性MRI(對比結構)、認知測試(對比心理健康問卷)和多變量方法(對比單變量)檢測到更強的BWAS效應。小于預期的腦表型關聯和人群亞樣本的變異性可以解釋廣泛的BWAS複制失敗。與影響更大的非BWAS方法(例如,損傷、幹預和個人)相比,BWAS的可重複性需要數千個人的樣本。
磁共振成像資料(如皮質厚度或靜息狀态功能連接配接(RSFC))越來越多地用于将大腦結構和功能的個體差異與複雜心理表型的典型變異(如認知能力和精神病理學)聯系起來的宏偉任務。為了清楚地将BWAS與其他神經影像學研究區分開來,我們将其正式定義為對人類大腦結構/功能中常見個體間變異與認知或精神症狀之間關聯的研究。經典的單變量BWAS最近被更強大但更難以解釋的多變量預測技術(如支援向量回歸(SVR)和典型相關分析(CCA))所促進。BWAS在預測和減少精神疾病負擔、增進對人類智力成就的認知能力的了解方面具有很大的潛力。然而,獲得MRI資料仍然很昂貴(大約每小時1000美元),導緻小樣本BWAS結果沒有被複制。
導緻以人群為基礎的心理學、基因組學和醫學研究重複性差的因素,如方法學的可變性、顯著結果的資料挖掘、過拟合、确認和發表偏倚以及不充分的統計能力,也可能影響BWAS。研究人員開始通過标準化分析、預先登記假設、公布無效結果以及共享資料和代碼來解決複制失敗的問題。盡管如此,仍有人擔心依賴于相對較小的樣本(openneuro的中位數樣本量(n)) 可能也對BWAS複制失敗有貢獻。
小型研究最容易受到抽樣變異性的影響,即總體子樣本間相關性的随機變異。随着樣本量的增加,樣本量變異性降低,相關性以√n的速率穩定下來。是以,如果真正的腦範圍相關性比先前假設的要小(例如,雙變量線性相關性r = 0.2-0.8),則需要更大的樣本來準确測量它們。其他以人群為基礎的科學旨在堅定地表征相對較小的影響,如流行病學和基因組學(即全基因組關聯研究(GWAS)),已經穩步地将樣本量從低于100增加到超過100萬。最近,神經成像協會收集了比以前大數量級的樣本(例如,青少年大腦認知發育(ABCD)研究,n = 11874;Human Connectome Project (HCP), n = 1200;和UK Biobank (UKB), n = 35735),可以準确估計BWAS效應大小。從ABCD研究開始,使用HCP和UKB資料進行驗證,我們進行了數十億個單變量和多變量分析,以評估BWAS效應量和作為樣本量函數的可重複性,樣本量從小(n = 25)到大(n = 32,572)。
1. 精确地BWAS需要更大的樣本
BWAS将大腦特征(例如,兩個大腦區域(邊)之間的RSFC)和行為表型(例如,認知能力)聯系起來。為了估計ABCD資料中的全腦關聯,我們将廣泛使用的皮質厚度和RSFC名額與41項名額聯系起來,以索引人口統計、認知和心理健康(補充表1)。在結構(皮質頂點、感興趣區域(ROI)和網絡)和功能(連接配接(邊))的多個解剖分辨率水準上估計全腦關聯。(圖1)。
為了改善頭部運動等讨厭變量的影響,我們應用了嚴格的去噪政策(n = 3,928;在8分鐘;RSFC資料在過濾幀位移下的幀後截尾(filter - fd)<0.08毫米)。重複分析使用不那麼嚴格的運動審查,保留了整個ABCD樣本中的更大子集(n = 9753),産生了類似的BWAS效應大小分布。BWAS分析經常将單個大腦特征與單個行為表型聯系起來。在圖1a和1b中,我們展示了皮質厚度和RSFC之間的這種單因素關聯的分布,以及兩種廣泛研究的表型,認知能力(NIH Toolbox總分)和精神病理(兒童行為檢查表(CBCL)總分)。在完整的、嚴格去噪的ABCD樣本中(n = 3,928),在所有腦區關聯中,單變量效應大小中位數(|r|)為0.01。所有可能的腦區關聯中,前1%的最大關聯(大約1100萬個總關聯)達到了大于0.06的|r|值(圖1a, b)。前10%的最大關聯分布在感覺運動和關聯皮層(圖1c, d)。樣本外複制的相關性最大的是|r| = 0.16。社會人口協變量調整導緻效應量下降,尤其是最強的關聯(前1% Δr = 0.014)。

圖1 單變量BWAS的效應尺寸與樣本變異性
較小的腦範圍關聯研究報告了較大的單變量相關性(r>0.2)比我們在更大的樣本中測量到的最大影響。為了解決這一明顯的沖突,我們使用不同大小的樣本來模拟獨立研究小組的影響,以估計相同的大腦表型關聯。對于最強的單變量腦全域關聯,我們繪制了樣本大小的函數抽樣變異性(圖1e, f, n = 253,928)。在n = 25時,單變量相關性的99%置信區間為r±0.52,說明BWAS效應可能會因偶然因素而被強烈誇大。在較大的樣本中(每組n = 1,964),前1%最大的BWAS效應平均仍然被誇大了r = 0.07(78%)。在n = 25時,兩個獨立的總體子樣本可以得出關于相同大腦行為關聯的相反結論(例如,圖1g, h),這完全是因為抽樣的變異性。所有大腦名額和行為表型的樣本大小圖的抽樣變異性見附圖4-6。任務功能磁共振成像資料也與認知表型相關。最近的研究表明,處理與RSFC相似的任務fMRI資料,并結合兩種方式可以略微加強BWAS效應。是以,我們還在ABCD研究資料中估計了任務和休息功能連接配接的單變量BWAS關聯,它們産生了相同的關聯強度分布。HCP收集了各種各樣的功能磁共振成像任務,使我們能夠計算出86個任務激活對比和39個行為測量之間的所有腦範圍的關聯。經典任務fMRI激活和RSFC的BWAS效應大小分布緊密比對。低的測量可靠性會減弱兩個變量之間的觀測相關性。樣本行為表型的個體内測量可靠性(NIH Toolbox, r = 0.90;CBCL, r = 0.94)和影像學測量(皮質厚度,r>0.96;RSFC: ABCD, r = 0.48;HCP, r = 0.79;UKB, r = 0.39)為中到高。盡管行為(NIH Toolbox, CBCL)和皮層厚度測量已經接近其可靠性上限,但RSFC測量可靠性的進一步提高理論上可能會略微增加效應大小。由于真實關聯強度的基本生物學限制和/或行為表型和MRI實體的限制,BWAS的理論最大效應量不太可能達到。
2. 效應大小在不同資料集複制
自ABCD研究資料(n = 11874;年齡範圍:9 - 10歲;20分鐘,收集RSFC)來自21個位點的兒科隊列(多掃描器類型),我們試圖在機關點、單掃描器類型的成人資料中複制BWAS效應大小。是以,我們使用了大型研究中每個參與者包含最多資料的HCP資料集(n = 1200;年齡範圍:22 35歲;單一的掃描器;60分鐘,RSFC收集),以及UKB資料集,該資料集樣本量最大,但每個參與者的RSFC資料更少(n = 35735;年齡範圍:40 - 69歲;單掃描類型;6 min,收集RSFC),驗證單變量BWAS效應大小分布。三個資料集在包含RSFC和認知能力資料方面有重疊。為了控制樣本大小的影響,對ABCD和UKB資料集進行下采樣,以比對HCP (n = 900,嚴格去噪)。在三個大小比對的資料集中,我們發現RSFC和認知能力之間的關聯的效應大小分布相似(圖2;n = 900 ABCD, |r|>0.11;HCP, |r|>0.12;UKB, |r|>0.09)。為了解釋潛在的多站點效應,我們直接比較了HCP(單站點)和ABCD資料集之間的采樣可變性,以及單個ABCD站點(n = 603)和其餘20個站點之間的采樣可變性。單站和多站樣本的抽樣可變性是相等的,這強調了ABCD研究跨站協調工作的有效性。單變量BWAS效應大小分布(圖2,擴充資料圖5、6)跨年齡(9-69歲)、位點、掃描器類型和脈沖序列的普遍性表明,在目前的技術和方法中,BWAS是通用的。
圖2 在不同大型影像資料集中,BWAS效應尺寸是一緻的
3. 統計誤差限制了可重複性
統計錯誤率取決于效應大小和顯著性檢驗門檻值。為了量化小于預期的效應量和抽樣可變性(即在總體子樣本中關聯的随機變異)的配對如何影響BWAS再現性,我們使用非參數bootstrapping生成更小的BWAS子樣本,并通過顯著性門檻值(P<0.05 ~ P <10^-7;圖3),并用分析統計功率估計驗證了結果。BWAS樣本大小普遍存在統計誤差。即使樣本數量高達1000個,假陰性率(圖3a)也非常高(75%-100%),半數統計上顯著的關聯至少被誇大了100%(圖3b)。更寬松的統計門檻值減少了假陰性和效應規模膨脹,但增加了符号錯誤的比率(圖3c)。統計功率(1個假陰性率),反映了檢測到顯著效應的機率,即使在相對較大的樣本容量下,統計功率仍然很低:n = 3928時的最大統計功率為0.68(圖3d)。考慮到典型大小樣本中單變量BWAS的高統計錯誤率和低功耗,我們量化了在大小比對的複制資料集中複制顯著的單變量關聯的機率(圖3e;P = 10^-7 ~ 0.05)。為了與常見的實踐保持一緻,我們将成功複制定義為在樣本内和樣本外通過相同的統計門檻值。在最大的分裂一半樣本量(n = 1964)中,25%的單變量BWAS複制成功,門檻值為P <0.05. 在樣本容量更典型的BWAS (n <500)時,複制率約為5%(圖3e)。沖突的是,對多重比較進行校正會降低單變量BWAS效應成功複制的機率(圖3d, e)。更嚴格的統計門檻值會降低假陽性率(圖3f),但會增加假陰性率(圖3a),進而降低統計功率(圖3d)。在低功率BWAS中,對非常大的相關性選擇更嚴格的統計門檻值,這些相關性最可能因抽樣可變性而被誇大(圖1e,f)。
圖3 單變量BWAS的統計誤差和可重複性
4. 多變量BWAS可重複性
多變量方法使用權重腦模式來預測單一行為表型(SVR;例如,認知能力),或多種表型的組合(CCA;例如,所有NIH工具箱分量表)。為了檢驗作為樣本大小函數的多變量腦範圍關聯,我們在發現集資料上訓練SVR和CCA模型(樣本内;包括嵌套交叉驗證(SVR)和主成分分析(PCA)降維(SVR和CCA)),随後使用SVR (rpred)和CCA (rCV1)關聯強度的标準樣本外估計來測試它們對複制集的泛化(圖4)。通過為每個樣本量生成引導子樣本(n = 100)來評估抽樣可變性。使用非參數空分布檢驗多變量樣本外關聯的統計顯著性。通過多變量方法(SVR和CCA)、成像模式(皮質厚度和RSFC)和行為表型(認知能力和精神病理學),典型的神經成像生成變量的小發現樣本,膨脹的樣本内關聯往往沒有通過統計顯著性門檻值(圖4a-d)。将樣本容量增加到數千名參與者,提供了适度的統計複制,降低了可變性,樣本内和樣本外關聯之間的差異也較小。平均而言,RSFC(對比皮質厚度)和認知(對比精神病理)測量提供了更強的樣本外關聯(圖4a-d),更接近樣本内估計(圖4e)。縮小複制的定義以檢測樣本外資料的統計顯著性,并不能減輕對大樣本量的需求(補充表2)。與單變量相比,多變量樣本外關聯更強,尤其是在大樣本量的情況下。即使在最大的樣本量(n≈2000),多變量樣本内關聯仍然平均膨脹(樣本内到樣本外:Δr = 0.29;圖4e),特征權重是可變的。通過使用相對低維的特征空間使樣本外複制最大化,重申腦範圍的關聯表現在廣泛分布的回路中,與單變量BWAS一緻(圖1c、d)。在行為表型中,多變量樣本外關聯與單變量效應大小穩健相關(r = 0.79, P<0.001;圖4 f)。
圖4 多變量BWAS
5. 影響力不足的BWAS悖論
在較小的樣本量中,最大的、最誇大的BWAS效應在統計上最有可能顯著,是以,沖突的是,最可能被發表。通常,BWAS已經足夠強大,隻能檢測膨脹相關性的統計顯著性(圖3d)。較小樣本中的高采樣可變性經常偶然産生強關聯(圖1e, f)。神經影像學中常見的更嚴格的樣本内統計門檻值(即多重比較校正)降低了BWAS的功率,進而通過選擇更膨脹的效應使我們更深地陷入悖論(圖3)。當試圖複制膨脹的BWAS關聯時,回歸均值(實際效應大小)不顯著(即,複制失敗)是最可能的結果(圖3、4、擴充資料圖8)。對顯著的、更大的BWAS效應的偏好限制了無效結果的發表,使膨脹的效應規模長期存在,這是後續影響力分析和元分析的基礎。
6. 小樣本神經影像重要性
神經成像研究沒有放之四海而皆準的解決方案;最小樣本量要求取決于研究設計。隻有神經影像學的研究通常在小樣本量下得到充分的支援。例如,人類功能性大腦組織在群體間的中心傾向可以通過在小樣本内(即n = 25。通過對同一個體重複采樣可以生成精确的個體特異性RSFC和fMRI激活腦圖。小樣本也為減少MRI僞影提供了藍圖,增加了可用資料量。使用非BWAS方法,人類大腦和行為之間的許多基本聯系已經被發現,并在小型神經成像樣本中得到複制。在人體内設計(如縱向)、誘導效應研究(如損傷或任務)或兩者兼有(如幹預)的研究常常增加了測量的可靠性和效應大小。對于罕見的臨床疾病,收集大量樣本是不可能的。在許多情況下,親自實施的誘導效應方法不僅具有成本效益,而且與臨床護理最為相關。是以,小樣本的神經成像對于研究人腦始終是至關重要的。
7. 大樣本BWAS研究的重要性
大型神經成像聯合資料(ABCD、HCP和UKB)顯示,小的BWAS效應和人群抽樣可變性通常會導緻膨脹的、不可複制的大腦表型關聯,直到樣本規模達到數千。是以,BWAS應該使用至少具有數千個高品質、标準處理的樣本的資料集。還應考慮潛在的混淆效應和對統計顯著性的解釋。基因組學從其可重複性危機中恢複為BWA2樹立了一個有價值的榜樣。早期的候選基因研究力量不足,許多常見遺傳變異和精神表型之間的關聯無法被複制。作為回應,GWAS财團已經将基因組樣本增加到數百萬份,并利用專門的研究設計(如雙胞胎)和方法創新(如多基因風險評分),并制定了嚴格的資料标準。幸運的是,由于效應量較大,與GWAS相比,BWAS的發現可以在相對較小的樣本中實作重複性。
8. 可重複地将大腦和行為聯系起來
所有的大腦行為研究都将受益于産生更高品質的大腦和行為資料的技術進步,這些資料具有更高的效率,例如fMRI的實時品質控制、多波段多回聲序列和熱去噪,以及具有生态瞬時評估和被動感覺的深度行為表型。與GWAS一樣,資助機構應該通過強制性的共享政策來促進與BWAS相關的資料集的聚合。即使對于以相同方式收集和處理的大型資料集,樣本内關聯比樣本外複制更強(圖4e,擴充資料圖8);是以,報告樣本内和樣本外效應大小應該是出版和資助的要求。BWAS還可能受益于集中收集最強大的大腦表型關聯的資料(例如,功能vs .結構,直接行為vs .問卷)。與基因組不同的是,大腦預計會随着時間的推移而改變,并可以被倫理地操縱。為了獲得更大的效應量和統計力,神經科學應該關注參與研究設計而不是橫斷面研究設計,以及介入研究(治療、藥物、腦刺激和手術)而不是觀察性研究設計。與其将預先定義的心理結構和大腦特征聯系起來,資料驅動的綜合大腦行為表型将進一步推進我們對認知和心理健康的了解。總之,我們将神經成像标記物與複雜的人類行為聯系起來的前景比以往任何時候都要好。
參考文獻:Reproducible brain-wide association studies require thousands of individuals