天天看點

代謝組學資料分析的統計學方法綜述

謝組學研究産生大量的資料,這些資料具有高維、小樣本、高噪聲等複雜特征。如何從複雜的代謝組學資料中提取出有價值的資訊,篩選出潛在的生物标志物成為近年來代謝組學研究的熱點和難點。據此,本文針對目前代謝組學資料分析中的常用統計學方法及其研究進展進行介紹。

代謝組學資料的特點

代謝組學是系統生物學領域中繼基因組學和蛋白質組學之後新近發展起來的一門學科,它通過檢測生物體在受到外源刺激或基因修飾後其體内代謝物質的變化來探索整個生物體的代謝機制。

其研究對象為生物體内所有内源性小分子代謝物(分子量<1000Da) 。

研究手段為高通量檢測技術和資料處理方法,最終目标是資料模組化和生物标志物的篩選。

生物樣品如血漿、尿液、組織等,經過GC/MS、NMR、LC/MS 等高通量儀器檢測後,得到大量的圖譜資料,使用XCM等軟體對這些圖譜資料進行轉換,獲得用于統計分析的标準格式的資料。

歸納起來,代謝組學資料具有以下特點:

  • 高噪聲:生物體内含有大量維持自身正常功能的内源性小分子,具有特定研究意義的生物标志物隻是其中很少一部分,絕大部分代謝物和研究目的無關。
  • 高維、小樣本:代謝物的數目遠大于樣品個數,不适合使用傳統的統計學方法進行分析,多變量分析容易出現過拟合和維數災難問題。
  • 高變異性:一是不同代謝物質的理化性質差異巨大,其濃度含量動态範圍寬達7~9個數量級,二是生物個體間存在各種來源的變異,如年齡、性别都可能影響代謝産物的變化,三是儀器測量受各種因素影響,容易出現随機測量誤差和系統誤差,這使得識别有重要作用的生物标志物可能極其困難。
  • 互相作用關系複雜:各種代謝物質可能不僅具有簡單的相加效應,而且可能具有互動作用,進而增加了識别這些具有複雜關系的生物标志物的難度。
  • 相關性和備援性:各種代謝物并非獨立存在,而是互相之間具有不同程度的相關性,同時由于碎片、加合物和同位素的存在使得資料結構存在很大的備援性,這就需要采用合理的統計分析政策來揭示隐藏其中的複雜資料關系。
  • 分布的不規則和稀疏性: 代謝組學資料分布不規則,而且資料具有稀疏性(即有很多值為零) ,是以,傳統的一些線性和參數分析方法此時可能失效。

資料的預處理

代謝組學資料分析的目的是希望從中挖掘出生物相關資訊,然而,代謝組學資料的變異來源很多,不僅包括生物變異,還包括環境影響和操作性誤差等方面。

處理手段主要包括歸一化(standardization) 、标準化(normalization) ,即中心化(centering) 和尺度化(scaling),以及資料轉換(transformation)。

歸一化是針對樣品的操作,由于生物個體間較大的代謝物濃度差異或樣品采集過程中的差異(如取不同時間的尿樣) ,為了消除或減輕這種不均一性,一般使用代謝物的相對濃度,即每個代謝物除以樣品的總濃度,以此來校正個體差異或其他因素對代謝物絕對濃度的影響。

标準化是對不同樣品代謝物的操作,即統計學意義上的變量标準化。标準化的目的是消除不同代謝物濃度數量級的差别,但同時也可能會過分誇大低濃度組分的重要性,即低濃度代謝物的變異系數可能更大。

資料轉換是指對資料進行非線性變換,如log轉換和power轉換等。資料轉換的目的是将一些偏态分布的資料轉換成對稱分布的資料,并消除異方差性的影響,以滿足一些線性分析技術的要求。不同的預處理方法會對統計分析結果産生不同的影響(見表1) ,在實際應用中,我們應該根據具體的研究目的﹑資料類型以及要選用的統計分析方法綜合考慮,選擇适當的預處理方式。例如,Robert A. van den Berg等(2006) 通過實際代謝組學資料的分析發現,選用不同預處理方法在很大程度上影響着主成分分析(PCA) 的結果,自動尺度化(auto scaling)和全距尺度化(range scaling) 在對代謝組學資料進行探索性分析時表現更優,其PCA 分析後的結果在生物學上能夠得到更合理的解釋。

單變量分析方法

單變量分析方法簡便﹑直覺和容易了解,在代謝組學研究中通常用來快速考察各個代謝物在不同類别之間的差異。

代謝組學資料在一般情況下難以滿足參數檢驗的條件,使用較多的是非參數檢驗的方法,如Wilcoxon 秩和檢驗或Kruskal-Wallis 檢驗,t’檢驗也是一種比較好的統計檢驗方法。

由于代謝組學資料具有高維的特點,是以在進行單變量分析時,會面臨多重假設檢驗的問題。如果我們不對每次假設檢驗的檢驗水準α進行校正,則總體犯一類錯誤的機率會明顯增加。

一種解決方法是采用Bonferion校正,即用原檢驗水準除以假設檢驗的次數m作為每次假設檢驗新的檢驗水準(α/m) 。由于Bonferion校正的方法過于保守,會明顯降低檢驗效能,是以在實際中更為流行的一種做法是使用陽性發現錯誤率(false discovery rate,FDR) 。

這種方法可用于估計多重假設檢驗的陽性結果中,可能包含多少假陽性結果。FDR 方法不僅能夠将假陽性的比例控制在規定的範圍内,而且較之傳統的方法在檢驗效能上也得到顯著的提高。

實際中也可以使用局部FDR(用fdr表示) ,其定義為某一次檢驗差異顯著時,其結果為假陽性的機率。局部FDR 的使用,使得我們能夠估計出任意變量為假陽性的機率,通常情況下有FDR≤fdr。

除了進行傳統的單變量假設檢驗分析,代謝組學分析中通常也計算代謝物濃度在兩組間的改變倍數值(fold change) ,如計算某個代謝物濃度在兩組中的均值之比,判斷該代謝物在兩組之間的高低表達。計算ROC 曲線下面積(AUC) 也是一種經常使用的方法。

多變量分析

代謝組學産生的是高維的資料,單變量分析不能揭示變量間複雜的互相作用關系,是以多變量統計分析在代謝組學資料分析中具有重要的作用。

總體來說,代謝組學資料多變量統計分析方法大緻可以分為兩類:

  • 一類為非監督的學習方法,即在不給定樣本标簽的情況下對訓練樣本進行學習,如PCA、非線性映射(NLM) 等;
  • 另一類為有監督的學習方法,即在給定樣本标簽的情況下對訓練樣本進行學習,如偏最小二乘判别分析(PLS-DA) 、基于正交信号校正的偏最小二乘判别分析(OPLS-DA) 、人工神經網絡(ANN) 、支援向量機(SVM) 等。其中,PCA、PLS-DA和OPLS-DA是目前代謝組學領域中使用最為普遍的多變量統計分析方法。

PCA

PCA是從原始變量之間的互相關系入手,根據變異最大化的原則将其線性變換到幾個獨立的綜合名額上(即主成分) ,取2~3個主成分作圖,直覺地描述不同組别之間的代謝模式差别和聚類結果,并通過載荷圖尋找對組間分類有貢獻的原始變量作為生物标志物。通常情況下,由于代謝組學資料具有高維、小樣本的特性,同時有噪聲變量的幹擾,PCA的分類結果往往不夠理想。

盡管如此,PCA作為代謝組學資料的預分析和品質控制步驟,通常用于觀察是否具有組間分類趨勢和資料離群點。在組間分類趨勢明顯時,說明其中一定有能夠分類的标志物。

PCA還可以用于分析質控樣品是否聚集在一起,如果很分散或具有一定的變化趨勢,則說明檢測品質存在一定的問題。Zhang Zhiyu 等(2010) 通過PCA 成功區分了骨肉瘤患者和正常人,并發現良性骨惡性良性腫瘤患者中有兩例是異常值。Kishore K. Pasikanti 等(2009) 利用PCA 對尿液膀胱癌代謝組學資料進行分析後觀察到質控樣品在PCA得分圖上緊密聚集,進而驗證了儀器檢測的穩定性和代謝組學資料的可靠性。

PLS-DA

PLS-DA 是目前代謝組學資料分析中最常使用的一種分類方法,它在降維的同時結合了回歸模型,并利用一定的判别門檻值對回歸結果進行判别分析。ZhangTao 等(2013) 運用PLS-DA技術分析尿液卵巢癌代謝組學資料,成功将卵巢癌患者和

良性卵巢惡性良性腫瘤

患者以及

子宮肌瘤

患者互相鑒别,并鑒定出組氨酸、色氨酸、核苷酸等多種具有判别能力的卵巢癌生物标志物。

PLS的思想是,通過最大化自變量資料和應變量資料集之間的協方差來建構正交得分向量(潛變量或主成分) ,進而拟合自變量資料和應變量資料之間的線性關系。

PLS的降維方法與PCA 的不同之處在于PLS 既分解自變量X 矩陣也分解應變量Y 矩陣,并在分解時利用其協方差資訊,進而使降維效果較PCA 能夠更高效地提取組間變異資訊。

當因變量Y為二分類情況下,通常一類編碼為1,另一類編碼為0或-1;當因變量Y為多分類時,則需将其化為啞變量。通常,評價PLS-DA 模型拟合效果使用R2X、R2Y和Q2Y這三個名額,這些名額越接近1 表示PLS-DA 模型拟合資料效果越好。其中,R2X 和R2Y 分别表示PLSDA分類模型所能夠解釋X 和Y 矩陣資訊的百分比,Q2Y 則為通過交叉驗證計算得出,用以評價PLS-DA模型的預測能力,Q2Y 越大代表模型預測效果較好。

實際中,PLS-DA 得分圖常用來直覺地展示模型的分類效果,圖中兩組樣品分離程度越大,說明分類效果越顯著。代謝組學資料分析中另一種常用的方法是OPLS-DA,它是PLS-DA 的擴充,即首先使用正交信号校正技術,将X 矩陣資訊分解成與Y 相關和不相關的兩類資訊,然後過濾掉與分類無關的資訊,相關的資訊主要集中在第一個預測成分。Johan Trygg 等認為該方法可以在不降低模型預測能力的前提下,有效減少模型的複雜性和增強模型的解釋能力。

與PLSDA模型相同,可以用R2X、R2Y、Q2Y 和OPLS-DA 得分圖來評價模型的分類效果。Carolyn M. Slupsky 等(2010) 使用OPLS-DA 發現卵巢癌患者、乳腺癌患者、正常人這三者之間的尿液代謝輪廓顯著不同,進而推斷尿液代謝組學可能為癌症的特異性診斷提供重要依據。

由于代謝組學資料具有高維、小樣本的特性,使用有監督學習方法進行分析時很容易産生過拟合的現象。

為此,需要使用置換檢驗考察PLS-DA 在無差異情況下的模組化效果。該方法在固定X 矩陣的前提下,随機置換Y分類标簽n次,每次随機置換後建立新的PLS-DA 模型,并計算相應的R2Y 和Q2Y; 然後,與真實标簽模型得到的結果進行比較,用圖形直覺表達是否有過拟合現象。

由于樣本量的不足,通常采用上述的交叉驗證和置換檢驗方法作為模型驗證方法。而實際中,在樣本量允許的情況下,最為有效的模型驗證方法即将整個資料集嚴格按照時間順序劃分為内部訓練資料和外部測試資料兩部分,利用内部訓練資料建立模型,再對外部測試資料進行預測,客觀地評價模型的有效性和适用性。

生物标志物的篩選

代謝組學分析的最終目标是希望從中篩選出潛在的生物相關标志物,進而探索其中的生物代謝機制,是以需要借助一定的特征篩選方法進行變量篩選。

對于高維代謝組學資料的特征篩選,研究的目的是從中找出對樣本分類能力最強或較強的一個或若幹個變量。特征篩選方法主要分為三類: 過濾法、封裝法和嵌入法。

  • 過濾法主要是采用單變量篩選方法對變量進行篩選,優點是簡單而快捷,能夠快速的降維,如t’檢驗、Wilcoxon秩和檢驗、SAM等方法。
  • 封裝法是一種多變量特征篩選政策,通常是以判别模型分類準确性作為優化函數的前向選擇、後向選擇和浮動搜尋特征變量的算法,它通常是按照“節省原則”進行特征篩選,最終模型可能僅保留其中很少部分的重要變量,如遺傳算法等。
  • 嵌入法的基本思想是将變量選擇與分類模型的建立融合在一起,變量的重要性評價依靠特定分類模型的算法實作,在建立模型的同時,可以給出各變量重要性的得分值,如PLS-DA方法的VIP統計量等。

為了更加客觀、全面地評價每個變量的重要性,代謝組學研究中一般采取将上述方法結合起來的方式進行變量篩選。比較常見的一種政策是先進行單變量分析,再結合多變量模型中變量重要性評分作為篩選标準,如挑選fdr≤0.05 和VIP>1.5的變量作為潛在生物标志物。

用篩選的潛在生物标志物對外部測試資料集進行預測,評價其預測效果。最後,可以通過研究所學生物标志物的生物學功能和代謝通路,分析不同生物标志物之間的互相作用和關系,進而為探索生物代謝機制提供重要線索和資訊。

Yang Jinglei 等(2013) 即在代謝組學分析中使用fdr≤0.2和VIP>1.5的雙重标準來篩選

精神分裂症

的特異生物标志物,所篩選出的差異代謝物其AUC 在訓練資料中達94. 5%,外部測試資料中達0. 895。