天天看點

WGCNA分析原理、流程與參數選擇

作者:生信下的科研人

WGCNA(Weighted Gene Co-Expression Network Analysis,權重基因共表達網絡分析)的主要作用是鑒定表達模式相似的基因集合(module)。适用于複雜的轉錄組資料,通過解析基因集合與樣品表型間的聯系,繪制基因集合中基因間的調控網絡并鑒定關鍵調控基因(hub)。廣泛應用于表型性狀與基因關聯的研究。

R包WGCNA有完整的英文版應用教程:

WGCNA分析原理、流程與參數選擇

基因篩選

基因數量最好在一萬以下,五千為宜。篩選标準可以根據需要自行拟定(SangerBox平台可選擇不篩選、方差、平均标準偏差、平均值方案進行篩選)。

WGCNA分析原理、流程與參數選擇

建構基因關系網絡

以基因與基因間的Pearson相關性系數建構基因共表達矩陣。通過權重函數(power,幂指數函數)變換相關系數,形成鄰接矩陣(Adjacency Matrix),将矩陣中元素連續化。通過權重函數得到鄰接矩陣:

aij=power(Sij, β)=|Sij|β

Sij表示基因i和基因j的Pearson相關系數。β:軟門檻值

可以看到其中的基因相關關系,經上述幂函數處理後,強化了強相關性,而相關性弱的取β次幂後,相關性明顯下降。這種處理方式更具有生物意義。

尋找合适β,使基因表達關系符合無标度網絡

無标度網絡(Scale-free network):少數節點具有明顯高于一般點的度被稱為hub,少數hub與其他節點關聯,最終構成整個網絡。它與随機網絡(Random network)的差別是,随機網絡每個節點的度相對平均,而無标度網絡度數高的節點少、度數低的節點多,更符合生物學特征。

無标度拓撲拟合指數(标度獨立性圖)是選擇軟門檻值的依據。在指數=0.9以上的β均可作為軟門檻值,一般預設選擇第一個達到0.9的。下圖第一個達到0.9的是14,是以将β=14作為軟門檻值。如果0.9以上沒有數值,就降低标準,但最低不能小于0.8。

WGCNA分析原理、流程與參數選擇

标度獨立性圖(R2與β)

當程式找不到最優軟門檻值時,可以使用經驗軟門檻值:

WGCNA分析原理、流程與參數選擇

unsigned的邊屬性公式: abs(cor(genex, geney))^β;

signed的邊屬性公式: (1+cor(genex, geney)/2)^β;

sign hybrid的邊屬性公式:cor(genex, geney)^β(if cor>0 else 0)。

計算表達矩陣中度數為k的節點個數的對數值log(k),以及該節點出現的機率對數log(p(k)),對log(p(k))和log(k)作散點圖(二者負相關),對兩者間的相關系數做平方(R2),即得到無标度拓撲拟合指數。

建構基因子產品

用拓撲重疊(topological overlap measure,TOM)計算基因間關聯程度,除了分析兩個基因(i和j)之間的關系,還考慮這兩個基因與其他基因(μ)間的關系:

WGCNA分析原理、流程與參數選擇
WGCNA分析原理、流程與參數選擇

基因子產品的劃分基于基因間的連接配接稀疏性,将TOM矩陣(Similarity)轉化為相異度矩陣(Dissimilarity):

dωij=1-ωij

用基于TOM值的相異度dωij層次聚類建樹(當資料>5000時建議使用分步法)。建樹參數:

子產品大小:即子產品最少基因數目(minModuleSize)。

子產品合并門檻值:即最小合并距離(mincutHeight)。計算子產品特征值,利用特征值建樹,合并距離近的子產品(如Height<0.2)。

敏感性:值越大越敏感(1/2/3/4),鑒定的子產品個數越多。

分析得到子產品特征值(Epigengene,子產品特征向量):子產品内所有基因進行主成分分析(PCA),第一主成分的值即為Epigengene,代表該子產品内基因表達的整體水準。

子產品與表型性狀(臨床特征)關聯分析

子產品與表型

基因顯著性(Gene significance,GS):基因表達與性狀的Pearson相關系數。T檢驗計算差異表達顯著性(P值)。

GS與MM

子產品内分析:鑒定具有高GS和高MM的基因。使用GS和MM,可以識别與某性狀高度相關的基因,以及感興趣子產品中高度相關的成員。

MM:所有基因表達譜與這個子產品Eigengene的相關性,代表這個基因與子產品的相關性。如果絕對值接近1,這個基因就與子產品高度相關。

GS:基因和表型性狀間相關性的絕對值。0表示基因與此性狀不相關,1表示高度相關。如果一個子產品中所有基因都與這個性狀高度相關,那麼這個子產品也與性狀高度相關。

如在深灰色子產品中繪制基因顯著性和子產品成員關系的散點圖。MM-GS圖的每一個點:

WGCNA分析原理、流程與參數選擇

圖中的每一個點代表一個基因,橫坐标表示基因與子產品的相關性,縱坐标表示基因與性狀(MS)相關性,可以看出與性狀高度相關的基因往往是與這個性狀顯著相關的子產品中的重要元素。

鑒定關鍵基因

Hub gene:關鍵基因(連接配接度最多或連接配接多個子產品的基因)。

篩選關鍵基因:GS、MM、TOM值(weight值)大于門檻值(預設0.1)的兩個基因認為相關,然後計算每個基因的連接配接度。即先篩選有足夠強度的關系,然後計算連接配接度。

WGCNA分析原理、流程與參數選擇

下載下傳的網絡的邊、節點資料,可以通過VisANT、Cytoscape、Gephi等軟體繪圖進行可視化。

繼續閱讀