天天看點

MetaboAnalyst的多組學分析

MetaboAnalyst是做代謝的R包,功能十分強大。也開發了​​web版本​​,代謝組學的分析這裡不介紹,主要講講它開發的多組學分析的相關内容。

既然是做代謝的工具,即使是增加了多組學内容,肯定也是以代謝為核心。以代謝組為中心的多組學分析想想無非就是以下幾點:多元變量統計分析、網絡分析、pathway分析以及mGWAS或宏組學等,這個工具就有網絡分析和pathway分析。下面我們一起來試試。

MetaboAnalyst的多組學分析

網絡分析

我們先看看網絡分析。我這裡使用軟體提供的demo資料,點選進去後,會有兩種ID類型供選擇。第一種是代謝物和基因,示例資料來自轉錄組和代謝組的關聯分析;第二種是代謝物和KO的關聯,示例資料來自mGWAS。

MetaboAnalyst的多組學分析

我們先用第一種試下。導入後,資料格式應該是這樣:

MetaboAnalyst的多組學分析

送出後,資料list會和資料庫中的ID進行比對,如代謝物會和HMDB和KEGG中比對(這就需要我們輸入時提供這兩種标準的代謝物ID)。

MetaboAnalyst的多組學分析

輸入的基因ID可以是Symbol,ENTREZID和EnsembleID,同樣地和KEGG資料庫中K編号進行比對。

MetaboAnalyst的多組學分析

輸入的資料如果在資料庫中資訊缺失,會以灰色陰影顯示;如果資料庫中沒有比對,則以紅色陰影顯示。

再試下第二種,預設基因組是K編号,代謝組是HMDB号。

MetaboAnalyst的多組學分析

同樣輸入ID也要比對到資料庫中。是以兩種輸入方法殊途同歸。

MetaboAnalyst的多組學分析
MetaboAnalyst的多組學分析

送出後,會有五種網絡分析供選擇。

MetaboAnalyst的多組學分析

1.KEGG Global Metabolic Network

這是啥子意思呢?其實就是映射到了ko01100(Metabolic pathway)這條基礎通路中。

MetaboAnalyst的多組學分析

映射的圖比較亂,因為這個通路太大了:

MetaboAnalyst的多組學分析

最上邊調整圖形,左上角清單是子通路及其對應的資訊,左下角是選中的子通路的化合物,右邊我圈出的是化合物映射在pathway中的位置。

這個圖我覺得沒什麼太大用,看個人需求吧。

2. Metabolite-Disease Interaction Network

這個網絡是研究代謝物和人類疾病的關聯,關聯資料是從HMDB獲得的。

MetaboAnalyst的多組學分析

可以在這裡下載下傳相應的互相作用檔案(.SIF),導入到Cytoscape中調節。我下載下傳看了下,SIF檔案格式是這樣的:

MetaboAnalyst的多組學分析

沒搞清楚pp指的是什麼。繼續點“Proceed”,檢視下軟體給我們做出的網絡圖。

MetaboAnalyst的多組學分析

我圈出了幾塊内容。界面和上面類似。化合物清單關系增加了點度中心性(degree)和中介中心性(betweenness)。從圖我們可以看出,這種網絡就是闡釋化合物和疾病之間關系的。右邊增加了一些功能探索按鍵,可分為上下調。

3. Gene-Metabolite Interaction Network

基因和代謝物互作網絡,這是基于STITCH資料庫的(專門做小分子互作網絡的資料庫,主要來自Pubmed)。結果和第二種網絡一樣,不再解釋了。也有SIF檔案可供下載下傳。

MetaboAnalyst的多組學分析

4. Metabolite-Metabolite Interaction Network

代謝物和代謝物互作網絡,也是基于STITCH資料庫。略

5. Metabolite-Gene-Disease Interaction Network

代謝物和基因和疾病的互作網絡,就是将上面的網絡結合起來了。

MetaboAnalyst的多組學分析

總結:MetaboAnalyst的網絡分析主要是基于已有資料庫中的資訊,包括和疾病以及小分子互作。沒有相關性(spearman)網絡分析,從輸入的檔案沒有樣本資訊就可看出。不過這種網絡分析比相關性網絡更有生物學含義。

Pathway關聯分析

下面我們看看Pathway的關聯。還是使用軟體提供的示例資料。可以提供多種基因ID輸入,化合物仍隻支援KEGG和HMDB。

MetaboAnalyst的多組學分析

檢查輸入ID。

MetaboAnalyst的多組學分析

參數設定如下:

MetaboAnalyst的多組學分析
MetaboAnalyst的多組學分析
  • 富集分析的方法,超幾何檢驗和fisher精确檢驗都可;
  • 拓撲分析也有三種選項(點度中心性degree、接近中心性closeness和中介中心性betweenness),代謝組的富集分析要用到拓撲分析,拓撲分析旨在根據給定基因或代謝物在途徑中的位置來評估其是否在生物學反應中起重要作用;
  • Pathway資料庫既然是關聯,我們肯定選擇全部(all);
  • 整合的方法有兩種:combine queries将基因和代謝物合并到一個查詢清單中,以針對組合的pathway集進行富集分析(即經典富集分析)。combine p values的方法首先分别對基因和代謝物進行富集分析,然後使用Stouffer方法對各個p值進行權重合并。權重基于映射到該組學資料類型中所有路徑的特征的百分比(即基于路徑空間覆寫率的權重),這種方法僅适用于基因和代謝物均命中的那些pathway。是以我們最好用第一種。

    綜上,我們都用預設的參數就好了。送出後,得到如下結果:

MetaboAnalyst的多組學分析
MetaboAnalyst的多組學分析

上面是圖,下面是表。

首先看第一個圖。典型的KEGG pathway富集氣泡圖。縱軸好了解,P<0.01是門檻值,橫軸的Pathway Impact是什麼意思呢?這裡代謝組的富集分析基于拓撲分析(參考MetPA),我特意查了下,Wiki中的解釋是這樣的​​​https://en.wikipedia.org/wiki/Metabolomic_Pathway_Analysis​​​:​

​MetPA employs a number of topological assessment tools to measure centrality or “hubness” in an objective manner (called Pathway Impact). Pathway impact is a combination of the centrality and pathway enrichment results. It is calculated adding up the importance measures of each of the matched metabolites and then dividing by the sum of the importance measures of all metabolites in each pathway.​

​ 可知這裡富集是按權重來分析的,雖然沒有富集因子那麼簡單粗暴,但含義是大緻一樣的,值越大越好。是以這個圖看來,處于右上角的pathway是最可信的。

點選圖中的點或清單中的名稱是可以點選進入相應的pathway,右圖。不過右圖顯示的不是完整的pathway,而是一部分(看了幾個通路,也不知具體為什麼這麼顯示),點選圖上pathway或表中KEGG,能連結到KEGG官網中。

MetaboAnalyst的多組學分析

左邊是每一步過程,标色表明運作完成。中間是結果,可供下載下傳,但生成報告貌似生成不了,可能有bug吧。右邊是過程代碼,有R基礎的童鞋可試試。

總結:pathway的聯合分析以代謝為主,富集分析方法和傳統方法不同。分析還是有限的,比如表達豐度資訊沒有包含進去。簡單使用,供參考吧。