天天看點

使用TCGAbiolinks下載下傳TCGA的資料

歡迎關注”生信修煉手冊”!

TCGAbiolinks是一個分析處理TCGA資料的R包,通過GDC API來查詢和下載下傳TCGA的資料,同時提供了差異分析,生存分析,富集分析等常見的分析功能,網址如下

​​http://bioconductor.org/packages/release/bioc/html/TCGAbiolinks.html​​

這個R包的基本用法如下

1. Query

和線上查詢類似,隻不過是将網頁上的各種可選的屬性變成了對應的參數,基本用法如下所示

使用TCGAbiolinks下載下傳TCGA的資料

以​

​project​

​為核心進行查詢, 其他參數用來對資料進行過濾,常用的有以下幾個參數

  1. datga.category
  2. data.type
  3. workflow.type
  4. experimental.strategy
  5. platform
  6. access

以上參數和和網頁上的的各項選擇菜單相對應,示意如下

使用TCGAbiolinks下載下傳TCGA的資料

除此之外,還有幾個重要參數,​

​legacy​

​​參數的預設值為​

​FALSE​

​​,表示從harmonized database進行查詢,​

​TRUE​

​​表示從 GDC legacy archive進行查詢;​

​barcode​

​參數用于選擇其中部分樣本的資料。

查詢結果的基本機關為Files, 可以通過以下代碼進行檢視

datatable(getResults(query))      

結果是一個html的表格,通過網頁進行檢視,每行代表一個表格,示意如下

使用TCGAbiolinks下載下傳TCGA的資料

2. Download

除了檢視檢索結果外,還可以下載下傳檢索結果,用法如下

使用TCGAbiolinks下載下傳TCGA的資料

這裡分成了兩個步驟,第一步從GDC下載下傳原始資料,可以使用API或者gdc-clinet進行下載下傳, API的速度相對快一點;第二步對原始資料的結果進行整理,從GDC下載下傳的原始資料是每個檔案單獨分開的,需要先對結果進行整理,才可以用于後續分析。以表達譜資料為例,需要進行樣本的合并,樣本ID的轉換等,所有這些都可以通過​

​GDCprepare​

​完成。

整理好的結果存放在​

​data​

​對象中,  樣本的資訊可以通過如下方式進行檢視

使用TCGAbiolinks下載下傳TCGA的資料

結果示意如下

使用TCGAbiolinks下載下傳TCGA的資料

表達量矩陣的資訊檢視方式如下

使用TCGAbiolinks下載下傳TCGA的資料

結果示意如下

使用TCGAbiolinks下載下傳TCGA的資料

資料下載下傳并整理好之後,就可以進行分析了。不同類型的資料對應的分析方法也不同,具體的分析方法請參考官方文檔。

·end·

—如果喜歡,快分享給你的朋友們吧—