歡迎關注”生信修煉手冊”!
TCGAbiolinks是一個分析處理TCGA資料的R包,通過GDC API來查詢和下載下傳TCGA的資料,同時提供了差異分析,生存分析,富集分析等常見的分析功能,網址如下
http://bioconductor.org/packages/release/bioc/html/TCGAbiolinks.html
這個R包的基本用法如下
1. Query
和線上查詢類似,隻不過是将網頁上的各種可選的屬性變成了對應的參數,基本用法如下所示
以
project
為核心進行查詢, 其他參數用來對資料進行過濾,常用的有以下幾個參數
- datga.category
- data.type
- workflow.type
- experimental.strategy
- platform
- access
以上參數和和網頁上的的各項選擇菜單相對應,示意如下
除此之外,還有幾個重要參數,
legacy
參數的預設值為
FALSE
,表示從harmonized database進行查詢,
TRUE
表示從 GDC legacy archive進行查詢;
barcode
參數用于選擇其中部分樣本的資料。
查詢結果的基本機關為Files, 可以通過以下代碼進行檢視
datatable(getResults(query))
結果是一個html的表格,通過網頁進行檢視,每行代表一個表格,示意如下
2. Download
除了檢視檢索結果外,還可以下載下傳檢索結果,用法如下
這裡分成了兩個步驟,第一步從GDC下載下傳原始資料,可以使用API或者gdc-clinet進行下載下傳, API的速度相對快一點;第二步對原始資料的結果進行整理,從GDC下載下傳的原始資料是每個檔案單獨分開的,需要先對結果進行整理,才可以用于後續分析。以表達譜資料為例,需要進行樣本的合并,樣本ID的轉換等,所有這些都可以通過
GDCprepare
完成。
整理好的結果存放在
data
對象中, 樣本的資訊可以通過如下方式進行檢視
結果示意如下
表達量矩陣的資訊檢視方式如下
結果示意如下
資料下載下傳并整理好之後,就可以進行分析了。不同類型的資料對應的分析方法也不同,具體的分析方法請參考官方文檔。
·end·
—如果喜歡,快分享給你的朋友們吧—