爾雲間 一個專門做科研的團隊
原創 小果 生信果
對于從事生物醫學及生物資訊學的人員來說,GEO(Gene Expression Omnibus database)資料庫的重要性大家一定不陌生了吧,GEO資料庫收集了大量表達譜、甲基化、LncRNA、miRNA、拷貝數變異(CNV)等各種晶片資料,并且還存儲了一些二代資料和其他高通量測序資料。
今天小果将帶大家學習如何從GEO資料庫下載下傳你所需要的資料,讓GEO資料庫成為你科研路上重要的助力。
GEO資料庫所包含的資訊
1) GEO Platform (GPL) 晶片平台
2) GEO Sample (GSM) 樣本ID号
3) GEO Series (GSE) study的ID号
4) GEO Dataset (GDS) 資料集的ID号
注:文獻中會提到所用資料集
資料下載下傳
1、方法一
打開GEO官網:Home - GEO - NCBI (nih.gov),輸入GSE編号,點選Search
下拉,選擇Series Matrix File(s)
下載下傳matrix檔案 ,可以下載下傳到本地,也可以通過檔案傳輸的方式在伺服器進行傳輸 wget
https://ftp.ncbi.nlm.nih.gov/geo/series/GSE102nnn/GSE102031/matrix/GSE102031_series_matrix.txt.gz(42M)
如果想要下載下傳原始資料,可以點選Download下面的下載下傳連結進行下載下傳
還可以通過直接查找SRA編号—Send to—File—Runinfo下載下傳csv表格,打開後有一個下載下傳連結可以直接下載下傳
下載下傳完成後您可能有些疑問,我們會得到一個.sra結尾的資料,SRA是壓縮檔案,我們隻要使用fastq-dump進行解壓就能得到原始檔案。
也可以打開網址:Index of / (nih.go11111v):
選擇geo—seris—要選的系列—GSE編号:
2、方法二
通過加裝GEOquery包,使用GEOquery包可以得到對應GEO的表達矩陣,注釋資訊,樣本資訊等。
options()$repos #翻牆
options("repos" c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))#選擇鏡像
options()$BioC_mirror
options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/")
options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))
library(GEOquery)
gset <- getGEO('GSE102031', ##GSE編号
destdir=".",
AnnotGPL = T, ## 注釋檔案
getGPL = T) ## 平台檔案
這樣今天的分享就完成了,歡迎大家有問題找小果交流、讨論哦
推薦閱讀
- 如何使用在GEO資料庫中使用GEO2R
- 鐵死亡基因的專屬倉庫,FerrDb資料庫
- 小果教你下載下傳TCGA資料庫中的突變資料
- GEO資料到底需不需要标準化,看這裡
- GEO資料庫使用之資料集下載下傳
關注小果,小果将會持續為你帶來更多生信幹貨哦[送心]。