天天看點

從geo資料庫下載下傳資料的幾種方法

作者:雲生信學生物資訊學

爾雲間 一個專門做科研的團隊

原創 小果 生信果

從geo資料庫下載下傳資料的幾種方法

對于從事生物醫學及生物資訊學的人員來說,GEO(Gene Expression Omnibus database)資料庫的重要性大家一定不陌生了吧,GEO資料庫收集了大量表達譜、甲基化、LncRNA、miRNA、拷貝數變異(CNV)等各種晶片資料,并且還存儲了一些二代資料和其他高通量測序資料。

今天小果将帶大家學習如何從GEO資料庫下載下傳你所需要的資料,讓GEO資料庫成為你科研路上重要的助力。

從geo資料庫下載下傳資料的幾種方法

GEO資料庫所包含的資訊

1) GEO Platform (GPL) 晶片平台

2) GEO Sample (GSM) 樣本ID号

3) GEO Series (GSE) study的ID号

4) GEO Dataset (GDS) 資料集的ID号

從geo資料庫下載下傳資料的幾種方法

注:文獻中會提到所用資料集

資料下載下傳

1、方法一

打開GEO官網:Home - GEO - NCBI (nih.gov),輸入GSE編号,點選Search

從geo資料庫下載下傳資料的幾種方法
從geo資料庫下載下傳資料的幾種方法

下拉,選擇Series Matrix File(s)

從geo資料庫下載下傳資料的幾種方法

下載下傳matrix檔案 ,可以下載下傳到本地,也可以通過檔案傳輸的方式在伺服器進行傳輸 wget

https://ftp.ncbi.nlm.nih.gov/geo/series/GSE102nnn/GSE102031/matrix/GSE102031_series_matrix.txt.gz(42M)

如果想要下載下傳原始資料,可以點選Download下面的下載下傳連結進行下載下傳

從geo資料庫下載下傳資料的幾種方法

還可以通過直接查找SRA編号—Send to—File—Runinfo下載下傳csv表格,打開後有一個下載下傳連結可以直接下載下傳

從geo資料庫下載下傳資料的幾種方法
從geo資料庫下載下傳資料的幾種方法

下載下傳完成後您可能有些疑問,我們會得到一個.sra結尾的資料,SRA是壓縮檔案,我們隻要使用fastq-dump進行解壓就能得到原始檔案。

也可以打開網址:Index of / (nih.go11111v):

從geo資料庫下載下傳資料的幾種方法

選擇geo—seris—要選的系列—GSE編号:

從geo資料庫下載下傳資料的幾種方法

2、方法二

通過加裝GEOquery包,使用GEOquery包可以得到對應GEO的表達矩陣,注釋資訊,樣本資訊等。

options()$repos #翻牆
options("repos" c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))#選擇鏡像
options()$BioC_mirror
options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/")
options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))
library(GEOquery)
gset <- getGEO('GSE102031', ##GSE編号
destdir=".",
               AnnotGPL = T,     ## 注釋檔案
               getGPL = T)       ## 平台檔案           
從geo資料庫下載下傳資料的幾種方法

這樣今天的分享就完成了,歡迎大家有問題找小果交流、讨論哦

從geo資料庫下載下傳資料的幾種方法

推薦閱讀

  • 如何使用在GEO資料庫中使用GEO2R
  • 鐵死亡基因的專屬倉庫,FerrDb資料庫
  • 小果教你下載下傳TCGA資料庫中的突變資料
  • GEO資料到底需不需要标準化,看這裡
  • GEO資料庫使用之資料集下載下傳

關注小果,小果将會持續為你帶來更多生信幹貨哦[送心]。

繼續閱讀