本系列課程學習的文章是:AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors. Nat Commun 2016 Nov 8;7:13347. PMID: 27824034
很容易在文章裡面找到資料位址GSE81916 這樣就可以下載下傳sra檔案
資料下載下傳部分
第一步:在PubMeb上查找文獻

image.png
第二步: 根據文獻的method部分找到RNA-Seq是如何存放的
第三步: 在GEO上查找GSE81916
GEO站點:
https://www.ncbi.nlm.nih.gov/geo/找到了NCBI的SRA工具下載下傳所需要的SRR編号。
GEO網址:
https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE81916分為兩個部分:
- 共同部分: https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=
- 變動部分:GSE81916
FTP網址
ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP075/SRP075747可以分為以下幾個部分
- 所有SRA資料的共同部分: ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant
- reads表示存放reads資料,在FTP可以看到另一個選項是analysis,表示分析結果
- ByStudy表示根據Study進行分類,其他還可以根據實驗
,根據Run,ByExp
.ByRun
- sra/SRP/SRP075/SRP075747: 後面部分都是為了便于檢索。
第四步:通過循環,分别用prefetch下載下傳資料
for i in `seq 48 62`;
do
prefetch SRR35899${i}
done
知識點:如何用循環批量下載下傳資料
注: 資料很大,需要下載下傳很久,這段時間去看文章所用的分析方法。
文章所用方法:
内容主要在Bioinformatic analyses部分
比對:
- 比對軟體:TopHat (v2.0.13)
- 參考基因組:human reference genome (GRCh37/hg19)
- GTF檔案: GTF version GRCh37.70
- 隻保留MQ >30的map結果
- Picard-tools (v1.126): 計算平均插入大小(mean insert sizes)和标準差
read count: 軟體:HTSeq v0.6.0
差異表達分析: DESeq (v3.0)
差異外顯子使用分析: DEXSeq (v3.1)
GO富集分析:DAVID (
http://david.ncifcrf.gov/).
實驗設計:
樣本9-15為mRNA-Seq測序結果,用于分析人類293個細胞(9-11)和小鼠ES細胞(12-15)d的AKAP95敲出影響。
文章到底用RNA-Seq做了那些事情
為了評估AKAP95對AS的全局影響,他們删除了人類293 cell和小鼠ES細胞,通過RNA-Seq和DEXseq 分析找到細胞mRNA的不同外顯子使用。由于DEXseq考慮到了生物學變異,是以對假陽性(False discovery)有可信的控制。在 293 cell 和 ES cell中,AKAPP95 KD都導緻更多地外顯子使用減少,意味着APAP95通過促進外顯子融合調節全局地可變剪切(AS). 他們用PCR-based assay驗證了結果。
文章用了火山圖展示被影響地外顯子,用餅圖可視化多少個外顯子被下調了。Fold change is the ratio of the normalized exon level in AKAP95 KD over that in control cells.
為了證明外顯子使用(exon usage)降低不是因為基因表達量降低導緻的技術偏差,作者從三個角度進行論證
- 工具角度,DEXseq根據基因的總外顯子信号水準标準化每個外顯子信号
- 資料分析,AKAP95 KD的細胞中那些外顯子使用被影響的大部分基因,表達量沒有降低,是以和表達量無關,還用圖證明。Fold change is the ratio of the normalized exon level in AKAP95 KD over that in control cells.
- PCR資料證明
- 小鼠的也是如此
确定可變外顯子使用是AKAP95的直接影響, 他們比較了AKAP95實體靶點(基于AKAP95 RIP-Seq)和功能位點(基于mRNA-Seq)。 那些AKAP95結合到内含子的基因和外顯子使用顯著性變化(AKAP95 KD)的基因顯著性重疊。
邏輯就是: 如果A和B有關,那麼有A就有B, 沒有A就沒有B,且這種關系不是偶然的。
确定AKAP95靶點參與的生物學通路,他們用了基因本體論(GO)分析了AKAP95的功能位點和實體位點。結果揭示那些AKAP95 KD 的293細胞中那些差異外顯子使用的基因,顯著性的富集在chromatin/transcription regulators and RNA processing factors。那些RIP-Seq找到基因也是如此。
綜上, AKAP95可能通過直接和間接調節染色質,轉錄和RNA加工調節全局基因表達。
拓展提高: 寫一個Python腳本下載下傳GEO資料
下載下傳資料的過程無非是根據GEO找到FTP的位址,然後用wget或者prefetch下載下傳而已。在我們今後的生涯裡必然會遇到很多次類似的情況,是以寫個腳本吧。
腳本邏輯很簡單:
- 根據GEO accession找到FTP位址
- 用wget循環下載下傳FTP位址下的資料
考慮到GEO會變,每個人的Python版本也不一樣,我臨時寫的代碼的穩健性不好,是以這裡就不貼代碼了。