前言
本文主要示範GEO資料庫的一些工具,使用的資料是2015年在Nature Communications上發表的文章Regulation of autophagy and the ubiquitin-proteasome system by the FoxO transcriptional network during muscle atrophy.[pubmed:25858807]
作者通過将FoxO1-3-4-floxed小鼠(FoxO1,3,4 f / f)與表達Cre重組酶的轉基因系在MLC1f啟動子的控制下交叉,在肌肉中特異性地産生敲除的FoxO 1,3,4以産生肌肉特異性FoxO1,3,4三重敲除小鼠。這些小鼠要麼自由進食,要麼饑餓,随後分别提取4種情況小鼠的RNA,使用Affymetrix提供的試劑盒并根據标準Affymetrix方案制備,标記并與Affymetrix Mouse Genome 430 2.0 Arrays雜交cRNA,分析腓腸肌的基因表達。
GEO資料庫篩選差異基因
首先,打開NCBI(https://www.ncbi.nlm.nih.gov/),如下圖所示選擇GEO Datasets,輸入GDS5656,點選Search。

點選搜尋到的結果
點選樣品分類号,我們可以看到該研究的詳情,包括文章研究内容、實驗方案設計、樣本詳情等。
點選Analyze with GEO2R,利用線上工具進行資料分析。将4個樣本分成了兩組,分組完畢後,點選save all results,擷取兩組之間的差異表達基因。
得到如下所示的文本内容,将其粘貼到記事本(例如,儲存為result.txt),然後導入到excel中(資料→自文本,選擇result.txt檔案導入),準備進行篩選。
下一步,我們需要對差異表達基因的資料進行進一步的篩選。在這裡,我們将p.value(p值,象征着差異的顯著性)和logFC(log2處理過的fold change值,象征着差異的倍數)設定為: p.value<0.01, logFC<-2 or logFC>2。即差異表達非常顯著,并且差異表達在4倍或-4倍以上(原文使用的是1.5倍門檻值)。具體做法參見下圖。
最後我們可以在EXCEL左下角的狀态欄看到,一共篩選出來738個條目。
使用BioDBnet将geneSybol轉換為Ensembl Gene ID
biodbnet(https://biodbnet-abcc.ncifcrf.gov/db/) db2db工具支援多個資料庫gene id之間轉換
使用BioDBnet将geneSybol轉換為Ensembl Gene ID,下載下傳轉換完的結果
使用KOBAS進行KEGG注釋分析
1. 輸入類型選擇:Ensembl Gene ID
2. 物種選擇:Mus musculus(mouse)
3. 粘貼Ensembl Gene ID清單
4. 資料庫 Clear All取消Pathway、Disease、GO全部選項,隻選擇KEGG Patway
點選RUN
分析結果連結:http://kobas.cbi.pku.edu.cn/result_kobas.php?taskid=181104291408457
下載下傳