天天看點

使用DESeq2進行轉錄組原始count标準化和差異分析

作者:微生信

轉錄組測序完成後,一般我們會獲得一個原始 read count表達矩陣,其中行是基因,列是樣品。常用的差異分析工具包括limma、edgeR和DESeq2。DESeq2在測序領域使用最為廣泛(google scholar引用高達43284次,edgeR為28076次)。小編今天給大家介紹下我們的線上DESeq2差異分析子產品,小夥伴們可以零代碼進行GEO資料庫表達矩陣的挖掘,後續再利用我們平台的各種繪圖子產品出圖,大大加速了我們的科學研究。

1,打開繪圖頁面

首先,使用浏覽器(推薦chrome或者edge)打開DESeq2差異分析頁面。左側為常見作圖導航,中間為資料輸入框和可選參數,右側為描述和結果示例。也可以在搜尋框中搜尋deseq2,找到分析頁面。http://www.bioinformatics.com.cn/basic_rnaseq_raw_count_differentially_expressed_analysis_by_deseq2_t014

使用DESeq2進行轉錄組原始count标準化和差異分析

圖1,DESeq2分析頁面

2,示例資料

點選右側“示例資料”連結下載下傳excel格式的示例資料。

使用DESeq2進行轉錄組原始count标準化和差異分析

圖2. Raw count輸入資料示例

示例raw count矩陣包括8列:第1列是基因id,必需唯一;第2-4列是DHT組3個樣品;第5-8列是Control組4個樣品。

使用DESeq2進行轉錄組原始count标準化和差異分析

圖3. 比較方案輸入資料示例

示例分組比較方案包括5列:第1列是實驗組的樣品清單,共3個,英文逗号分隔第2列是對照組的樣品清單,共4個,英文逗号分隔第3列是實驗組組名第4列是對照組組名第5列是樣品配對與否,unpaired表示非配對,paired表示配對。例如從1号、2号、3号共三個患者身上分别取癌症樣品cancer1,cancer2,cancer3,對照樣品norm1,norm2,norm3,那麼paired配對比較時,順序不能變,即:1号患者的cancer1,對應1号患者的norm1;2号患者的cancer2對應2号患者的norm2;3号患者的cancer3對應3号患者的norm3。而非配對比較(unpaired)則不考慮這種對應關系。

3,粘貼示例資料

拷貝示例資料中A-H列的raw count資料,粘貼到矩陣輸入框。拷貝J-N列的比較資訊,粘貼到比較輸入框。注意:不是拷貝excel檔案,是拷貝excel檔案裡邊的資料。另外粘貼到輸入框後,格式亂了沒關系,隻要在excel中是整齊的就行。同時資料矩陣中不能有空的單元格,中文字元等。

使用DESeq2進行轉錄組原始count标準化和差異分析

圖4. 必需輸入-raw count矩陣

使用DESeq2進行轉錄組原始count标準化和差異分析

圖5. 必需輸入-比較方案

4,修改參數,并送出

我們設定了原始count數之和的過濾最小過濾參數,預設不過濾。

使用DESeq2進行轉錄組原始count标準化和差異分析

圖6.過濾參數

5,送出獲得結果

粘貼好輸入資料,調整好參數後,點選送出按鈕,約60秒鐘後,會在頁面右側出現結果下載下傳連結。下載下傳并解壓後,可以使用excel打開并利用篩選功能根據fold change和p值篩選差異表達基因,繪制熱圖,火山圖,進行功能富集分析。

使用DESeq2進行轉錄組原始count标準化和差異分析

圖7.結果下載下傳

結果說明

由于我們未對低表達值進行過濾,是以,輸入矩陣是多少個基因,分析結果也是多少個基因。

第1個sheet是表達譜,包括原始count和标準化count第2+個sheet是差異總表。

使用DESeq2進行轉錄組原始count标準化和差異分析

圖8. 差異結果

Fold change:兩組間的倍數變化。正表示上調,負表示下調Log2FoldChange:log2轉化的倍數變化。正表示上調,負表示下調Pvalue:p值Padj:校正的p值Regulation:上調或下調*(mean):各組的标準化表達均值

不同平台互相印證測試

除了閱讀DESeq2官方文檔并使用官方代碼外,我們還使用相同的raw count矩陣測試了其他4個第三方平台:DEApp,基迪奧,歐易,sangerbox。在這5個平台中,微生信的結果和sangerbox完全一樣,而與其他3個平台的結果均略有差異(見圖9)。圖中所示785個基因是4種平台共有的,約占90%以上。

使用DESeq2進行轉錄組原始count标準化和差異分析

圖9. 4種平台上調結果比較

究其原因,可能主要是内部filter過濾參數不一緻造成的。在DESeq2官方文檔中:While it is not necessary to pre-filter low count genes before running the DESeq2 functions, there are two reasons which make pre-filtering useful: by removing rows in which there are very few reads, we reduce the memory size of the dds data object, and we increase the speed of the transformation and testing functions within DESeq2. It can also improve visualizations, as features with no information for differential expression are not plotted.意思就是過濾低表達量的基因不是必需的,過濾的用途包括:1,減少dds對象記憶體占用,提高計算速度;2,改善可視化。可以使用所有樣品的均值過濾,也可以使用組内樣品的均值進行過濾,在不确定過濾參數的情況下會出現結果差異的現象。雖然我們參考的都是官方文檔,但是由于大家對官方文檔的具體細節處理、具體參數使用等存在差異,是以導緻各個平台的結果略有差異,但是總體相差較小,基本不影響結果。

微生信助力高分文章,使用者58000+,引用750+

繼續閱讀