使用DESeq2進行轉錄組原始count标準化和差異分析

轉錄組測序完成後，一般我們會獲得一個原始 read count表達矩陣，其中行是基因，列是樣品。常用的差異分析工具包括limma、edgeR和DESeq2。DESeq2在測序領域使用最為廣泛（google scholar引用高達43284次，edgeR為28076次）。小編今天給大家介紹下我們的線上DESeq2差異分析子產品，小夥伴們可以零代碼進行GEO資料庫表達矩陣的挖掘，後續再利用我們平台的各種繪圖子產品出圖，大大加速了我們的科學研究。

1，打開繪圖頁面

首先，使用浏覽器（推薦chrome或者edge）打開DESeq2差異分析頁面。左側為常見作圖導航，中間為資料輸入框和可選參數，右側為描述和結果示例。也可以在搜尋框中搜尋deseq2，找到分析頁面。http://www.bioinformatics.com.cn/basic_rnaseq_raw_count_differentially_expressed_analysis_by_deseq2_t014

圖1，DESeq2分析頁面

2，示例資料

點選右側“示例資料”連結下載下傳excel格式的示例資料。

圖2. Raw count輸入資料示例

示例raw count矩陣包括8列：第1列是基因id，必需唯一；第2-4列是DHT組3個樣品；第5-8列是Control組4個樣品。

圖3. 比較方案輸入資料示例

示例分組比較方案包括5列：第1列是實驗組的樣品清單，共3個，英文逗号分隔第2列是對照組的樣品清單，共4個，英文逗号分隔第3列是實驗組組名第4列是對照組組名第5列是樣品配對與否，unpaired表示非配對，paired表示配對。例如從1号、2号、3号共三個患者身上分别取癌症樣品cancer1，cancer2，cancer3，對照樣品norm1，norm2，norm3，那麼paired配對比較時，順序不能變，即：1号患者的cancer1，對應1号患者的norm1；2号患者的cancer2對應2号患者的norm2；3号患者的cancer3對應3号患者的norm3。而非配對比較（unpaired）則不考慮這種對應關系。

3，粘貼示例資料

拷貝示例資料中A-H列的raw count資料，粘貼到矩陣輸入框。拷貝J-N列的比較資訊，粘貼到比較輸入框。注意：不是拷貝excel檔案，是拷貝excel檔案裡邊的資料。另外粘貼到輸入框後，格式亂了沒關系，隻要在excel中是整齊的就行。同時資料矩陣中不能有空的單元格，中文字元等。

圖4. 必需輸入-raw count矩陣

圖5. 必需輸入-比較方案

4，修改參數，并送出

我們設定了原始count數之和的過濾最小過濾參數，預設不過濾。

圖6.過濾參數

5，送出獲得結果

粘貼好輸入資料，調整好參數後，點選送出按鈕，約60秒鐘後，會在頁面右側出現結果下載下傳連結。下載下傳并解壓後，可以使用excel打開并利用篩選功能根據fold change和p值篩選差異表達基因，繪制熱圖，火山圖，進行功能富集分析。

圖7.結果下載下傳

結果說明

由于我們未對低表達值進行過濾，是以，輸入矩陣是多少個基因，分析結果也是多少個基因。

第1個sheet是表達譜，包括原始count和标準化count第2+個sheet是差異總表。

圖8. 差異結果

Fold change：兩組間的倍數變化。正表示上調，負表示下調Log2FoldChange：log2轉化的倍數變化。正表示上調，負表示下調Pvalue：p值Padj：校正的p值Regulation：上調或下調*（mean）：各組的标準化表達均值

不同平台互相印證測試

除了閱讀DESeq2官方文檔并使用官方代碼外，我們還使用相同的raw count矩陣測試了其他4個第三方平台：DEApp，基迪奧，歐易，sangerbox。在這5個平台中，微生信的結果和sangerbox完全一樣，而與其他3個平台的結果均略有差異（見圖9）。圖中所示785個基因是4種平台共有的，約占90%以上。

圖9. 4種平台上調結果比較

究其原因，可能主要是内部filter過濾參數不一緻造成的。在DESeq2官方文檔中：While it is not necessary to pre-filter low count genes before running the DESeq2 functions, there are two reasons which make pre-filtering useful: by removing rows in which there are very few reads, we reduce the memory size of the dds data object, and we increase the speed of the transformation and testing functions within DESeq2. It can also improve visualizations, as features with no information for differential expression are not plotted.意思就是過濾低表達量的基因不是必需的，過濾的用途包括：1，減少dds對象記憶體占用，提高計算速度；2，改善可視化。可以使用所有樣品的均值過濾，也可以使用組内樣品的均值進行過濾，在不确定過濾參數的情況下會出現結果差異的現象。雖然我們參考的都是官方文檔，但是由于大家對官方文檔的具體細節處理、具體參數使用等存在差異，是以導緻各個平台的結果略有差異，但是總體相差較小，基本不影響結果。

微生信助力高分文章，使用者58000+，引用750+

使用DESeq2進行轉錄組原始count标準化和差異分析

繼續閱讀

OCP-1Z0-051 補充題庫第34題 COUNT函數

#studyaccount#日記本

oracle關于case when和count結合的用法

Oracle SQL練習之Sum,Count,Decode,Case…When的使用

SparkCore算子（執行個體）之---- 交集、差集、并集（intersection, subtract, union, distinct, subtractByKey）

Allencountersarereuniosafteralongseparation.#故事很長

真搞不懂罵這種詞的人是怎麼想的#countryhumans#ch瓷#曆史#waf事件

#countryhumans#英美#ch英美#原創

MySQL 中的 count 你用對了嗎？性能對比一覽

#努力成為更好的自己#每天學習一點點#每天都要加油鴨#studyaccount#英語

每日一個跨境小知識：Discount Code不同類型定義

大家好，今天給大家講講count的優化。一提到count的優化，大家可能會想到count字段、某個字段或者countid

【Java執行個體】統計String單詞數的三種方法方法一：使用split方法二：使用StringTokenizer方法三：使用原始的char判斷測試代碼總結

Borda count

MySQL　一起重新認識下count(*) ,count(1),count(id)

抱is啊抱is，最近總刷到這個獎牌，受不鳥了遂畫之🐛#countryhumans#美瓷#英法#法英#霓虹