轉錄組分析是目前應用最廣的高通量測序分析技術之一。常見設計是不同樣品之間比較,尋找差異基因、标志基因、協同變化基因、差異剪接和新轉錄本,并進行結果可視化、功能注釋和網絡分析等。
轉錄組的測序分析也相對成熟,從RNA提取、建構文庫、上機測序再到結果解析既可以自己完成,又可以在專業公司進行。
概括來看轉錄組的分析流程比較簡單,
序列比對
-
轉錄本拼接 (可選)
-
表達定量
-
差異基因
-
功能富集
-
定制分析
。整個環節清晰流暢,可以作為最開始接觸高通量測序學習最合适的技術之一。
但重點和難點在于了解這些過程都是怎麼做的,有什麼需要注意的,結果怎麼解讀,後續分析怎麼做。這些隻有自己動手操作過,才可能有了解。而了解了一個,再去做其它類型分析,也會輕松很多。
實驗設計這塊重要的是對照和至少
3
個生物學重複,并選擇合适的測序通量。
ENCODE
要求重複之間的
Spearman correlation
值大于
0.9
(遺傳背景不一緻的生物重複相關系數要大于
0.8
)。定量基因表達和評估轉錄圖譜相似性隻需要中等測序深度;而研究新轉錄本和可變剪接則需要更深的測序;一般來講長RNA-seq文庫測序深度滿足
可用reads
在
20-30 million
(如果測PE150,換算成堿基數為6G-9G)。
另外一個需要注意的是測序的批次效應,保證自己的樣品同時處理、RNA同時提取、同時建構文庫和上機測序。這些環節雖然不能總受我們控制,但記錄下對應的操作時間和批次,最後在繪制表達圖譜時與實驗相關參數進行
關聯展示
(利用我們介紹的熱圖簡化或高顔值免費線上繪圖工具更新版來了~~~),進而保證結果沒有受到試驗中處理批次的影響。
ENCODE
計劃有一篇文章在比較人和小鼠不同組織的表達譜相似度時得到的結果是樣品按物種而非組織聚在一起,這與之前認為的發育通路的保守性不符。後來發現是測序批次搗的鬼,做了批次效應矯正後,表達圖譜按組織而非物種聚在一起了(高通量資料中批次效應的鑒定和處理 - 系列總結和更新)。
測序環節通常不需要自己操作,測序公司都很成熟,但測序的原理需要知道。這會影響到後續分析時參數的選擇,比如知道什麼是插入片段大小,什麼是鍊特異性測序,什麼情況會有接頭序列,雙端測序如何測等。
獲得資料後,就涉及到資料的傳輸和品質評估(也包括如何從公共資料庫下載下傳資料)和檔案格式的轉換。FASTQ格式解釋和品質評估中有些提及。品質評估的意義在于從測序品質角度評價建庫和測序的成功與否,指導接頭和低品質堿基的去除。這一步參數控制的嚴格與否對後續的比對會有影響,同時也會受到後續分析選擇的工具的影響。對Linux系統一定程度的了解,是進行這些工作的基礎。
39個轉錄組分析工具,120種組合評估(轉錄組分析工具哪家強)中講述了如何選擇、評估合适的比對工具,序列拼裝工具,定量工具和差異分析工具。值得我們在進入正式的分析之前,仔細閱讀。另外類似的評估文章,還有幾篇,都可以一并讀一下,這樣在後期分析時對工具的選擇和使用才更得心應手。
工具比較類文章一般隻告訴你做了什麼,不告訴你這麼做的原因是什麼,而且每一步細分開來又有很多小細節需要注意,比如在比對環節就會涉及到:不同的樣本如何選擇合适的基因組和注釋檔案,什麼樣的軟體支援Junction reads的比對,什麼樣的比對率是合适的,比對品質怎樣,測序中RNA有無降解或選擇偏好性,測序飽和度如何等。
這些可能都不會展現在最終的結果中,但都是確定後期結果可靠性所必須要做的事情。2002年諾貝爾獎得主
Sydney Brenner
曾對資料分析做過提醒
Garbage in, Garbage out
。軟體是死的,提供了格式正确的輸入,就可以得到輸出,但輸出正确與否,就得靠人的經驗來判斷了。
在後面的差異基因鑒定階段,還存在把
FPKM
值轉換為整數再送出給
DESeq2
做分析的,軟體不報錯,但結果不對。或者能順着教程運作
DEseq2
分析,但換成自己的資料就不知道如何下手的 (DESeq2差異基因分析和批次效應移除)。這些問題都需要在實踐過程中持續不斷的試錯、閱讀更多的文章和教程來步步矯正。
做下測試題看看了解多少?
- 120分的轉錄組試題(第一份答案)
- 120分的轉錄組試題(第二份答案)
- 120分的轉錄組試題(第三份答案)
這當然是一個耗時耗力的過程,那麼有沒有一個更好的方式呢?
那就是第十二期進階轉錄組分析和R資料可視化
(部分視訊可在B站空間免費檢視:https://www.bilibili.com/video/BV1rD4y1272a)
基于以往11次轉錄組教育訓練,轉錄組課程内容成熟,可以在最短的時間學會最多的知識。
之前的教育訓練重點都在前面的流程分析,這次做了調整,流程分析整理一個清晰的輸入、輸出架構,包裝好的流程腳本和參數注意,快速實戰操作從源頭。重點調整到後續的定制分析和繪圖,涉及常見GO分析、單細胞轉錄組的聚類分析、配對樣品和時間序列樣品的GSEA富集分析、結合motif預測和轉錄因子ChIP的調控網絡分析、定制化圖形繪制、Cytoscape進行富集分析、調控網絡、通路的可視化,目标基因篩選和可視化, WGCNA權重共表達網絡分析。
每部分都提供清晰的思維導圖友善了解輸入、輸出、指令、參數和注意事項。
後續在我們的教育訓練群也會提供長期的免費圖形繪制合作服務,跟大家分享繪圖代碼,一起學習。
第十二期進階轉錄組分析和R資料可視化在于2020年11月27日線上開班,将系統講述基于和不基于比對的轉錄組分析流程,從原始資料到表達矩陣、差異基因、可變剪接、富集分析、權重共表達網絡、通路分析、可視化繪圖等一系列常見操作,理論和實踐兼備。
課程大綱
每節課1小時一個主題,理論結合實戰,學懂原理,實戰實操,全是老司機多年經驗和代碼的無私分享。下面是課程安排,如11代表第一天第一節課,26代表第二天第六節課,41為兩周後的線上集中視訊答疑。
編号 | 内容 | 簡介 |
---|---|---|
01 | 預習Linux基礎 | 預付後提供學習視訊 |
02 | 預習R基礎 | 預付後提供學習視訊 |
03 | 軟體安裝 | 預付後提供安裝視訊 |
11 | 轉錄組概述 | 轉錄組設計、應用、批次效應等 |
12 | 轉錄組分析流程簡介 | 基于/不基于比對的分析流程講演 |
13 | Salmon定量實戰 | 不基于比對直接定量基因和轉錄本的表達 |
14 | 差異基因分析 | DESeq2多組差異基因分析和結果可視化 |
15 | GO富集分析和可視化 | 泡泡圖、熱圖、網圖 |
16 | GSEA富集分析和可視化 | 分組和時間序列GSEA |
21 | 二代三代測序原理介紹 | 建庫測序過程及注意事項 |
22 | R基礎 | 資料讀寫、處理、轉換 |
23 | R資料可視化 | 16種常見圖形繪制實戰 |
24 | Linux基礎 | 詳細解釋Linux代碼和檔案格式轉換 |
25 | 轉錄組環境配置 | Linux下軟體安裝、配置 |
26 | 文章常見圖表繪制和解讀 | Illustrator制作CNS标準圖版 |
31 | 可變剪接分析 | STAR,StringTie,rMATS,IGV |
32 | 可變剪接分析 | STAR,StringTie,rMATS,IGV |
33 | WGCNA基因權重共表達 | 網絡分析和性狀關聯 |
34 | Cytoscape繪制 | 共表達網絡和調控通路網絡圖 |
35 | 每人一個問題環節 | 自評學習效果、知識點回顧 |
41 | 答疑-線上 | 答疑、考試内容串講 |
該課程為第12期,整個過程都比較成熟,可以在最短時間學習最多知識。
看看往期學員對我們的評價吧。
教程内容簡介如下:
轉錄組的應用、設計和案例分享
- 轉錄組學研究技術介紹
- 轉錄組學實驗設計和測序原則、注意事項
- 二代、三代測序過程和原了解析
- 轉錄組學文章案例分析
- 線上基因表達資源資料庫
轉錄組分析流程實戰
- 轉錄組分析流程評估
- 測序資料品質評估和清洗
- 不基于比對的差異基因分析
- 基于比對的差異基因分析
- 轉錄本組裝和選擇性剪接分析
- 目标基因GSEA/GO富集分析
轉錄組進階分析
- WGCNA基因共表達分析
- WGCNA基因、表型關聯分析
- Cytoscape 共表達網絡繪制
- 轉錄組常見圖形線上繪制
- KEGG/Reactome通路圖繪制,表達映射
- 基因互作的文獻挖掘和資料庫挖掘展示
常見圖表解讀和圖形編輯排版
在教育訓練上,結合發表高水準文章,進一步講解16種常用分析圖的原理和使用範圍,讓你不僅讀懂圖,更知道如何應用于自己的研究,并親自輕松完成繪圖。
針對大家使用R語言繪圖學習時間成本較高的問題,易生信團隊針對常用16種圖開發了免費繪圖網站,一鍵出圖,更可滑鼠點選參數修改圖形的個性樣式。
成果發表是科研過程中不可缺的一部分,發表成果又少不了圖形展示。文章圖表排版是否整齊規範、協調一緻、重點突出對一篇文章的發表也是有不少貢獻的。之前推出的文章發表圖的修改和排版講演了部分圖形編輯和排版操作,本次教育訓練也會實踐從原始圖形、到細節修飾再到排版發表的整個過程和注意事項。基因組浏覽器用于多組學資料的可視化和關聯分析,本地有IGV,線上有UCSC genome Browser和Epigenomebrowser,各有特色。
生信基礎知識
- Linux/Windows下Rstudio和Linux指令的使用
- Linux/Windows下轉錄組分析流程的搭建
生物學家必要掌握的Shell和R語言基礎知識。
這個為生信學習和生信作圖打造的開源R教程真香!!!
這個為生信學習打造的開源Bash教程真香!!(目錄更新)!
(如果基礎薄弱,報名付款成功後,可免費領取基礎程式課,做好準備工作, 讓程式成為我們的得力工具而不是學習新知識的絆腳石。)
定制内容
如果您看到文章中有哪些圖或分析工作需要重制,也請提出,一起講述。
如果您有其它關注的問題,也請報名時提出,把這次課程變成您的定制講解。
- 120分的轉錄組試題(第一份答案)
- 120分的轉錄組試題(第二份答案)
- 120分的轉錄組試題(第三份答案)
授課模式
本課程以講解流程和實際操作為主,采用獨創四段式教學,封裝好的代碼全部分享,随處可用:
- 第一階段 3天集中授課;
- 第二階段 自行練習2周;
- 第三階段 線上直播答疑;
- 第四階段 教育訓練視訊繼續學習;
- 實作教-練-答-用四個環節的統一協調。
教育訓練時間
每天早9點到晚5點
授課地點 (暫定,鼓樓附近)
北京市西城區鼓樓附近(鼓樓地鐵站周邊1公裡)。
課程價格
- 開課兩周前報名 4500 元/人 (報名官網檢視更多優惠)
- 名額有限,每次課程報名滿40人後自動關閉報名通道
- 提供易漢博基因科技實習機會或工作機會
課程福利
- 座位按報名并繳費或預付款成功順序從前到後龍擺尾式排序
- 贈送價值99元程式基礎課一份 (http://bioinfo.ke.qq.com)
- 多人 (N,10>N>1) 組團報名并同時繳費,每人還可減免N-1百元 (最高500)
- 贈送金士頓U盤一個(32G含教育訓練資料和腳本)
- 附推薦與分享對應的招生資訊到朋友圈,截圖發到[email protected] 可獲得200元生信寶典騰訊課堂課程優惠券(可拆分供多個課程使用)
- 易生信同時推出多門相關課程,連報優惠——同時選2門課,95折;三門課9折,4門及以上85折。還可與團購同時優惠!擴增子(項目初探)+宏基因組(高精尖),祝你分析水準更上一層樓。
複制以下連結
http://www.ehbio.com/Training/ 或
點選閱讀原文跳轉報名頁
易生信系列教育訓練課程,掃碼擷取免費資料
更多閱讀
畫圖三字經 生信視訊 生信系列教程
心得體會 TCGA資料庫 Linux Python
高通量分析 免費線上畫圖 測序曆史 超級增強子
生信學習視訊 PPT EXCEL 文章寫作 ggplot2
海哥組學 可視化套路 基因組浏覽器
色彩搭配 圖形排版 互作網絡
自學生信 2019影響因子 GSEA 單細胞
背景回複“生信寶典福利第一波”擷取教程合集