轉錄組分析是目前應用最廣的高通量測序分析技術之一。常見設計是不同樣品之間比較,尋找差異基因、标志基因、協同變化基因、差異剪接和新轉錄本,并進行結果可視化、功能注釋和網絡分析等。
轉錄組的測序分析也相對成熟,從RNA提取、建構文庫、上機測序再到結果解析既可以自己完成,又可以在專業公司進行。
概括來看轉錄組的分析流程比較簡單,
序列比對
-
轉錄本拼接 (可選)
-
表達定量
-
差異基因
-
功能富集
-
定制分析
。整個環節清晰流暢,可以作為最開始接觸高通量測序學習最合适的技術之一。
但重點和難點在于了解這些過程都是怎麼做的,有什麼需要注意的,結果怎麼解讀,後續分析怎麼做。這些隻有自己動手操作過,才可能有了解。而了解了一個,再去做其它類型分析,也會輕松很多。
實驗設計這塊重要的是對照和至少
3
個生物學重複,并選擇合适的測序通量。
ENCODE
要求重複之間的
Spearman correlation
值大于
0.9
(遺傳背景不一緻的生物重複相關系數要大于
0.8
)。定量基因表達和評估轉錄圖譜相似性隻需要中等測序深度;而研究新轉錄本和可變剪接則需要更深的測序;一般來講長RNA-seq文庫測序深度滿足
可用reads
在
20-30 million
(如果測PE150,換算成堿基數為6G-9G)。
另外一個需要注意的是測序的批次效應,保證自己的樣品同時處理、RNA同時提取、同時建構文庫和上機測序。這些環節雖然不能總受我們控制,但記錄下對應的操作時間和批次,最後在繪制表達圖譜時與實驗相關參數進行
關聯展示
(利用我們介紹的熱圖簡化或高顔值免費線上繪圖工具更新版來了~~~),進而保證結果沒有受到試驗中處理批次的影響。
ENCODE
計劃有一篇文章在比較人和小鼠不同組織的表達譜相似度時得到的結果是樣品按物種而非組織聚在一起,這與之前認為的發育通路的保守性不符。後來發現是測序批次搗的鬼,做了批次效應矯正後,表達圖譜按組織而非物種聚在一起了(高通量資料中批次效應的鑒定和處理 - 系列總結和更新)。
測序環節通常不需要自己操作,測序公司都很成熟,但測序的原理需要知道。這會影響到後續分析時參數的選擇,比如知道什麼是插入片段大小,什麼是鍊特異性測序,什麼情況會有接頭序列,雙端測序如何測等。
獲得資料後,就涉及到資料的傳輸和品質評估(也包括如何從公共資料庫下載下傳資料)和檔案格式的轉換。FASTQ格式解釋和品質評估中有些提及。品質評估的意義在于從測序品質角度評價建庫和測序的成功與否,指導接頭和低品質堿基的去除。這一步參數控制的嚴格與否對後續的比對會有影響,同時也會受到後續分析選擇的工具的影響。對Linux系統一定程度的了解,是進行這些工作的基礎。
39個轉錄組分析工具,120種組合評估(轉錄組分析工具哪家強)中講述了如何選擇、評估合适的比對工具,序列拼裝工具,定量工具和差異分析工具。值得我們在進入正式的分析之前,仔細閱讀。另外類似的評估文章,還有幾篇,都可以一并讀一下,這樣在後期分析時對工具的選擇和使用才更得心應手。
工具比較類文章一般隻告訴你做了什麼,不告訴你這麼做的原因是什麼,而且每一步細分開來又有很多小細節需要注意,比如在比對環節就會涉及到:不同的樣本如何選擇合适的基因組和注釋檔案,什麼樣的軟體支援Junction reads的比對,什麼樣的比對率是合适的,比對品質怎樣,測序中RNA有無降解或選擇偏好性,測序飽和度如何等。
這些可能都不會展現在最終的結果中,但都是確定後期結果可靠性所必須要做的事情。2002年諾貝爾獎得主
Sydney Brenner
曾對資料分析做過提醒
Garbage in, Garbage out
。軟體是死的,提供了格式正确的輸入,就可以得到輸出,但輸出正确與否,就得靠人的經驗來判斷了。
在後面的差異基因鑒定階段,還存在把
FPKM
值轉換為整數再送出給
DESeq2
做分析的,軟體不報錯,但結果不對。或者能順着教程運作
DEseq2
分析,但換成自己的資料就不知道如何下手的 (DESeq2差異基因分析和批次效應移除)。這些問題都需要在實踐過程中持續不斷的試錯、閱讀更多的文章和教程來步步矯正。
做下測試題看看了解多少?
- 120分的轉錄組試題(第一份答案)
- 120分的轉錄組試題(第二份答案)
- 120分的轉錄組試題(第三份答案)
這當然是一個耗時耗力的過程,那麼有沒有一個更好的方式呢?
那就是第十四期進階轉錄組分析和R資料可視化
(部分視訊可在B站空間免費檢視:https://www.bilibili.com/video/BV1rD4y1272a)
基于以往13次轉錄組教育訓練,轉錄組課程内容成熟,可以在最短的時間學會最多的知識。
之前的教育訓練重點都在前面的流程分析,這次做了調整,流程分析整理一個清晰的輸入、輸出架構,包裝好的流程腳本和參數注意,快速實戰操作從源頭。重點調整到後續的定制分析和繪圖,涉及常見GO分析、單細胞轉錄組的聚類分析、配對樣品和時間序列樣品的GSEA富集分析、結合motif預測和轉錄因子ChIP的調控網絡分析、定制化圖形繪制、Cytoscape進行富集分析、調控網絡、通路的可視化,目标基因篩選和可視化, WGCNA權重共表達網絡分析,機器學習,ceRNA網絡。
每部分都提供清晰的思維導圖友善了解輸入、輸出、指令、參數和注意事項。
後續在我們的教育訓練群也會提供長期的免費圖形繪制合作服務,跟大家分享繪圖代碼,一起學習。
第十四期進階轉錄組分析和R資料可視化在于2021年7月30日線上開班,将系統講述基于和不基于比對的轉錄組分析流程,從原始資料到表達矩陣、差異基因、可變剪接、富集分析、權重共表達網絡、通路分析、可視化繪圖,ceRNA,機器學習等一系列常見操作,理論和實踐兼備。
課程大綱
請詳細閱讀課程簡介,如果以下内容您全精通,不必參加此教育訓練。
每節課1小時一個主題,理論結合實戰,學懂原理,實戰實操,全是老司機多年經驗、流程和代碼的無私分享,手把手帶您快速入門、節約寶貴的時間,助力科研成果早日産出。
下面是課程安排,本課程一共3天,每天6節課,共18節課,全部課程均理論與實戰結合(隻要課上講的都是可以學會并自己實作的分析)。如11代表第一天第一節課,26代表第二天第六節課,41為兩周後的不定期線上集中視訊答疑和後續的讨論群永久答疑。
該課程為第13期,經過12次疊代更新,整個過程都比較成熟,可以在最短時間學習最多知識。3天時間,老司機帶您完成自學需要3個月甚至是1年的崎岖之路,助力您真正玩轉轉錄組分析,并根據自己課題的背景優化分析方案。
編号 | 内容 | 簡介 |
---|---|---|
01 | 視訊學習Linux基礎 | 預付後提供學習視訊 |
02 | 視訊學習R基礎 | 預付後提供學習視訊 |
03 | 軟體安裝 | 預付後提供安裝視訊 |
04 | 支付全款 | 提供全部視訊用作預習 |
11 | 轉錄組概述 | 轉錄組設計、應用、批次效應等 |
12 | 轉錄組分析流程簡介 | 基于/不基于比對的分析流程講演 |
13 | Salmon定量實戰 | 不基于比對直接定量基因和轉錄本的表達 |
14 | 差異基因分析 | DESeq2多組差異基因分析、熱圖、火山圖 |
15 | GO富集分析和可視化 | 泡泡圖、熱圖、網絡圖、弦圖 |
16 | GSEA富集分析和可視化 | 分組和時間序列GSEA |
21 | 二代三代測序原理介紹 | 建庫測序過程及注意事項 |
22 | 原始資料比對回基因組 | STAR比對和定量 |
23 | 基于count的差異基因 | 批次效應鑒定和移除 |
24 | Linux下轉錄組環境配置 | Conda軟體安裝、配置 |
25 | 基因組浏覽器資料可視化 | IGV呈現reeads比對、峰圖、Sashimiplot |
26 | 轉錄本拼裝StringTie | 可變剪接分析rMATS |
31 | 文章常見圖表繪制和解讀 | Illustrator制作CNS标準圖版 |
32 | WGCNA基因權重共表達 | 網絡分析和性狀關聯 |
33 | 非編碼lncRNA鑒定 | ceRNA分析 (miRNA-lncRNA-gene調控) |
34 | 無參轉錄組分析 | Trinity組裝 eggnog注釋 |
35 | 轉錄調控分析 | 轉錄調控網絡 |
36 | Marker基因鑒定 | PCA,随機森林 |
41 | 答疑-線上 | 答疑、考試内容串講 |
教程内容簡介如下:
轉錄組分析平台搭建
伺服器平台:沒有軟體的計算機隻是一堆廢鐵,沒有轉錄組分析系統的伺服器也和你的資料分析沒有半毛錢關系。想要搭建整套的轉錄組分析流程,網上的資源即零散、又稀少。易生信團隊将分享多年經驗摸索優秀軟體和布置技巧,并分享全部源代碼,讓你在主流Linux伺服器系統(Ubuntu 16/18.04,CentOS7等主流發行版)上快速布置專注組分析流程依賴的幾十款常用軟體、幾百個依賴的R和Python包,輕松擁有專業分析平台。
個人計算機平台:高通量測序所謂的大資料,都是在原始資料和分析過程中體量大,計算資源需求多,但結果檔案不大。通常轉錄組分析會獲得樣品基因表達表、新轉錄本和非編碼基因,這些表格是下遊分析、進階分析以及個性分析的起點,絕大部分工作在我們的筆記本上是可以搞定的,隻是很多人并不知道如何入手。
其實你的個人電腦就是資料表(豐度矩陣)統計分析的利器。易生信團隊獨創實作了跨平台的分析流程,在大家的Windows筆記本上可以輕松實作轉錄組統計、可視化的絕大多數分析,課程帶你輕松在自己的本本上搭建資料表統計分析與可視化平台,基于目前最主流的Win10進行優化和測試,讓筆記本秒變資料分析可視化平台。
生信基礎知識
有了生信分析平台,如何靈活運用還是要學點獨門絕學的。21世紀最重要的是人才,人才最好掌握三門語言,将讓你人生立于不敗之地,在任何團隊中都是不可或缺的人才。這三門語言就是中文、英文和計算機語言。中文每天都在用在學,英文對于博士也至少接觸了10年以上并能應用于閱讀和寫作文獻,而程式設計語言大家大學階段都學過Visual Basic、Visual Foxpro、或C語言,但能在工作中應用的絕對鳳毛麟角。更何況這些語言在生命科學領域是非常低效的,不提倡學習。
生信中最常用的三類語言是·Shell + R + Python/Perl·,前兩門是基礎,生物學家必要掌握的Shell和R語言基礎知識,保證你完成項目分析。我們在課上将同時講解生物學家必要掌握的Shell和R語言基礎知識,保證你高效、穩定的使用轉錄組分析平台、保證大資料分析和後期可視化至發表階段所需的技能。我們在文後提供了學習視訊供提前預習。
當你利用幾個小時,走進大資料分析和可視化的大門後,你将發現一個全新的世界。很多人會感覺相見恨晚,愛上分析,從此走向人生的快車道。即使你對程式設計不感興趣,這裡面用到的理念也定能讓你受益終身,在今後相關分析中事半功倍,比别人更勝一籌。再說現在連國小生都學Python了,再不會,孩子都帶不好了。
(如果基礎薄弱,報名付款成功後,可免費領取基礎程式課,做好準備工作, 讓程式成為我們的得力工具而不是學習新知識的絆腳石。)
圖表解讀和繪制專題
針對很多老師缺少系統的生信背景,看不懂分析文章圖表,更對繪制各式圖表手足無措的情況,在教育訓練時,我們将結合發表的高水準文章,進一步講解16種常用分析圖的原理和使用範圍,讓你不僅讀懂圖,更知道如何應用于自己的研究,并親自輕松完成繪圖。
針對大家使用R語言繪圖學習時間成本較高的問題,易生信團隊針對常用16種圖開發了免費繪圖網站,一鍵出圖,更可滑鼠點選參數修改圖形的個性樣式。
成果發表是科研過程中不可缺的一部分,發表成果又少不了圖形展示。文章圖表排版是否整齊規範、協調一緻、重點突出對一篇文章的發表也是有不少貢獻的。之前推出的文章發表圖的修改和排版講演了部分圖形編輯和排版操作,本次教育訓練也會實踐從原始圖形、到細節修飾再到排版發表的整個過程和注意事項。
轉錄組進階分析
- WGCNA基因共表達分析,WGCNA基因、表型關聯分析
- Cytoscape繪制ceRNA、轉錄調控、蛋白蛋白互作網絡
- Cytoscape 共表達網絡繪制
- KEGG/Reactome通路圖表達映射
- 基因互作的文獻挖掘和資料庫挖掘展示
- GO/GSEA(普通分組、數量形狀和時間序列)的定制分析
轉錄組的應用、設計和案例分享
轉錄組是很正常的分析,也是入門高通量測序分析的基礎。這部分涵蓋整個高通量測序技術的應用,高通量測序技術的實驗原則包括測序通量、測序批次、測序原理等。
- 轉錄組學研究技術介紹
- 轉錄組學實驗設計和測序原則、注意事項
- 二代、三代測序過程和原了解析
- 轉錄組學文章案例分析
- 線上基因表達資源資料庫
轉錄組分析流程實戰
- 轉錄組分析流程評估
- 測序資料品質評估和清洗
- 不基于比對的差異基因分析
- 基于比對的差異基因分析
- 轉錄本組裝、選擇性剪接分析和非編碼RNA鑒定
- 目标基因GSEA/GO富集分析
學習完本課程,你能得到什麼?
- 深徹了解生物測序資料的基本思想和分析流程
- 進階轉錄組分析和可視化的全套流程
- 應用于各個領域的分析經驗、代碼和發表級别的結果可視化
往期精彩回顧
學員主要來自中國大陸各高校和研究所的院長、教授、副教授、研究所和大學生,也有來自茅台、五糧液、安琪酵母、華為等大廠的科研人員,甚至有海外華人不遠萬裡從美國、歐洲、澳州、紐西蘭、新加坡等地飛來北京參加專題學習研讨會。
主講教師
陳同,博士,2015畢業于中科院遺傳與發育生物學研究所,生物資訊專業博士,在Cell Stem Cell(IF=23.2,第一作者兼封面文章),Nucleic Acids Research X 3,Protein& Cell, Stem Cells and Development等高水準雜志以第一作者或主要作者發表文章,營運有十萬人關注的《生信寶典》微信公衆号,給你不一樣的學習生信體驗。
授課模式
線上線下同步開課,線上采用騰訊會議直播。整個過程都會錄屏,視訊可無限期觀看,供後續反複觀看學習。
本課程以講解流程和實際操作為主,采用獨創四段式教學,封裝好的代碼全部分享,随處可用:
- 第一階段 3天集中授課;
- 第二階段 自行練習2周;
- 第三階段 線上直播答疑;
- 第四階段 教育訓練視訊繼續學習;
- 實作教-練-答-用四個環節的統一協調。
教育訓練時間
每天早9點到晚5點
授課地點
北京市西城區鼓樓附近(鼓樓地鐵站周邊1公裡)。
線上線下同步開課,線上采用騰訊會議直播。整個過程都會錄屏,視訊可無限期觀看,供後續反複觀看學習。
課程價格
- 開課兩周前報名 4500 元/人
- 名額有限,每次課程報名滿40人後自動關閉報名通道
- 提供易漢博基因科技實習機會或工作機會
課程福利
- 線下座位按報名并繳費或預付款成功順序從前到後龍擺尾式排序 (線上直播不排座位)
- 贈送對應課程往期視訊課一份 (http://bioinfo.ke.qq.com)
- 多人 (N,10>N>1) 組團報名并同時繳費,每人還可減免N-1百元 (最高500)
-
線下課程贈送金士頓U盤一個(32G含教育訓練資料和腳本);
線上的教育訓練資料和腳本通過QQ群檔案共享,内容與線下的U盤完全一緻
- 附推薦語分享對應的招生資訊到朋友圈,截圖發到[email protected] 可獲得200元生信寶典騰訊課堂課程優惠券(可拆分供多個課程使用)
-
易生信同時推出多門相關課程,連報優惠——同時選2門課,95折;
三門課9折,4門及以上85折。
還可與團購同時優惠!
擴增子(項目初探)+宏基因組(高精尖),祝你分析水準更上一層樓。
注意事項 *
- 需自備筆記本電腦,推薦使用win10系統,4G以上記憶體(推薦8G)。
- 教育訓練班所有資料,文檔為内部資料,僅供參閱,未經允許不得翻印外傳登刊
- 上課期間禁止錄音,錄像
-
成功付款的學員,若臨時有緊急事情不能到來的,可申請延期,更換後續教育訓練班;
也可申請退款
-
若開課2周 (含) 前申請退款可退還85%費用;
開課3個工作日 (含) 前申請退款退還70%的費用 (若已開發票需承擔相應手續費)
- 不可先延期再退款
更多課程的詳細介紹,請掃描下方二維碼。
易生信同時推出多門相關課程,連報優惠——同時選2門課,95折;三門課9折,4門及以上85折。還可與團購同時優惠!擴增子(項目初探)+宏基因組(高精尖),祝你分析水準更上一層樓。
複制以下連結http://www.ehbio.com/Training/ 或 點選閱讀原文跳轉報名頁,成為實驗中不可或缺的人,趕快報名吧!
(有問題掃碼咨詢;因課程聯系人數較多,若回複不及時請耐心等待;大部分一文也都可在教育訓練網站或報名回複郵件中查詢到)