要了解整個流程,個人覺得可以按資料的四個流程來拆分:高通量測序,準備工作,上遊分析,下遊分析
【什麼是高通量轉錄組測序】
所謂高通量測序技術是什麼?
顧名思義,就是通量很高(對比sanger測序)的測序,一次性可以獲得海量的資料,是以叫高通量測序。
轉錄組是什麼?
轉錄組,一般指的就是某一時空條件下細胞所産生的所有轉錄産物,說人話就是,你的樣品經過了某種處理,然後拿去提了總RNA,這個總RNA就是一個轉錄組。
了解高通量轉錄組測序的關鍵在哪?
首先是建庫,我們建的文庫用的是什麼,rna嗎?不是,那用的是什麼?
cDNA,即rna拿去逆轉錄的産物,為什麼要用DNA而不是RNA?
除了單鍊RNA不穩定外,還有一小部分原因是DNA的建庫流程已經确定了,隻要把RNA變成DNA後面流程完全一樣,可以偷個懶,不過為了節約時間可以在一二鍊合成的時候直接加好接頭,後面就連接配接頭都不用加了,縮短建庫的時間,一天可以輕松完成建庫
其次就是什麼是橋式pcr?

上面就是橋式pcr的流程,簡而言之就是序列接頭(adapter)一端被固定,然後另一端跟反應槽裡的互補序列配對,呈現橋狀,然後再進行pcr,故而稱橋式pcr。
經過n輪橋式pcr之後,一個序列可以擴增到一個歎為觀止的水準,故而通量就非常高了~
最後是測序信号是怎麼得到的?
熒光基團,在所有的堿基上我都接了熒光基團
想更直覺了解的這裡放個illumina的官方介紹
illumina測序原理簡介_哔哩哔哩 (゜-゜)つロ 幹杯~-bilibiliwww.bilibili.com/video/BV1ht411q7Wh?from=search&seid=17159547191666876555正在上傳…重新上傳取消
【準備工作】
首先,我們拿到的原始序列檔案就是fastq,那麼怎麼去了解fastq檔案呢?
ST-E00126:128:HJFLHCCXX:2:1101:7405:1133
TTGCAAAAAATTTCTCTCATTCTGTAGGTTGCCTGTTCACTCTGATGATAGTTTGTTTTGG
+
FFKKKFKKFKF<KK<F,AFKKKKK7FFK77<FKK,<F7K,,7AF<FF7FKK7AA,7<FA,,
上面這裡是一個fastq檔案的格式,每一行代表什麼呢?
第一行就是測序的坐标資訊,即告訴你這條reads的名字是什麼
第二列就是我們測到的序列
第三列就一個加号,沒卵用
第四列,品質資訊,對應着上面各個堿基,測得有多臭,具體多臭下面說怎麼直覺的看
需要了解的就這麼多,如果要仔細了解,看下面這個文章
孟浩巍:20160406 FASTA 與 FASTQ格式詳解227 贊同 · 39 評論文章正在上傳…重新上傳取消
怎麼對測序品質這些東西進行直覺化?
有個東西叫做fastqc的軟體,可以對fq檔案進行質檢,具體怎麼看呢?看這個貼子
孟浩巍:20160410 測序分析——使用 FastQC 做質控327 贊同 · 78 評論文章正在上傳…重新上傳取消
在明白了自己的測序資料有多臭之後,我們就要将資料中低品質的部分全部剔除掉,剔除的軟體有很多,類似Trimmomatic,fastp,cutadapter
一般給定的标準就是清除存在的所有接頭序列,過濾掉q小于20的堿基,去除N堿基大于5%的序列,去除A與T或者C與G含量相差10%的序列,去除切除堿基後過短的序列,這個标準一般通用,具體可以根據自己資料去篩選。
想詳細了解的看這個貼子
孟浩巍:20160420-序列比對前的準備工作92 贊同 · 42 評論文章正在上傳…重新上傳取消
準備工作完成之後,我們就得到了一份高品質的原始資料(clean data),進而正式進入分析工作
【上遊分析】
無論是以前的bowtie2+samtools+cufflinks+deseq2,還是現在轉錄組的當紅炸子雞流程hisat2+stringtie+ballgown,其本質的工作流程其實是一樣的,隻不過使用的算法不同而已。
第一步叫做回帖,這一步是幹嘛的呢?
首先,我們的fastq檔案存儲的資料是一個零散的狀态,那要怎麼樣把它恢複到打斷前的狀态?
這裡我們就需要一個模闆,按照模闆,我們把序列排序,大概就長這個樣子
這裡的ref就是模闆,即參考基因組,而我們的fastq檔案本質就是一條一條的小序列,在模闆的指引下,我們得到了他們原本在基因組上應該在位置,這一步就是回帖的含義。
也即是bowtie2跟hisat2所幹的事。
而關于回帖的細節,可以看這兩篇
孟浩巍:踏踏實實做技術:BWA,Bowtie,Bowtie2的比對算法推導109 贊同 · 13 評論文章正在上傳…重新上傳取消
生信小撰:【生信常識】二代測序的比對算法淺析72 贊同 · 16 評論文章正在上傳…重新上傳取消
回帖完之後,我們的回帖資訊會被輸入到一個文本檔案:SAM檔案(二進制位bam檔案)
sam檔案有個頭檔案,即你看到這張圖前面那樣,存儲着染色體的資訊,還有你之前比對的指令,但這些不是我們需要了解的重點,我們需要來看看下面存儲着什麼?
第一列是什麼?就剛剛fastq檔案的第一列,就是這條reads的名字
第二列是什麼?flag?太複雜了,不記了
第三列?染色體
第四列?染色體的起始位置
第五列?回帖的可信度,即回帖品質
第六列?第七列?看不懂,不管了
後面還有回帖上的序列
總的來看,所謂的sam/bam檔案就是記錄回帖的序列是什麼,回帖上多少,回帖的品質行不行,回帖到什麼位置。
而後就是用cufflinks或者stringtie結合注釋檔案gff/gtf,将轉錄本建構出來。
那麼gff/gtf是什麼?簡而言之,gff就是記錄了這個物種在哪個位置有功能,是gene還是調控因子。
孟浩巍:生物資訊學100個基礎問題 —— 第24題 GFF,GTF到底是什麼?64 贊同 · 3 評論文章正在上傳…重新上傳取消
而cufflinks要做的事情就是将bam檔案的比對資訊跟gff的資訊結合起來,拼出一條轉錄本
bowtie2做的事情是
而cufflinks做的事情則是這個
【下遊分析】
當使用cufflinks建構得到raw count之後,我們就想比較不同處理間的差異在哪,那麼這個時候我們可以直接比較嗎?
當看到我這麼問的時候,肯定就是說不可以。
那麼,為什麼不可以?
拿孟孟之前舉的例子
問題1: 比如我有gene3,有1000條測序reads,gene4有2000條測序reads,那麼我能否說gene4就一定比gene3的表達量高?
問題2: 比如我有gene1,有1000條測序reads,我的另一個處理條件下gene2有2000條測序reads,我能否就說geneA在處理條件下表達量降低了?
圖1 ( Manuel Garber et al., Nature Methods, 2011 )
很明顯,第一個問題,如果兩個基因的長度不一緻,那是無法直接比較的;而第二個問題,我們就需要考慮如何矯正了,而這個矯正值就是所謂的RPKM/FPKM/TPM,關于這些是什麼
請看這個貼子
孟浩巍:生物資訊學100個基礎問題 —— 第35題 RNA-Seq 資料的定量之RPKM和FPKM93 贊同 · 13 評論文章正在上傳…重新上傳取消
孟浩巍:生物資訊學100個基礎問題 —— 第36題 RNA-Seq 資料的定量基本假設以及TPM35 贊同 · 17 評論文章正在上傳…重新上傳取消
當我們将所有的東西放同一個标準下,就可以進行比較了,而比較的時候,即肯定存在兩個組才能進行比較,也就是我們的control跟treatment
以control為标準,比較treatment,我們就知道了差異究竟在哪些基因,即所謂的差異表達
現實計算肯定要複雜的多,但作為粗略了解,這樣會比較容易了解
而當我們得到一堆差異基因之後,就通常要做所謂的富集分析,常見的有GO,KEGG。
以常見基于ORA算法的富集舉例
本質其實就是一個超幾何分布,常見的就是Fisher extract test
算出一個p值即可,然後自選标準,大于多少認為是顯著的,認為某某通路上存在差異表達。
想更具體了解,可以看看這個視訊
【GCModeller教程】基因組功能富集計算原理_哔哩哔哩 (゜-゜)つロ 幹杯~-bilibiliwww.bilibili.com/video/BV1R4411d7xe正在上傳…重新上傳取消
本期内容就到這裡,還望各路大神輕噴,同時歡迎各位大神指點一下哪裡可以寫得很通俗而不失謹慎,友善新入門的小夥伴更好的了解整個分析流程~