Trinity是 Broad Institute 和 Hebrew University of Jerusalem 開發的RNA-Seq資料 轉錄組組裝工具,包括三個子產品,
- Inchworn(尺蠖): 将RNA-seq資料組裝成單個轉錄本,通常是主要轉錄亞型的全長轉錄本
- Chrysalis(蛹): 這一步将上一步得到contig進行聚類,對于每個聚類建構完整的德布羅意圖(_de Bruijin_ graph)。每個轉錄本表示的是給定基因或者一組有着共同序列的基因的全部轉錄組成。 之後會根據圖中不相交的點對全部短讀資料進行拆分
- Butterfly(蝴蝶): 并行處理各個圖(graph), 追蹤每個圖中的短讀和配對短讀的路徑,最後報告可變剪切亞型的全長轉錄本,并且區分出旁系同源基因的轉錄本
如果不能了解上面這段話,就嘗試了解下面這張圖吧
當然如果示意圖也讓你不好了解的話,那就直接用軟體吧,反正這些流程圖的目标就是想告訴你,“用我,沒毛病”
軟體安裝用bioconda就行了。
conda create -n Trinity trinity -y
source activate Trinity
運作流程
當你在指令行敲出
Trinity
後,他就會輸出一大堆資訊。那麼多資訊分成3個部分:
- 必須參數:包括
表示輸入序列類型,--seqType
允許使用最大記憶體(一般64G),還有輸入資料的所在位置--max_memory
- 可選參數:包括鍊特異性測序參數
, 線程數--SS_lib_type
, 允許的最低組裝contig長度--CPU
, 是否标準化--min_contig_length
等--no_normalize_reads
- 常見用法說明
Trinity --seqType fq --max_memory 50G \
--left condA_1.fq.gz,condB_1.fq.gz,condC_1.fq.gz \
--right condA_2.fq.gz,condB_2.fq.gz,condC_2.fq.gz \
--CPU 6
# 有基因組引導組裝
Trinity --genome_guided_bam rnaseq_alignments.csorted.bam --max_memory 50G \
--genome_guided_max_intron 10000 --CPU 6
在運作中過程中,需要注意以下幾點
- 品質控制(Quality control)。Trinity的
參數會調用Trimmomatic對資料進行過濾,這一步可以用其他軟體完成。目前的RNA-seq品質也不需要過多的過濾。--trimmomatic
- Trinity中有一個"In silico Read Normalization",用于對read進行标準化,适用于超過300M的資料,預設開啟,可以用--no_normalize_reads關閉。标準化的原因是,由于某些高表達基因會被檢測到很多次,但是對于組裝沒有幫助,是以可以提前剔除。
- 如果基因組中基因密度大(比如說真菌),一些轉錄本可能會在UTR區域有重疊。那麼為了盡可能降低轉錄本的錯誤融合,需要用到--jaccard_clip。對于植物和脊椎動物,就不需要考慮這一步。
輸出解讀
運作結束後,最後的結果是
trinity_out_dir
的
Trinity.fasta
.Trinity将含有相同序列的轉錄本進行聚類,這種聚類可以被粗粗的被認為成一個基因的多個轉錄本。舉個例子
>TRINITY_DN1000|c115_g5_i1 len=247 path=[31015:0-148 23018:149-246]
AATCTTTTTTGGTATTGGCAGTACTGTGCTCTGGGTAGTGATTAGGGCAAAAGAAGACAC
ACAATAAAGAACCAGGTGTTAGACGTCAGCAAGTCAAGGCCTTGGTTCTCAGCAGACAGA
AGACAGCCCTTCTCAATCCTCATCCCTTCCCTGAACAGACATGTCTTCTGCAAGCTTCTC
CAAGTCAGTTGTTCACAGGAACATCATCAGAATAAATTTGAAATTATGATTAGTATCTGA
TAAAGCA
"TRINITY_DN1000|c115" 是Trinity 聚類編号,“g5”是基因編号,“i1”是轉錄亞型編号
評估組裝品質
有如下幾種方法可以評估組裝的品質
- 使用Bowtie/BWA将RNA-seq回貼到組裝的轉錄組上,有80%以上的回帖率就行了。
- 用全長重構蛋白編碼基因去搜尋已知蛋白序列,見 representation of full-length reconstructed protein-coding genes ,
- 使用BUSCO根據保守同源基因進行評估
- 計算E90N50,
- 計算 DETONATE 得分
- 使用 TransRate 評估轉錄組組裝