紙上得來終覺淺,絕知此事要躬行。
——陸遊《冬夜讀書示子聿》
小目錄
- 什麼是比對?
- 基因組比對分類及相關軟體
- 相關代碼
-
- BWA
- Bowtie2
- LastZ
- Last
什麼是比對?
比對的英文是alignment,其對應的中文翻譯可以是比對,聯配,對齊,排列等,目前并沒有一個統一的用詞。中文文章中多見比對,聯配。
序列比對就是運用特定的算法找出兩個或多個序列之間産生最大相似度得分的空格插入和序列排列方案。
全基因組比對,顧名思義,就是在全基因組水準進行的序列比對。
基因組比對分類及相關軟體
基因組水準上序列比對可以分為同一物種基因組重測序資料的比對和不同物種間基因組的比對,當然也可以把一個物種的重測序資料比對到另外一個物種的參考基因組上,算是第一類的延伸。
這兩類由于資料性質不同,采用的比對軟體也不一樣。
一般來說,重測序資料比對多采用BWA和Bowtie2;
不同物種間基因組(不同物種的參考基因組)的比對常用共線性比對,如LastZ,此外還有Last。
相關代碼
BWA
#bwa-index建構索引
bwa index genome.fa -p genome
#雙端測序比對(設定線程數為8)
bwa mem -t 8 genome Seq1.fq Seq2.fq > output.sam
Bowtie2
#Bowtie2-build建構索引(設定線程數為8)
bowtie2-build --threads 8 genome.fa genome
#雙端測序比對(設定線程數為8)
bowtie2 -p 8 -x genome -1 Seq1.fq -2 Seq2.fq -S output.sam
LastZ
#不同物種參考基因組比對,輸出結果格式為maf
lastz genome1.fa[multiple] genome2.fa[multiple] --notransition --step=20 --nogapped --format=maf > output.maf
#不同物種參考基因組比對,輸出結果格式為axt
lastz genome1.fa[multiple] genome2.fa[multiple] --notransition --step=20 --nogapped --format=axt+ > output.axt
Last
Last軟體還未進行實踐,相關代碼實作參考Example 9: Compare the human and chimp genomes