NGS資料分析實踐:03. 涉及的常用資料格式[4] - bed和Wiggle/Bigwig/bedgraph格式
- 4. bed格式
- 5. Wiggle/Bigwig/bedgraph格式
-
- 5.1 Wiggle/Bigwig
- 5.2 BedGraph格式
系列文章:
二代測序方法:DNA測序之靶向重測序
NGS資料分析實踐:00. 變異識别的基本流程
NGS資料分析實踐:01. Conda環境配置及軟體安裝
NGS資料分析實踐:02. 參考基因組及注釋庫的下載下傳
NGS資料分析實踐:03. 涉及的常用資料格式[1] - fasta和fastq格式
NGS資料分析實踐:03. 涉及的常用資料格式[2] - sam/bam格式
NGS資料分析實踐:03. 涉及的常用資料格式[3] - gtf/gff格式
測序資料分析中涉及的常用格式:測序得到的是帶有品質值的堿基序列(fastq格式),參考基因組是(fasta格式),用比對工具把fastq格式的序列比對到對應的fasta格式的參考基因序列,就可以産生sam格式的比對檔案。把sam格式的文本檔案壓縮成二進制bam檔案可以節省空間,如果對參考基因組上面的各個區段标記它們的性質,比如哪些區域是外顯子、内含子、UTR等等,這就是gtf/gff格式。如果隻是為了單純描述某個基因組區域,就是bed格式檔案,記錄染色體号以及起始終止坐标,正負鍊即可。如果是記錄某些位點或者區域堿基的變異,就是vcf檔案格式。
fasta/fastq
(測序資料)→
SAM/BAM
(比對)→
gff/gtf
(描述基因組上的結構:坐标&類型)→
Bigwig/Wiggle
(測序深度)→
bed
(描述坐标)→
vcf
(突變資訊)
存儲序列:
fasta/fastq
比對結果顯示的檔案:
sam/bam
展示注釋資訊:
gtf/gff/bed
突變資訊:
vcf
4. bed格式
BED 檔案格式以一種靈活的方式來定義資料行,用來描述注釋的資訊。BED行有3個必須的列和9個額外可選的列。 每行的資料格式要求一緻。

表示基因注釋時,gtf/gff和bed檔案的差別:
(1) gtf/gff檔案一行表示一個exon/CDS等子區域,多行聯合表示一個gene;bed檔案一行表示一個gene;
(2) gtf檔案中堿基位置定位方式是
1-based
,而bed中堿基定位方式是
0-based
且為 half-open,如下圖所示:
注:SAM、VCF、GFF和Wiggle檔案格式都采用了上述1-based坐标系統,而bam、BCFv2、BED等一般采用上述0-based坐标系統。
5. Wiggle/Bigwig/bedgraph格式
sam/bam格式檔案,是把測序reads比對到參考基因組後的檔案。bam/bed格式的檔案主要是為了追蹤reads到底比對到了參考基因組的什麼區域,而UCSC規定的這幾個檔案格式(Wiggle、bigWig和bedgraph),是為了追蹤參考基因組的各個區域的覆寫度、測序深度。這些定義好的檔案,可以無縫連接配接到UCSC的Genome Browser工具裡面進行可視化!
5.1 Wiggle/Bigwig
Wiggle:簡寫為wig,表示基因組上一個區域的信号,可以上傳至UCSC上進行可視化。Wig是一種比較老的格式,展示連續值的資料,比如GC百分比,轉錄組資料等。Wig資料的元素大小必須是一樣的。如果資料大小不一樣,應該使用bedGraph格式,如果資料過大,就轉換為bigWig。
BigWig:簡寫為bw,是wig格式檔案的二進制壓縮版本,可在基因組浏覽器中進行可視化,是UCSC推薦的一種格式。BigWig檔案是由原始的Wig格式通過wigToBigWig工具轉換過來的。
# create the chrom.sizes file for the UCSC database (e.g., hg19).
fetchChromSizes hg19 > chrSize.txt
# Convert wig to big wig:
wigToBigWig input.wig chrSize.txt myBigWig.bw
Wiggle Track Format (
.wig
):http://genome.ucsc.edu/goldenPath/help/wiggle.html
bigWig Track Format(
.bw
) :http://genome.ucsc.edu/goldenPath/help/bigWig.html
BedGraph Track Format (
.bdg
):http://genome.ucsc.edu/goldenPath/help/bedgraph.html
這3種檔案格式都是UCSC規定的,是以它提供了系列工具進行互相轉換,可以直接下載下傳可執行版本程式:http://hgdownload.cse.ucsc.edu/admin/exe/
UCSC資料格式轉換代碼見:http://barcwiki.wi.mit.edu/wiki/SOPs/coordinates
Wig檔案主要由兩部分格式組成:variableStep format和fixedStep format。variableStep format以一個聲明開始,明确了染色體的序号,跨度(span)。後面跟兩列資料,染色體開始的堿基位置,資料的值value(可以了解為覆寫度)。span參數可以将含有相同value的連續堿基包含在一起,使資料更加簡潔。如圖,variableStep format span=150,包含的第一行資料49304701 10.0表示49304701-49304850有相同的value,為10.0。
示例資料:http://genome.ucsc.edu/goldenPath/help/examples/wiggleExample.txt
5.2 BedGraph格式
BedGraph
格式檔案,它是
BED
檔案的擴充,是4列的BED格式,但是需要添加UCSC的Genome Browser工具裡面顯示的屬性,一般就定義有限的幾個屬性即可。
BedGraph,它的trace type和Wig檔案很像,不過後面的資料和bed檔案很類似,後面的四列分别表示染色體序号,起始位置,結束位置和value值。
其餘檔案格式見後續。
參考閱讀:
http://genome.ucsc.edu/FAQ/FAQformat.html
wig、bigWig和bedgraph檔案詳解:http://www.bio-info-trainee.com/1815.html
生信菜鳥團 NGS資料格式之Bigwig/Wiggle
生信寶典 生信分析過程中這些常見檔案的格式以及檢視方式你都知道嗎?
常用生物資訊學格式介紹:http://ju.outofmemory.cn/entry/193943