FastQ

FASTQ是一種存儲了生物序列（通常是核酸序列）以及相應的品質評價的文本格式。

它們都是以ASCII編碼的。現在幾乎是高通量測序的标準格式。

fastq格式是生物資訊分析中最常見的格式之一

通常我們可以将測序的資料分為 雙端測序 和 單端測序
雙端測序的資料含有兩個fastq格式的檔案，單端測序的資料隻有一個fastq格式的檔案

fastq格式的檔案詳解如下圖：

主要分為四行
第一行是用來區分不同reads的一個ID号，一般以 @ 符号開頭，這一行是用來區分不同的 reads ，而這一行本身包含了很多的資訊。

Read Record Header
Flow Cell ID
Lane
Tile
Tile Coordinates
Barcode

第二行是測序的序列，也就是reads的序列
第三行一般是一個 + 号，或者與第一行的資訊相同
第四行是堿基品質值，是對第二行序列的堿基的準确性的描述，一個堿基會對應一個堿基品質值，是以這一行和第二行長度是一樣的，如果不一樣就說明資料有問題

fastq、fasta、sam資料格式FastQfastq與fastaSAM

fastq與fasta

一、關于Fastq

FASTQ是基于文本的，儲存生物序列（通常是核酸序列）和其測序品質資訊的标準格式。其序列以及品質資訊都是使用一個ASCII字元标示，最初由Sanger開發，目的是将FASTA序列與品質資料放到一起，目前已經成為高通量測序結果的事實标準。

二、Fastq的格式

FASTQ檔案中每個序列通常有四行：第一行，序列辨別以及相關的描述資訊，以‘@’開頭；第二行是序列；第三行以‘+’開頭，後面是序列标示符、描述資訊，或者什麼也不加；第四行，是品質資訊，和第二行的序列相對應，每一個序列都有一個品質評分，根據評分體系的不同，每個字元的含義表示的數字也不相同。

例如

@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

三、關于Fasta

Fasta格式也稱為Pearson格式，是一種基于文本用于表示核苷酸序列或氨基酸序列的格式。在這種格式中堿基對或氨基酸用單個字母來編碼，且允許在序列前添加序列名及注釋。

四、Fasta格式

Fasta格式首先以大于号“>”開頭，接着是序列的辨別符；換行後是序列的描述資訊。換行後是序列資訊，檔案每行的字母一般不應超過80個字元。序列中允許存在空格，換行，空行，直到下一個大于号或檔案結束，表示該序列的結束。

>gi|46575915|ref|NM_008261.2| Mus musculus hepatic nuclear factor 4, alpha (Hnf4a), mRNA
GGGACCTGGGAGGAGGCAGGAGGAGGGCGGGGACGGGGGGGGCTGGGGCTCAGCCCAGGGGCTTGGGTGG
CATCCTGGGCCGGGCAGGACAGGGGGCTAAGGCGTGGGTAGGGGAGAATGCGACTCTCTAAAACCCTTGC
CGGCATGGATATGGCCGACTACAGCGCTGCCCTGGACCCAGCCTACACCACCCTGGAGTTTGAAAATGTG
CAGGTGTTGACCATGGGCAATGACACGTCCCCATCTGAAGGTGCCAACCTCAATTCATCCAACAGCCTGG
GCGTCAGTGCCCTGTGCGCCATCTGTGGCGACCGGGCCACCGGCAAACACTACGGAGCCTCGAGCTGTGA
CGGCTGCAAGGGGTTCTTCAGGAGGAGCGTGAGGAAGAACCACATGT

SAM

SAM格式，是一種用于存儲測序序列比對結果的通用格式，以TAB為分割符。SAM格式的設計理念是：靈活存儲所有比對資訊。SAM一般為11列以上，其中前11列為已定義列，12列及以後為可選列，算附加資訊。

由于測序分兩種：單端測序(Single-read)和雙端測序(Paired-end和Mate-pair)。下文SAM格式中read表示Single-read或Paired-end Read1序列，mate表示Paired-end Read2序列。

第一列：read name，read的名字通常包括測序平台等資訊；
第二列：sum of flags，比對flag數字之和，比對flag用數字表示，分别為：

0 read是Single-read且正向比對
1 read是pair中的一條（read表示本條read，mate表示pair中的另一條read）
2 pair一正一負完美的比對上
4 這條read沒有比對上
8 mate沒有比對上
16 這條read反向比對
32 mate反向比對
64 這條read是read1
128 這條read是read2
256 第二次比對
512 比對品質不合格
1024 read是PCR或光學副本産生
2048 輔助比對結果

通過這個和可以直接推斷出比對的情況。假如說标記不是以上列舉出的數字，比如說83=（64+16+2+1），就是這幾種情況值和。

第三列：RNAM，reference sequence name，實際上就是比對到參考序列上的染色體号。若是無法比對，則是*；
第四列：position，read比對到參考序列上，第一個堿基所在的位置。若是無法比對，則是0；
第五列：Mapping quality，比對的品質分數，越高說明該read比對到參考基因組上的位置越唯一；
第六列：CIGAR值，read比對的具體情況，

“M”表示 match或 mismatch；
“I”表示 insert；
“D”表示 deletion；
“N”表示 skipped（跳過這段區域）；
“S”表示 soft clipping（被剪切的序列存在于序列中）；
“H”表示 hard clipping（被剪切的序列不存在于序列中）；
“P”表示 padding；
“=”表示 match；
“X”表示 mismatch（錯配，位置是一一對應的）；

第七列：MRNM(chr)，mate的reference sequence name，實際上就是mate比對到的染色體号，若是沒有mate，則是*；
第八列：mate position，mate比對到參考序列上的第一個堿基位置，若無mate,則為0；
第九列：ISIZE，Inferred fragment size.詳見Illumina中paired end sequencing 和 mate pair sequencing，是負數，推測應該是兩條read之間的間隔(待查證)，若無mate則為0；
第十列：Sequence，就是read的堿基序列，如果是比對到互補鍊上則是reverse completed eg. CGTTTCTGTGGGTGATGGGCCTGAGGGGCGTTCTCN
第十一列：ASCII，read品質的ASCII編碼。
第十二列之後：Optional fields，可選的自定義區域

AS:i 比對的得分
XS:i 第二好的比對的得分
YS:i mate 序列比對的得分
XN:i 在參考序列上模糊堿基的個數
XM:i 錯配的個數
XO:i gap open的個數
XG:i gap 延伸的個數
NM:i 經過編輯的序列
YF:i 說明為什麼這個序列被過濾的字元串
MD:Z 代表序列和參考序列錯配的字元串(例如MD:Z:45A2C3 失配堿基的位點，45,45+2兩個位點失配)
XT:A:U read隻有一個完整比對，U unique
XT:A:R read有一個以上位置完整比對，R repeat
NM:i:2 read有2個堿基mismatch
X0:i:2 read有2個位置完整比對(與XT:A有對應關系)
X1:i:2 read有2個位置以1個堿基失配比對
XA:Z:Chr3,+1530, 50M,0;Chr4,-7568,50M,1 有0/1個堿基失配的詳細比對情況(與XT:A、X0:i、X1:i有對應關系)

參考連結：

https://blog.csdn.net/u014182497/article/details/51691743

https://www.jianshu.com/p/a9deb1adb5a6

https://www.cnblogs.com/emanlee/p/5366610.html

fastq、fasta、sam資料格式FastQfastq與fastaSAM

FastQ

fastq與fasta

SAM

繼續閱讀

使用Biopython讀取fastq檔案使用Biopython讀取fastq檔案

高通量測序領域常用名詞解釋

Aspera/FTP下載下傳SRA/fastq檔案後根據樣本資訊進行批量重命名

bam格式轉換為Fastq/Fasta格式bam格式轉換為Fastq/Fasta格式

生信學習筆記：fastp質控處理生成的report結果解讀fastp report

機器學習裡的歐氏距離

SVG與perl SVG學習筆記

TCGA中的癌症名稱、簡寫和中文名稱

惡性良性腫瘤（Oncology）生物資訊學分析簡介

生物資訊學簡介

生物資訊學分析常用網站

DNA測序技術

關于三代基因測序，你所需要知道的都在這兒！關于三代基因測序，你所需要知道的都在這兒！

＜轉錄組＞對stringtie得到的表達量資料進行整理

miRNA與轉錄組聯合分析

深度學習模型分析人類複雜疾病的準确性