天天看點

基因型填充前的質控條件簡介

影響基因型填充準确率的因素有很多,比如分型結果的品質,填充軟體的選擇,reference panel的選擇,樣本量的大小, SNP的密度等等。

為了提高填充的準确率,我們需要在填充前進行品質過濾。對于原始的分型結果,可以根據一些條件進行篩選和過濾,得到高品質的分型結果,用于後續的填充。

分型結果本質上是一張由樣本和SNP位點構成的表格,對應的過濾手段也分成了兩個大的方向,針對SNP位點的過濾和針對樣本的過濾。

這裡的質控條件和GWAS分析的質控條件是一緻的,本文基于case/control的GWAS分析,講解下常用的過濾條件。對于SNP位點的過濾,常用的過濾條件如下

1. missingness

在原始的分型結果中,會有部分分型失敗的位點,稱之為missing data。分型成功的比例稱之為call rate, 根據snp call rate進行過濾的代碼如下

plink \
--noweb \
--file test \
--geno 0.1 \
--out filter           

複制

--geno

指定snp位點分型失敗比例的門檻值,分型失敗的比例大于該門檻值的位點會被過濾掉。

2. Hardy-Weinberg equilibrium

GWAS假設樣本群體是符合哈溫平衡的, 對于不符合哈溫平衡的SNP位點,需要過濾掉。

需要注意的是,哈溫平衡的計算是針對群體的,在case/control中,如果合并一起計算hwe, 該位點的不平衡很可能是由于兩個群體間的差異構成,過濾之後會造成後續分析的假陰性,是以隻需要針對control組的樣本計算hwe, 然後進行過濾就可以了,代碼如下

plink \
--noweb \
--file test \
--hwe 0.000001 \
--out filter           

複制

--hwe

指定哈溫平衡檢驗pvalue的門檻值,小于該門檻值的位點會被過濾掉。

3. minor allele frequency

MAF過低可能是由于分型算法不能夠檢測到對應的allel引起的, 比如測序深度或者熒光信号強度不夠等因素,此時這些位點的分型結果是不太準确的,是以需要過濾。

其次為了能夠有效進行後續的GWAS挖掘,要保證不同allel對應的樣本量的大小。MAF<1%的突變稱之為rare variants, 相比MAF > 5%的common variants, 罕見變異需要更大的樣本量,當樣本量不足時,會造成後續分析的假陽性,是以在樣本量較小的情況下,不能夠有效進行罕見變異的GWAS分析,需要去除。

過濾的代碼如下

plink \
--noweb \
--file test \
----maf 0.01 \
--out filter           

複制

--maf

指定MAF過濾的門檻值,小于該門檻值的位點會被過濾掉。

對于樣本的過濾,常用的過濾條件如下

1. missingness

和SNP的call rate類似,隻是換成了樣本中的比例,過濾的代碼如下

plink \
--noweb \
--file test \
----mind 0.01 \
--out filter           

複制

--mind

指定樣本分型失敗比例的門檻值,分型失敗的比例大于該門檻值的樣本會被過濾掉。

2. gender check

通過樣本的分型結果可以判斷樣本的性别,plink預設F值小于0.2的為女性,大于0.8的為男性,然後與該樣本标記的性别進行比較,如果二者不一緻,則需要去掉該樣本,代碼如下

plink \
--noweb \
--file test \
--check-sex 0.2 0.8 \
--allow-no-sex \
--out gender           

複制

運作成功後輸出一個字尾為genome的檔案,在該檔案中,如果性别一緻顯示OK, 否則顯示PROBLEM。在某些情況下,預設門檻值可能過于嚴格,可以調整check-sex後面的參數。

識别到不一緻的樣本之後,可以将對應的樣本ID整理到一個檔案中,每行一個ID,然後通過下列代碼進行過濾

plink \
--noweb \
--file test \
--remove sample.list \
--out filter           

複制

3. IBD

IBD用于衡量樣本間的親緣關系,親緣關系較近的樣本分型結果非常相似,極端的例子就是重複樣本。GWAS分析的本質是一個無放回的抽樣,需要保證樣本間的獨立性,是以親緣關系較近的樣本需要被去除。計算樣本間IBD距離的代碼如下

plink \
--noweb \
--file test \
--genome \
--allow-no-sex \
--out ibd           

複制

4. heterozygosity and inbreeding

在一個随機交配産生的符合哈溫平衡的群體中, 樣本是具有一定的雜合基因型的,近親繁殖會導緻純合基因型的出現,産生的後代樣本雜合度降低,導緻群體哈溫平衡的偏離,這樣的樣本需要被去除,保證GWAS分析中群體符合哈溫平衡的假設。

另外,雜合度過高的樣本可能是實驗階段混合了兩個樣本的DNA導緻的,是以也需要去除。實際操作中,通過近親系數F來表征, F值的大小與樣本雜合度呈負相關,F值越大,對應雜合度越低。通過下列代碼可以計算樣本的近親繁殖系數

plink \
--noweb \
--file test \
--het \
--allow-no-sex \
--out het           

複制

然後通過F值的分布來确定過濾的條件。

5. population stratification

群體分層指的是在樣本中明顯分成了多個亞群,亞群之間的差異會影響case/control組間差異的判斷,對GWAS分析造成影響。對于群體分層,可以在後續GWAS分析中進行校正,這裡的過濾指的是過濾掉個别明顯偏離的離群值樣本,可以通過主成分分析PCA或者MDS分析來實作,對應的方法比較多,後續在詳細講解。

除了這些過濾條件外,還需要調整SNP的方向,在reference panel中,SNP位點分型結果以參考基因組正鍊上的堿基表示,而在分型結果中會出現既有正鍊又有負鍊的情況,需要統一校正到正鍊上來。

對原始分型結果進行質控,可以提高基因型填充的準确率,進一步保證後續GWAS分析的準确性。