天天看點

文獻解讀|不同基因型填充軟體性能的比較

影響基因型填充效果的因素有很多,比如填充軟體的選擇,reference panel的選擇,樣本個數,SNP的密度或者測序深度等等因素。目前基因型填充的軟體有很多種,每個軟體各有優劣,如何選擇是一個難題。

本篇解讀的文獻标題如下

文獻解讀|不同基因型填充軟體性能的比較

從多個方面系統評估了以下幾種主流的基因型填充軟體的性能,對應的文章連結如下

https://www.karger.com/Article/Pdf/489758

對以下4種主流的基因型填充軟體進行了評估

  1. Begale4.1
  2. Impute2
  3. Shapeit2+Impute2
  4. MACH+Minimac3

每個軟體對應的網址,功能,适合的平台彙總如下

文獻解讀|不同基因型填充軟體性能的比較

評估流程如下所示

文獻解讀|不同基因型填充軟體性能的比較

綜合考慮了以下5個因素

  1. software,選擇了4種常用的填充軟體組合
  2. reference panel,測試樣本來自中國人群,為了比較測試樣本和ref樣本人群的相似性對結果的影響,定義了1000G所有人群1KG_ALL和1000G東亞人群1KG_EAS兩種panel,
  3. SNP density, 以36個SNP位點為視窗,在該視窗内随機剔除固定個數的位點,通過該種方法建立了14種不同的SNP密度梯度
  4. study sample size,建立了如上圖所示的6種不同的樣本個數
  5. sequencing coverage,定義了3種不同的測序深度

在part1中對前3個因素,共4X2X14=112種組合的填充結果進行評估。chr1和chr22的SNP density和填充準确率的結果示意如下

文獻解讀|不同基因型填充軟體性能的比較

可以看到,随着SNP密度的提高,填充準确率逐漸上升,二者呈現正相關關系,在大于200/MB時,斜率上升趨勢變得平緩,說明至少要保證200/MB的snp密度,基因型填充的準确率才有所保障。其次可以發現,impute2的填充準确率最高,而shapeit2+impute2和beagle4.1的準确率接近,mach+minimac3的準确率最低。

chr1中使用不同reference panel的結果如下所示

文獻解讀|不同基因型填充軟體性能的比較

可以看到,reference panel的選擇對impute2的結果幾乎沒有影響,其準确率非常穩定。對于Beagle4.1而言,reference panel的人群和測試人群更接近了,填充準确率反而降低, 可能是由于參照單倍型變少的原因。另外兩個軟體的組合則準确率有所提高,二者的共同點都是存在了pre-phasing步驟,說明選擇和研究樣本相似的reference panel,有助于提高pre-phasing的準确性。

不同軟體運作時間和記憶體消耗的比較結果如下

文獻解讀|不同基因型填充軟體性能的比較

圖a表示運作時間,随着SNP個數的增加,Begale4.1的運作時間顯著增多,其他幾款軟體則變化不大。對于不同的reference panel而言,panel越大,運作時間越長。其中impute2的運作時間最久,beagle4.1的運作時間最短,其次是shapeit2+impute2的組合。

圖b表示記憶體消耗,SNP個數對記憶體消耗的影響不顯著,最直接的影響因素是reference panel的大小,panel越大,記憶體消耗越大。對于不同軟體而言,impute2的記憶體消耗最大,其次是shapeit2+impute2, 記憶體消耗最小的是beagle4.1。

study樣本大小對填充準确率和運作時間的影響如下

文獻解讀|不同基因型填充軟體性能的比較

可以看到,樣本多少對于beagle4.1和impute2的準确率幾乎沒有影響,對shapiet2+impute2則存在顯著影響,樣本越多,準确率越高。在運作時間上,impute2對樣本大小很敏感,樣本越多,運作時間越久,其他兩種軟體的運作時間對樣本大小不敏感。

不同測序深度的填充結果venn圖如下所示

文獻解讀|不同基因型填充軟體性能的比較

文章中指出,impute2填充準确率高,在不考慮硬體資源的情況下,是最佳的基因型填充軟體。