影響基因型填充效果的因素有很多,比如填充軟體的選擇,reference panel的選擇,樣本個數,SNP的密度或者測序深度等等因素。目前基因型填充的軟體有很多種,每個軟體各有優劣,如何選擇是一個難題。
本篇解讀的文獻标題如下
![](https://img.laitimes.com/img/__Qf2AjLwojIjJCLyojI0JCLiAjM2EzLcd3LcJzLcJzdllmVldWYtl2PnVGcq5SduJGN4QHcmJGOvwVN0kzM5UTNtUGall3LcVmdhNXLwRHdo9CXt92YucWbpRWdvx2Yx5yazF2Lc9CX6MHc0RHaiojIsJye.jpeg)
從多個方面系統評估了以下幾種主流的基因型填充軟體的性能,對應的文章連結如下
https://www.karger.com/Article/Pdf/489758
對以下4種主流的基因型填充軟體進行了評估
- Begale4.1
- Impute2
- Shapeit2+Impute2
- MACH+Minimac3
每個軟體對應的網址,功能,适合的平台彙總如下
評估流程如下所示
綜合考慮了以下5個因素
- software,選擇了4種常用的填充軟體組合
- reference panel,測試樣本來自中國人群,為了比較測試樣本和ref樣本人群的相似性對結果的影響,定義了1000G所有人群1KG_ALL和1000G東亞人群1KG_EAS兩種panel,
- SNP density, 以36個SNP位點為視窗,在該視窗内随機剔除固定個數的位點,通過該種方法建立了14種不同的SNP密度梯度
- study sample size,建立了如上圖所示的6種不同的樣本個數
- sequencing coverage,定義了3種不同的測序深度
在part1中對前3個因素,共4X2X14=112種組合的填充結果進行評估。chr1和chr22的SNP density和填充準确率的結果示意如下
可以看到,随着SNP密度的提高,填充準确率逐漸上升,二者呈現正相關關系,在大于200/MB時,斜率上升趨勢變得平緩,說明至少要保證200/MB的snp密度,基因型填充的準确率才有所保障。其次可以發現,impute2的填充準确率最高,而shapeit2+impute2和beagle4.1的準确率接近,mach+minimac3的準确率最低。
chr1中使用不同reference panel的結果如下所示
可以看到,reference panel的選擇對impute2的結果幾乎沒有影響,其準确率非常穩定。對于Beagle4.1而言,reference panel的人群和測試人群更接近了,填充準确率反而降低, 可能是由于參照單倍型變少的原因。另外兩個軟體的組合則準确率有所提高,二者的共同點都是存在了pre-phasing步驟,說明選擇和研究樣本相似的reference panel,有助于提高pre-phasing的準确性。
不同軟體運作時間和記憶體消耗的比較結果如下
圖a表示運作時間,随着SNP個數的增加,Begale4.1的運作時間顯著增多,其他幾款軟體則變化不大。對于不同的reference panel而言,panel越大,運作時間越長。其中impute2的運作時間最久,beagle4.1的運作時間最短,其次是shapeit2+impute2的組合。
圖b表示記憶體消耗,SNP個數對記憶體消耗的影響不顯著,最直接的影響因素是reference panel的大小,panel越大,記憶體消耗越大。對于不同軟體而言,impute2的記憶體消耗最大,其次是shapeit2+impute2, 記憶體消耗最小的是beagle4.1。
study樣本大小對填充準确率和運作時間的影響如下
可以看到,樣本多少對于beagle4.1和impute2的準确率幾乎沒有影響,對shapiet2+impute2則存在顯著影響,樣本越多,準确率越高。在運作時間上,impute2對樣本大小很敏感,樣本越多,運作時間越久,其他兩種軟體的運作時間對樣本大小不敏感。
不同測序深度的填充結果venn圖如下所示
文章中指出,impute2填充準确率高,在不考慮硬體資源的情況下,是最佳的基因型填充軟體。