天天看點

影響多達21.6萬項研究:流行的遺傳學方法被發現存在嚴重缺陷

根據瑞典隆德大學的最新研究,人口遺傳學中最常用的分析方法存在很大的缺陷。這可能造成了不正确的結果和對種族和遺傳關系的誤解。該方法已被用于數十萬項研究,影響了醫學遺傳學甚至是商業血統測試的結果。這些發現最近發表在《科學報告》雜志上。

收集科學資料的速度正在迅速增加,進而産生了巨大且非常複雜的資料庫,這被稱為 “大資料革命”。研究人員采用統計技術來壓縮和簡化資料,同時保留大部分重要資訊,以使資料更易于管理。主成分分析(Principal Component Analysis,PCA)可能是使用最廣泛的方法。将PCA想象成一個烤箱,面粉、糖和雞蛋作為輸入資料。烤箱可能總是執行同樣的事情,但最終的結果,即蛋糕,在很大程度上取決于成分的比例和它們的混合方式。

影響多達21.6萬項研究:流行的遺傳學方法被發現存在嚴重缺陷
影響多達21.6萬項研究:流行的遺傳學方法被發現存在嚴重缺陷

“人們期望這種方法會給出正确的結果,因為它是如此頻繁地被使用。但它既不能保證可靠性,也不能産生統計學上的穩健結論,”隆德大學分子細胞生物學副教授Eran Elhaik博士說。

根據Elhaik的說法,該方法促成了關于種族和民族的古老信念的發展。它在制造關于人們來自誰和哪裡的曆史故事中發揮了作用,不僅科學界如此,商業性的祖先公司也是如此。一個衆所周知的例子是,在2020年總統競選前,一位著名的美國政治家利用血統測試來支援他們的祖先主張。另一個例子是在PCA結果的驅動下,将阿什肯納茲猶太人誤認為是一個孤立的群體或種族。

“這項研究表明,這些結果是不可靠的,”Eran Elhaik 說。

PCA被用于許多科學領域,但Elhaik的研究側重于它在人口遺傳學中的使用,在人口遺傳學中,資料集規模的爆炸性增長尤為突出,這是由DNA測序的成本降低所推動的。

影響多達21.6萬項研究:流行的遺傳學方法被發現存在嚴重缺陷

在古基因組學領域,我們想了解古代民族和個人,如銅器時代的歐洲人,嚴重依賴PCA。PCA被用來建立一個遺傳圖譜,将未知樣本與已知參考樣本放在一起。到目前為止,未知樣本被認為與它們在地圖上重合或最接近的參考人群有關。

然而, Elhaik發現,僅僅通過改變參考樣本的數量和類型,就可以使未知樣本接近任何參考群體,産生幾乎無窮無盡的曆史版本,所有數學上的"正确",但隻有一個可能是生物學上的正确。

在這項研究中,Elhaik研究了PCA的12種最常見的群體遺傳學應用。他使用了模拟和真實的遺傳資料來顯示PCA的結果是多麼的靈活。根據Elhaik的說法,這種靈活性意味着基于PCA的結論是不可信的,因為參考或測試樣本的任何變化都會産生不同的結果。

僅在遺傳學方面就有32000到21.6萬篇科學文章采用了PCA來探索和可視化個體和種群之間的相似性和差異,并根據這些結果得出結論。

“我認為必須對這些結果進行重新評估,”Elhaik 說。

他希望新的研究能夠開發出一種更好的質疑結果的方法,進而有助于使科學更加可靠。他在過去十年中花了很大一部分時間來開創此類方法,如用于從DNA預測生物地理的地理種群結構和用于改善基因測試和藥物試驗中使用的病例對照比對的配對器。

“提供這種靈活性的技術鼓勵了不良的科學,在一個有強烈的出版壓力的世界裡,這種技術特别危險。如果一個研究人員多次運作PCA,那麼他總是會選擇能産生最佳故事的輸出。”劍橋大學的William Amos教授補充說,他沒有參與這項研究。