天天看點

DeepMind的蛋白質折疊AI解決了50年來的生物學重大挑戰

科學家們表示,谷歌用于預測蛋白質3D形狀的深度學習計劃有望改變生物學。

DeepMind的蛋白質折疊AI解決了50年來的生物學重大挑戰

前言

蛋白質是生命的基石,負責細胞内發生的大部分事情。蛋白質的工作方式和功能由其三維形狀決定-"結構即功能 "是分子生物學的公理。

幾十年來,實驗室實驗一直是獲得良好蛋白質結構的主要途徑。從20世紀50年代開始,利用X射線束射向結晶的蛋白質,并将衍射光轉化為蛋白質的原子坐标的技術,首次确定了蛋白質的完整結構。X射線晶體學産生了絕大部分的蛋白質結構。但是,在過去的十年裡,低溫電鏡已經成為許多結構生物學實驗室青睐的工具。

科學家們長期以來一直想知道,蛋白質的構成部分:一串不同的氨基酸是如何映射出其最終形狀的許多扭曲和褶皺的。研究人員說,在20世紀80年代和90年代,使用計算機預測蛋白質結構的早期嘗試表現不佳。當其他科學家将這些方法應用于其他蛋白質時,發表的論文中對方法的崇高要求往往會被瓦解。

John Moult 和 Krzysztof Fidelis 兩位教授于 1994 年創辦了CASP,每兩年進行一次盲審,以促進蛋白質結構預測方面的新 SOTA 研究。該活動挑戰團隊預測已經用實驗方法解決的蛋白質的結構,但這些蛋白質的結構還沒有被公開。Moult認為這個實驗極大地改善了這一領域。

DeepMind的蛋白質折疊AI解決了50年來的生物學重大挑戰

DeepMind已經取得了不俗的成績,展示了人工智能已經學會了用超人的技術來玩各種複雜的遊戲。但DeepMind的聯合創始人Demis Hassabis一直強調,這些成功隻是邁向更大目标的墊腳石。

DeepMind名為AlphaFold的系統在2018年CASP13上的表現讓該領域的許多科學家大吃一驚,長期以來,該領域一直是小型學術團體的堡壘,但其方法與其他應用AI的團隊大緻相似。

AlphaFold的第一次疊代将被稱為深度學習的AI方法應用于結構和遺傳資料,以預測蛋白質中氨基酸對之間的距離。DeepMind公司的John Jumper說,在沒有調用人工智能的第二步中,AlphaFold使用這些資訊來提出蛋白質應該是什麼樣子的 "共識 "模型,他是該項目的上司者。該團隊試圖以這種方法為基礎,但最終還是碰壁了。是以,它改變了政策,并開發了一個人工智能網絡,該網絡納入了關于決定蛋白質如何折疊的實體和幾何限制的額外資訊。Jumper說,他們還設定了一個更困難的任務:網絡不是預測氨基酸之間的關系,而是預測目标蛋白質序列的最終結構。這是一個複雜程度相當高的系統。

2020年11月30日在兩年一度的蛋白質結構預測挑戰賽中,AlphaFold表現優于其他約100個團隊,DeepMind和長期舉辦的 "蛋白質結構預測關鍵評估"(CASP)競賽的組織者宣布DeepMind的AlphaFold的最新版本AlphaFold2可以準确地預測蛋白質結構,已經破解了生物學的一個重大挑戰。

驚人的準确性

CASP曆時數月,目标蛋白或被稱為域的蛋白部分(共約100個)定期釋出,各團隊有幾周時間送出預測結構。然後,一個獨立的科學家團隊會使用衡量預測蛋白與實驗确定的結構相似度的名額來評估這些預測。評估人員不知道誰在進行預測。

DeepMind的蛋白質折疊AI解決了50年來的生物學重大挑戰

Lupas說,AlphaFold的預測是以 "427組 "的名義到達的,但它的許多條目的驚人準确性使它們脫穎而出。一些預測比其他預測更好,但近三分之二的預測在品質上與實驗結構相當。Moult說,在某些情況下,并不清楚AlphaFold的預測和實驗結果之間的差異是預測錯誤還是實驗的人為因素。

Moult說,AlphaFold的預測與一種名為核磁共振光譜的技術确定的實驗結構比對度很差,但這可能歸結于原始資料如何轉換為模型。該網絡還難以對蛋白質複合物中的單個結構或群體進行模組化,即與其他蛋白質的互相作用會扭曲它們的形狀。

Moult說:與上屆CASP相比,今年各團隊預測的結構更加準确,但大部分的進展可以歸功于AlphaFold。在被認為難度适中的蛋白質上,其他團隊的最佳表現通常在100分的預測準确度上得到75分,而AlphaFold在同樣蛋白上得到90分左右。

DeepMind的蛋白質折疊AI解決了50年來的生物學重大挑戰

Moult說,大約有一半的團隊在總結他們的方法的摘要中提到了 "深度學習",這表明人工智能正在對該領域産生廣泛的影響。其中大部分來自學術團隊,但微軟和中國科技公司騰訊也進入了CASP14。

紐約市哥倫比亞大學的計算生物學家、CASP參賽者Mohammed AlQuraishi渴望挖掘AlphaFold在比賽中的表現細節,并在12月1日DeepMind團隊展示其方法時,了解更多關于系統的工作原理。他強烈預感是,AlphaFold将是變革性的。

蛋白三維結構的快速擷取

AlphaFold預測幫助确定了一種細菌蛋白的結構,Lupas實驗室多年來一直在試圖破解這種結構。Lupas的團隊之前已經收集了原始的X射線衍射資料,但将這些類似羅夏的模式轉化為結構需要一些關于蛋白質形狀的資訊。擷取這些資訊的技巧以及其他預測工具都失敗了。Lupas說:427組的模型在半小時内就給了研究人員結構,而此前研究人員花了十年時間嘗試了所有的方法,"

DeepMind的蛋白質折疊AI解決了50年來的生物學重大挑戰

DeepMind的聯合創始人兼首席執行官Demis Hassabis表示,該公司計劃讓AlphaFold變得有用,以便其他科學家可以采用它。該公司此前公布了AlphaFold第一版的細節,以便其他科學家複制這種方法。AlphaFold可能需要幾天的時間才能得出預測的結構,其中包括對蛋白質不同區域可靠性的估計。Hassabis補充說:研究人員剛剛開始了解生物學家會想要什麼,他認為藥物發現和蛋白質設計是潛在的應用。

2020年初,該公司釋出了對少數SARS-CoV-2蛋白結構的預測,這些蛋白的結構尚未通過實驗确定。加利福尼亞大學伯克利分校的分子神經生物學家Stephen Brohawn說,DeepMind對一種名為Orf3a的蛋白質的預測最終與後來通過冷凍EM确定的蛋白質非常相似,他的團隊在6月份釋出了該結構。

真實世界的影響

AlphaFold不太可能關閉Brohawn等使用實驗方法解決蛋白質結構的實驗室。但這可能意味着,品質較低、更容易收集的實驗資料将成為獲得良好結構的全部需求。一些應用,如蛋白質的進化分析,将蓬勃發展,因為現有基因組資料的海嘯現在可能會被可靠地轉化為結構。

英國欣克斯頓歐洲分子生物學實驗室-歐洲生物資訊學研究所的結構生物學家、過去的CASP評估員Janet Thornton說:這是一個使他開始認為在有生之年不會得到解決的問題。她希望這種方法能夠幫助闡明人類基因組中數千種未解決的蛋白質的功能,并了解人與人之間不同的緻病基因變異。

AlphaFold的表現也是DeepMind的一個轉折點。該公司最著名的是揮舞人工智能掌握圍棋等遊戲,但其長期目标是開發能夠實作廣泛的、類似人類的智能的程式。Hassabis說,應對宏大的科學挑戰,比如蛋白質結構預測,是其人工智能能夠做出的最重要應用之一。他認為這是DeepMind所做的最重要的事情在現實世界的影響方面。

繼續閱讀