天天看點

《自然》深度:人工智能預測蛋白結構,這一革命性技術将走向何方?

▎藥明康德内容團隊編輯

去年7月,DeepMind公司在《自然》雜志上發表了人工智能(AI)系統AlphaFold根據氨基酸序列預測蛋白質三維結構的研究。研究人員同時釋出了AI系統的源代碼,讓這一技術能夠為廣大科學家和研究人員使用。自從文章發表以來,AlphaFold在生命科學領域掀起了前所未有的熱潮。很多人将它稱為改變遊戲規則的科學突破。近日,《自然》雜志的一篇深度文章對AlphaFold對生命科學領域的變革性影響和未來進行了闡述。在今天這篇文章裡,藥明康德内容團隊将與讀者分享文章的精彩内容。點選文末“閱讀全文/Read more”,即可通路《自然》官網,閱讀全文。

《自然》深度:人工智能預測蛋白結構,這一革命性技術将走向何方?

驚豔的成功

在2020年,AlphaFold人工智能系統在國際蛋白質結構預測競賽(CASP)上擊敗其餘的參會選手,精确地基于氨基酸序列,預測蛋白質的3D結構。其準确性可與使用冷凍電子顯微鏡(CryoEM)、核磁共振或X射線晶體學等實驗技術解析的3D結構相媲美。當時,這一突破被多家媒體稱為“變革生物科學和生物醫學”的突破。前基因泰克(Genentech)首席執行官Arthur D. Levinson博士稱這一成就為“劃時代的進步”(once in a generation advance)。

在2021年7月,描述AlphaFold和RoseTTAFold人工智能系統的論文在《科學》和《自然》上發表,并且提供了開源的源代碼和相關資訊,讓科學家們能夠使用這些工具。一周後,DeepMind宣布,AlphaFold預測出98.5%的人類蛋白結構,以及20種模式生物(比如小鼠、果蠅和大腸杆菌)的蛋白結構,将超過36.5萬個蛋白結構存放到與歐洲生物資訊研究所(EMBL-EBI)合作建構的公開資料庫中。這一資料庫目前儲存的蛋白結構已經達到了接近100萬個。

而今年,DeepMind計劃釋出超過1億種結構預測,這接近所有已知的蛋白數目的一半,比已經通過實驗手段确定的蛋白結構數目多出幾百倍!

根據DeepMind的統計,如今已經有超過40萬人使用了EMBL-EBI的AlphaFold資料庫。它對生命科學的哪些領域産生了重大影響?

《自然》深度:人工智能預測蛋白結構,這一革命性技術将走向何方?

圖檔來源:123RF

解析蛋白結構

AlphaFold解析蛋白結構的能力已經讓很多生物學家們信服。隻要蛋白會折疊成單一的固定三維構象,AlphaFold的預測很難被超越。斯德哥爾摩大學(Stockholm University)的蛋白生物資訊學家Arne Elofsson博士表示,“這是一個一鍵式的解決方案,可能提供你想要的最佳模型。”

即使在AlphaFold不太确信的地方,“它也非常善于告訴你它什麼時候不起作用”,Elofsson博士說。在這種情況下,預測的結構有些像浮動的面條。這通常對應于缺乏确定構象的蛋白區域。這種内在無序的區域約占人類蛋白質組的三分之一,隻有當另一種分子(如信号夥伴)存在時才可能被明确定義。

《自然》深度:人工智能預測蛋白結構,這一革命性技術将走向何方?

▲AlphaFold準确預測的蛋白結構(a)和不能準确預測的蛋白結構(b和c)(圖檔來源:參考資料[5])

AlphaFold存儲到EMBL-EBI資料庫中的蛋白結構也已經立刻得到了應用。倫敦大學學院的Christine Orengo博士團隊正在對其進行搜尋,在未通過實驗驗證的情況下,發現新的蛋白類型。他們已經發現了成百上千個潛在的新蛋白家族,擴充了科學家們對蛋白形态和功能的了解。該研究團隊的另一個項目是挖掘從海洋和廢水中收獲的DNA序列資料庫,試圖發現新的降解塑膠的蛋白酶。利用AlphaFold快速預測成千上萬蛋白的結構,研究人員希望更好地了解酶如何通過進化分解塑膠,并潛在對其進行改進。

哈佛大學進化生物學家Sergey Ovchinnikov博士說,将任何編碼蛋白的基因序列轉變為可靠結構的能力為進化研究提供了強大的工具。研究人員通常通過比較基因序列,确定物種之間的相關性。對于親緣關系較遠的基因,DNA序列比較可能無法找到進化上的親緣關系,因為序列已經發生很大的變化。但是蛋白結構與基因序列相比變化較慢,通過比較蛋白結構,研究人員可能發現被忽視的古老關聯。“這為研究蛋白的進化和生命起源開辟了一個驚人的機會。”瑞士聯邦理工學院(Swiss Federal Institute of Technology)計算生物學家Pedro Beltrao博士說。

賦能科學實驗

對于要确定特定蛋白詳細結構的科學家來說,AlphaFold的預測不一定馬上提供解決方案。然而,它提供了一個可以通過實驗驗證或改進的初始模型,它本身有助于了解實驗資料。例如,X射線晶體學的原始資料是X射線的衍射圖案。通常情況下,科學家需要對蛋白的結構進行初步猜測來解釋這些圖案。英國劍橋大學的結構生物學家Randy Read博士表示,以前他們需要通過拼湊公開蛋白資料庫中相關蛋白的資訊或使用實驗方法來确定最初的蛋白模型。現在,AlphaFold的預測使科學家無需這一政策就可以解析大多數X射線衍射圖案。

Read博士和其他研究人員已經利用AlphaFold從X射線資料中确定了晶體結構,這些晶體結構在沒有足夠的起始模型的情況下無法解析。“人們正在解析多年來一直未能解析的結構。”Read實驗室的前博士後Claudia Millán Nebot博士說,她預計将會看到大量新蛋白質結構送出到公開資料庫,很大程度上是由于AlphaFold。

《自然》深度:人工智能預測蛋白結構,這一革命性技術将走向何方?

圖檔來源:123RF

專攻利用冷凍電鏡捕獲快速冷凍蛋白圖檔的實驗室也能從中獲益。北卡羅來納大學教堂山分校結構生物學家和藥理學家Bryan Roth博士表示,有些情況下AlphaFold的模型準确地預測了G蛋白偶聯受體(GPCRs)的獨特特征。它們是重要的藥物靶标。他說:“AlphaFold在生成第一個模型方面表現很好,然後我們用實驗資料對其進行了完善,這為我們節省了時間。”

但Roth博士補充道,AlphaFold并不總是那麼準确。在某些情況下,AlphaFold以很高的置信度标記了結構預測,但實驗資料顯示它是錯誤的。即使軟體得到了正确的結果,它也無法模拟蛋白質與藥物或其他小分子(配體)結合時的樣子,這些小分子可以實質性地改變蛋白結構。

在藥物發現工作中,研究人員越來越常見地使用計算對接軟體來篩選數十億個小分子,以找到可能與靶點蛋白結合的分子,這表明它們可能成為有用的藥物。Roth博士現在正與加州大學舊金山分校的藥物化學家Brian Shoichet博士合作,比較AlphaFold的預測與實驗确定的結構。

Shoichet博士說,他們将工作限制在AlphaFold的預測與實驗确認的結構相吻合的蛋白質上。然而即使在這些情況下,已有的對接軟體和AlphaFold也會找出不同的化合物。他的團隊現在正在合成利用AlphaFold預測的結構發現的潛在藥物,并在實驗室中檢驗它們的活性。

幫助藥物發現

Shoichet博士說,生物醫藥和生物技術公司的研究人員對AlphaFold幫助藥物發現的潛力感到興奮。2021年11月,DeepMind推出了IsoMorphic Labs,旨在将AlphaFold和其他AI工具應用于藥物發現。

Schr dinger公司療法開發負責人Karen Akinsanya博士表示,她的團隊已經在利用AlphaFold結構進行虛拟篩選和候選藥物的設計方面取得了一些成功。在有些情況下,AlphaFold提供的結構已經可以指導藥物發現。不過,“很難說它是一種靈丹妙藥,因為在一種結構上你可能做得非常好,但是這不意味着它可以類推到所有結構。“Akinsanya博士說。在藥物發現方面,AlphaFold提供的結構永遠不會完全取代實驗獲得的結構,但它們可能與實驗手段相輔相成,加快藥物開發的過程。

《自然》深度:人工智能預測蛋白結構,這一革命性技術将走向何方?

圖檔來源:123RF

AlphaFold的局限

雖然AlphaFold取得了飛速進展,但是科學家們表示,清楚它的局限性非常重要,尤其是現在并不專攻蛋白結構預測的研究人員也在使用它。

科學家們曾嘗試使用AlphaFold推測錯義突變(包括與早期乳腺癌相關的基因突變)對蛋白結構的影響,結果顯示該軟體尚沒有預測新突變對蛋白影響的能力。

AlphaFold的團隊現在正在思考如何設計一個神經網絡來處理新突變。DeepMind的科學家John Jumper博士預計這需要該網絡更好地預測一個蛋白如何從未折疊狀态轉變為折疊狀态。哥倫比亞大學計算生物學家Mohammed AlQuraishi博士表示,這可能需要僅依靠在蛋白實體學方面學到的知識來預測結構的軟體。他說:“我們感興趣的一件事是,如何在不使用進化資訊的情況下,從單一序列做出預測。這是一個仍然懸而未決的關鍵問題。”

AlphaFold的設計是用來預測單一結構,但許多蛋白具有多種構象,這對它們的功能可能很重要,而且AlphaFold預測的是孤立的蛋白結構,很多蛋白與包括DNA、RNA、脂肪分子和礦物質在内的配體結合在一起行使功能。

AlphaFold的未來

雖然AlphaFold的設計是用來預測單一結構,但是當DeepMind公布其源代碼之後,科學家們很快發現了讓它預測蛋白之間互相作用的方法。在AlphaFold代碼公布後幾天,東京大學的蛋白生物資訊學家Yoshitaka Moriwaki博士就發現,如果用一個長連接配接序列将兩個蛋白序列拼接在一起,AlphaFold可以準确預測它們的互相作用。

在2021年10月,DeepMind釋出了一項名為AlphaFold-Multimer的更新,這一系統經過特别訓練用于識别蛋白複合體。DeepMind的團隊用它來識别公開蛋白資料庫中的上千種複合體,發現它能夠預測大約70%的已知蛋白間互相作用。

這些工具已經在幫助研究人員發現新的結合蛋白。斯德哥爾摩大學Arne Elofsson博士的團隊近日在Nature Communications上發表的論文中,利用AlphaFold與實驗資料相結合,預測了65000種可能互相作用的蛋白對(protein pairs)的結構。

這些虛拟篩選為進一步實驗提供了良好的起點。“看起來好看并不意味着它是對的,” Elofsson博士說,“你需要實驗資料來表明你是對的。”

《自然》深度:人工智能預測蛋白結構,這一革命性技術将走向何方?

華盛頓大學David Baker教授的團隊利用AlphaFold和RoseTTAFold對酵母表達的所有蛋白對之間的互相作用進行了模拟,發現了超過100種此前不知道的互相作用。

近日,Baker教授團隊在《自然》雜志上發表的論文再進一步,利用預測蛋白結構的算法,研究團隊隻需要知道靶點蛋白的結構資訊,就能夠發現與它們以高親和力結合的迷你蛋白(miniproteins)。Baker教授表示,這一發現有望帶來藥物發現和分子生物學的範式改變。

《自然》深度:人工智能預測蛋白結構,這一革命性技術将走向何方?

AI工具不僅改變了科學家如何确定蛋白是什麼樣子,一些研究人員正在利用它們制造全新的蛋白。David Baker教授說:“深度學習正在完全改變我的課題組進行蛋白設計的方式。”在去年12月《自然》上發表的論文中,研究人員成功讓AI想象和建構出前所未有的蛋白結構。

在這項研究中,研究者不再給AI系統一些已知蛋白結構的氨基酸序列進行預測,而是向它們提供一些随機的序列,并且會向其中引入一些突變,直到AI的神經網絡确定能夠将這些序列折疊成穩定的結構為止。

研究人員在細菌中表達了129種AI系統想象出的蛋白,并且發現大約五分之一的蛋白會折疊成AI預測的結構。“這首次證明了使用這些神經網絡可以用來設計蛋白。”Baker博士說。現在,他的團隊正在使用這一政策設計有用的蛋白,比如能夠催化特定化學反應的蛋白催化劑。科學家們隻需要給出負責特定催化功能的氨基酸,然後讓AI想象出其它部分。

AlphaFold革命将走向何方,即便是這一領域的專家也覺得難以預測。Baker教授表示,領域的變化如此之快,預計不到一年的時間,我們就會看到使用這些工具獲得的新重大突破。”

EMBL-EBI的計算生物學家Janet Thornton博士則認為AlphaFold最大的影響之一是說服生物學家對計算和理論方法提供的洞見更加開放。“對我來說,革命就是心态的改變。”

參考資料:

[2] Bryant et al., (2022). Improved prediction of protein-protein interactions

免責聲明:藥明康德内容團隊專注介紹全球生物醫藥健康研究進展。本文僅作資訊交流之目的,文中觀點不代表藥明康德立場,亦不代表藥明康德支援或反對文中觀點。本文也不是治療方案推薦。如需獲得治療方案指導,請前往正規醫院就診。

版權說明:本文來自藥明康德内容團隊,歡迎個人轉發至朋友圈,謝絕媒體或機構未經授權以任何形式轉載至其他平台。轉載授權請在「藥明康德」微信公衆号回複“轉載”,擷取轉載須知。

分享,點贊,在看,聚焦全球生物醫藥健康創新

繼續閱讀