天天看點

什麼樣的底層邏輯導緻AlphaFold 3的驚人突破?

作者:南方周末

2024年5月8日,DeepMind團隊在《自然》期刊上發表了一篇《利用AlphaFold 3對生物分子互相作用進行精确結構預測》的文章。這是繼2024年1月17日釋出“能夠解決奧數級别的平面幾何難題”的人工智能AlphaGeometry之後,DeepMind在《自然》期刊上釋出的最新一款專門解決某一類特定問題的人工智能。

蛋白質由蛋白質一級結構組成,蛋白質折疊的過程中蛋白質會自發折疊形成蛋白質三級結構。蛋白質結構對蛋白質生物學功能至關重要。然而,了解氨基酸序列如何确定蛋白質三級結構極具挑戰性,這被稱為“蛋白質折疊問題”。

蛋白質折疊

這次的AlphaFold 3,是DeepMind釋出的AlphaFold系列人工智能程式的最新版本。正如AlphaFold的名字“阿爾法折疊”所說的那樣,AlphaFold系列在設計之初,是一款用于預測蛋白質結構的人工智能。

在2020年11月的第14屆CASP(蛋白質結構預測技術的關鍵測試,Critical Assessment of protein Structure Prediction)競賽中,AlphaFold 2的中位分數為92.4(滿分100分)。其準确度遠遠高于其他任何程式。

随後,AlphaFold 2,及其對所有已知 DNA 序列的 2 億種蛋白質的預測結構的資料庫向科學家免費開源開放。據DeepMind公司蛋白質結構團隊負責人、進階研究員約翰·朱珀所說:“AlphaFold 2已在其他發表的科學論文中被引用了2萬多次,并被用于研究治療瘧疾、癌症和許多其他疾病的藥物。”

在生物制藥領域,AlphaFold大大降低了擷取蛋白質結構的時間和成本,加速了基于蛋白質結構的藥物研發。現任諾華生物醫學研究所所長菲奧娜·馬歇爾誇張地表示:“AlphaFold使每個人都成為了結構生物學家。”

什麼樣的底層邏輯導緻AlphaFold 3的驚人突破?

轉錄因子和核糖體RNA分子結構模型。視覺中國|圖

盡管AlphaFold 2有着如此驚人的表現,但是要将AlphaFold 2的資料真正用于藥物設計等具展現實應用當中,還有着不小的距離。這是因為,AlphaFold 2本身有着很大的局限性。

正如前文所說,AlphaFold 2的功能,在于預測蛋白質的結構和怎樣進行折疊。雖然了解蛋白質的形狀和結構通常是了解其功能的關鍵部分。但在包括人體在内的生物體當中,蛋白質并不是孤立運作的。而影響蛋白質功能的,除了蛋白質的三維結構之外,還有蛋白質與各種其他分子的互相作用。但是,AlphaFold 2無法預測蛋白質與其他類型分子,例如生物體内的DNA、RNA、配體和離子之間的互相作用。它也無法預測這些其他分子之間的互相作用。另外,AlphaFold 2也不能确定所預測的蛋白質結構處于何種構象狀态。其預測結構的精度也存在不确定性,即使同一個蛋白質的不同區域的預測精度也可能不同。這些都限制了AlphaFold 2的實用性。

巨大的提升

DeepMind新釋出的AlphaFold 3,則在這些方面都有了巨大的提升和改進。

根據DeepMind 和同構實驗室(Isomorphic Lab)的測試,在蛋白質之間的互相作用方面,AlphaFold 3的預測準确率達到了62%,相較于AlphaFold 2提升了一倍。不僅如此,相較于隻能對蛋白質之間的互相作用進行預測的AlphaFold 2,AlphaFold 3可以預測蛋白質與DNA、RNA鍊、配體和離子等小分子的互相作用,以及這些小分子彼此之間的互相作用。論文指出,該模型可以精确預測“包含蛋白質資料庫中幾乎所有分子類型的複合物”。

在準确性方面,在對蛋白質與小分子之間的互相作用的預測上,AlphaFold 3的準确率達到了76%,而之前的最佳預測軟體隻有52%。在DNA之間互相作用的預測上,AlphaFold 3的準确率達到了65%,而之前的最佳預測軟體隻有28%。

AlphaFold 3的巨大提升,是近幾年人工智能領域各種驚人進展的一個典型代表。它的表現,也展現了近幾年人工智能領域的最新發展與成果。

相較于之前的AlphaFold 2,AlphaFold 3的主要改進包括,大大簡化了之前的多重序列比對(Multiple sequence alignment,MSA)流程;将之前的Evoformer替換成了Pairformer;将結構子產品(Structure Module)替換成了擴散子產品(Diffusion Module)。

這些改進,大幅提升了AlphaFold 3的效率。更為重要的是,它改變了AlphaFold 3的運作方式。在AlphaFold 2上,預測蛋白質結構的方式,是基于蛋白質的實體和化學特性,去模拟蛋白質折疊的方式。這種做法,就導緻AlphaFold 2在很多時候效率偏低,準确性不高,而且僅能用于蛋白質的預測。

而AlphaFold 3所使用的擴散子產品,則是基于完全不同的邏輯來實作預測的。

擴散模型,是現今深度生成模型中最先進的。即所謂的SOTA model:state-of-the-art model。在計算機視覺、自然語言處理、波形信号處理、多模态模組化、分子圖模組化、時間序列模組化、對抗性淨化等諸多領域當中,擴散模型均有出色的表現。稍早前OpenAI釋出的,能以文本描述生成視訊的人工智能模型SORA,就是基于擴散模型的。

就像SORA可以通過訓練,生成在絕大多數情況下符合現實世界實體規律的視訊一樣。使用了擴散子產品的AlphaFold 3也可以通過訓練,直接生成包括蛋白質在内的生物分子的結構。也就是說,AlphaFold 3不再模拟蛋白質折疊的過程,而是直接從原子層面确定生物分子中每個原子的位置坐标,進而生成整個分子的結構。

這一改變,就使得AlphaFold 3的适用範圍不再局限于預測蛋白質的結構和互相作用,而可以用于模拟預測包括DNA、RNA、配體等生物分子,以及包括離子在内的小分子的結構,以及它們之間的互相作用。

正如英偉達進階科學家範麟熙(Jim Fan)在個人社交媒體上所說的:“AlphaFold 3是人工智能在生物學領域疊代出的最新最大的突破。它的新特點是,AlphaFold 3利用擴散來‘渲染’分子結構,然後通過去噪從模糊的原子雲中逐漸得出分子的具體結構。”

對于AlphaFold 3的巨大提升,DeepMind的首席執行官德米斯·哈薩比斯(Demis Hassabis)在5月7日宣布這一突破的釋出會上說:“對我們來說,今天宣布AlphaFold 3是一個重要的裡程碑。生物學是一個動态系統,你必須了解生物學中的各種特性是如何通過細胞中不同分子之間的互相作用而産生的。你可以把AlphaFold 3看作是我們朝着這個方向邁出的第一大步。”

哈薩比斯還樂觀地表示,在未來幾年内,第一批由人工智能設計的藥物就将投入臨床使用。

還需要改進

需要指出的是,雖然AlphaFold 3相較于之前有了巨大的提升和改進,但是它仍然有着一些需要改進的地方。

這其中,影響最大的一個問題,就是所謂的人工智能的“幻覺”。現階段包括GPT、SORA在内的,基于深度學習訓練而成的大型人工智能模型,都或多或少地存在着“幻覺”現象。即人工智能會生成無意義或者錯誤的内容。而使用生成式擴散模型,本身就很容易産生幻覺。這對于主要用于日常對話和生成視訊的GPT和SORA來說,或許隻是一些“無傷大雅”的小問題。但是,對于AlphaFold 3這樣,真正的用途是用于生物學研究和制藥領域的人工智能來說,生成“看上去似乎合理的結構”這樣的錯誤将是無法接受的。

對于這一點,DeepMind團隊采取了所謂的交叉蒸餾的方法。即在預訓練資料集中加入之前版本的AlphaFold-Multimer v2.3預測的結構,讓AlphaFold 3來學習。進而減少AlphaFold 3的幻覺行為。和AlphaFold 2一樣,DeepMind也在AlphaFold 3中加入了置信度元件。AlphaFold 3在給出的預測結構中,會标注對不同部位的可信度,來供使用者識别。

除此之外,對于蛋白質等大分子來說,在結構化學中有一個很特殊的性質,叫做手性。它指的是,某些分子結構,像左右手一樣,看上去是鏡像對稱的。在某些反應中,具有手性對稱的同分異構體,會呈現出不同的反應結果。這就使得在進行蛋白質等分子結構的預測中,必須要嚴格區分手性。但是,DeepMind的論文指出,盡管采取了各種方法,AlphaFold 3在預測中仍然有4.4%的可能性會違反手性。

除此之外,DeepMind的論文還指出,在一些預測結果中,AlphaFold 3還出現了生成物中原子位置互相重疊的現象。

這些存在的問題表明,AlphaFold 3距離真正的能夠解決人類疾病的人工智能,還有很長的路要走。而DeepMind在論文中明确提到的這些問題,也說明他們對AlphaFold 3的提升和局限性是有着清晰認識的。

正如中國科學院院士、結構生物學家顔甯在個人社交媒體上所說的:“我對AI的态度總結起來其實是倆字‘敬畏’,它的發展速度超乎想象。……這次的server版本我覺得是一個速度和準确度的平衡,正确率不是最好的。……但還是那句話,AI一定會越來越強大,如何擁抱新技術、問出更有意思的問題,才是相關科研工作者現在更關注的。”

不同于GPT、SORA這樣泛用性的,看上去和我們日常生活非常接近的人工智能。從年初的AlphaGeometry,到最近的AlphaFold 3,再追溯到更早的AlphaGo,DeepMind團隊所推出的,是專門解決某一個特殊問題的人工智能。這些特用型的人工智能,或者像AlphaGo和AlphaGeometry一樣,在某些純智力領域接近或者超過了人類智力的最高水準。或者像AlphaFold系列這樣,在科學研究領域真正發揮了作用。

也許,這才是人工智能的正确打開方式。畢竟,我們是人,而人工智能,是我們創造的工具。

南方周末特約撰稿 左力

責編 朱力遠