天天看點

成功預測98.5%人類蛋白質結構再登Nature,從頭說說AlphaFold2的雄心壯志

7月22日,DeepMind創始人哈撒比斯在官網上釋出了一篇名為《把AlphaFold的力量交到全世界的手中》的文章。

不得不說,現在很少能看到這麼雄心壯志的題目了,并且,這還不是有意的誇大,一切都正在發生的事實。

在上周開源AlphaFold2之後,DeepMind直接開放了團隊預測的所有蛋白質結構資料,包括98.5%的人類蛋白質結構和包括大腸杆菌、果蠅、小鼠等20個具有科研常用生物的蛋白質組資料,總計超過35萬個蛋白質的結構。

并且,在資料集中預測的所有氨基酸殘基中,有58%達到可信水準,其中35.7%達到高置信度。

與之對比的是人類數十年的試驗成果,也才覆寫了人類蛋白質序列中17%的氨基酸殘基。正如文章中摘錄的樸茨茅斯大學結構生物學教授John Mcgeehan所言:

我們花了幾個月甚至幾年的時間才做到的事,AlphaFold在一個周末就做到了。

哈撒比斯在文章中表示,所有資料将由歐洲生物資訊學研究所托管,并向全世界的科學家開放,在裡面任何人都可以搜尋到AlphaFold預測的各類蛋白質結構。

資料庫網址:

https://alphafold.ebi.ac.uk/

論文以《Highly accurate protein structure prediction for the human proteome》為題發表在《自然》期刊上。

論文位址:

https://www.nature.com/articles/s41586-021-03828-1_reference.pdf

從頭說起,AlphaFold為什麼是解決50年來生物學領域的重大挑戰的solution?

為了更加清楚得了解AlphaFold為什麼引起這麼大的轟動,以及AlphaFold究竟做到了什麼,我們得再回顧一下DeepMind另一篇雄文。

2020年12月,DeepMind發表了一篇名為《AlphaFold:解決50年來生物學領域的重大挑戰的一個方法》,同樣是雄心勃勃的标題,講的就是AlphaFold。

在文章中,AlphaFold團隊詳細解釋了AlphaFold的作用和意義所在,文摘菌這裡也簡單概述一下。

正如大家高中的時候學過的——蛋白質是由氨基酸鍊組成的複雜分子,它通過共價鍵将氨基酸連在一起。

不過,在細胞中,蛋白質的存在是三維的,不同蛋白質的功能很大程度上取決于其獨特的3D結構。是以說,搞清楚蛋白質的折疊結構可以幫助我們更好地了解蛋白質的功能和工作原理,這類問題被稱為“蛋白質折疊問題”。

蛋白質的一級結構(primary structure)是指蛋白質多肽鍊中氨基酸殘基的排列順序(sequence)

蛋白質的二級結構(secondary structure)是指多肽鍊中主鍊原子的局部空間排布即構象

蛋白質的三級結構(tertiary structure)是指蛋白質的多肽鍊在各種二級結構的基礎上再進一步盤曲或折疊形成具有一定規律的三維空間結構

在1972年諾貝爾化學獎的獲獎感言中,克裡斯蒂安·安芬森提出了一個著名的假設: 理論上,蛋白質的氨基酸序列應該完全決定其三維結構。

是以,最終的問題就變為——如何根據蛋白質的氨基酸序列就能夠計算預測蛋白質的3D結構?人類在這個問題上,已經進行了50年的探索。

1994年John Moult教授和Krzysztof Fidelis 教授創立了CASP(蛋白質結構預測關鍵評估),作為兩年一次的盲評,以促進研究、監測進展,并建立蛋白質結構預測的最新水準。

從2018年AlphaFold橫空出世經過短短兩年,最新的AlphaFold2在CASP評估中,所有目标中總體得分中位數為92.4GDT。這意味着預測平均誤差約為1.6埃(十億分之一米),相當于一個原子的寬度(0.1納米)。

AlphaFold2毫無疑問成就了蛋白質的3D結構預測領域的重大突破。諾貝爾獎得主、皇家學會主席Venki Ramakrishnan表示:

這項計算工作代表了蛋白質折疊問題上的一個驚人進步,蛋白質折疊問題是生物學上一個跨越50年的巨大挑戰……它将在許多方面從根本上改變生物學研究,這将是令人興奮的。

AlphaFold2大大提高蛋白結構預測的置信度和覆寫率

有了AlphaFold2這麼強有力的武器之後,AlphaFold團隊決定用AlphaFold2來解析人類蛋白質結構。

以往,人們使用各種實驗技術來檢測和确定蛋白質結構,如核磁共振和X光散射技術。這些技術,以及像冷凍電子顯微這樣的新方法,依賴于大量的試驗,這可能需要花費數年艱苦而費力的工作,每個結構還需要使用數百萬美元的專門裝置。

相比而言,AlphaFold2則在很短的時間内,破譯了幾乎整個人類蛋白質組(98.5%的人類蛋白質)的結構,其中有35.7%的殘基落在最高精度帶内,相當于目前人類通過實驗所得結構數量(17%)的兩倍,極大地擴充了蛋白結構覆寫率。

除了提高蛋白結構預測的置信度和覆寫率,知乎網友@孟凡康還提到,AlphaFold2模型在多結構域複合體的預測上同樣表現優異。

AlphaFold的現在和未來

對于AlphaFold取得的成就,哈撒比斯也興奮不已,除了在DeepMind官網上發表文章,也在推特上對團隊進行了“點贊”:

這是我一生中夢寐以求的日子,也是創辦Deepmind的初衷:用AI達成像AlphaFold2這樣的科學突破并造福人類。為團隊驕傲!

事實也是如此,AlphaFold已經在生物學和其他領域發揮作用。

馬克斯普朗克研究所主任兼 CASP 評估員 Andrei Lupas 教授告訴DeepMind,“AlphaFold 驚人的精确模型使我們能夠解決一個困擾我們近十年的蛋白質結構,重新啟動我們的努力,以了解信号是如何通過細胞膜傳遞的。”

還有一些例子,比如:

DNDi(被忽視疾病藥物開發組織)則表示,AlphaFold2已經推動了他們在貧困地區熱帶疾病藥物開發方面的研究;

樸茨茅斯大學酶創新中心(CEI)也表示,他們正在利用AlphaFold2開發一些新效率更高的酶,用來降解污染環境的一次性塑膠;

科羅拉多大學波爾德分校的一個研究小組則利用AlphaFold來制作蛋白質結構模型,開展一項關于抗生素的研究;

加州大學舊金山分校的一個團隊則表示,AlphaFold2可以幫助他們更好了解SARS-CoV-2的生物學機制。

未來,AlphaFold2團隊計劃将預測覆寫範圍大大擴充到幾乎每一個已測序的蛋白質——超過1億個,這覆寫了UniProt參考資料庫的大部分蛋白質。

可以預料的是,AlphaFold2的預測結果将進一步的激發生物科學、藥物研發、合成生物學方面的未來發展。