天天看點

下棋下哭柯潔的DeepMind,這次要讓生物界地震?

作者:差評
下棋下哭柯潔的DeepMind,這次要讓生物界地震?

最近,世超又被 AI 新聞給刷屏了,當年開發出 AlphaGo ,下棋下哭柯潔的谷歌DeepMind 公司,在 Nature 上公布了最他們新一代 AlphaFold 3 模型。

AlphaFold ,這個聽起來有點像折疊屏手機型号的名字,是他家專門預測蛋白質結構的新 AI 。

生物體内幾乎所有的分子結構,它都可以預測。這意味着生物醫學研究從此開了真 · 上帝視角,任何生物分子作用機理都将從黑盒中打開,變成透視模式。

不少媒體和網友開始歡呼, 21 世紀,這下真要成生物的世紀了。。。

下棋下哭柯潔的DeepMind,這次要讓生物界地震?

要看懂這次新釋出的 AlphaFold 3 有多牛,咱們就得先知道, DeepMind 和它的 AlphaFold ,曾給了分子生物圈多大的震撼。。。

我們在九年義務教育裡都學過,生物體内最多的物質就是蛋白質,而要搞清楚生物分子的底層原理,就必須知道每個蛋白質具體長啥樣。

這麼說吧,在 AlphaFold 之前,大夥們預測蛋白質結構主要兩種辦法,

一是用 X 光照蛋白質晶體,也就是先拍片子再分析片子,再來搞懂它長啥樣。二是核磁共振 ( NMR ) 光譜,拍出大體形狀輪廓,再推測它的結構。

這些傳統辦法不僅慢,适用範圍小,需要不斷試錯,還費錢,每拍一次片子就花好幾萬美金,抵一輛小米 su7 。

這也是為啥蛋白質研究方向生物學家,費錢且需要大量經驗。。。隻有那些經驗的老師傅,蛋白質仙人,才能更快猜到蛋白質的準确形狀,少拍點片子。

下棋下哭柯潔的DeepMind,這次要讓生物界地震?

是以人們就琢磨,這種需要經驗總結的工作能不能靠 AI 解決呢?DeepMind 就來幹這事了,為了克服傳統拍片子的問題,第一代 AlphaFold 選擇技術路線的時候就攤牌了:

不拍片子!

蛋白質既然由氨基酸構成,初代 AlphaFold 用的方法就是,利用來自各處公開的已知蛋白質結構,把這些蛋白質中每一對氨基酸的距離,連結角度,彙總起來做成一張圖, AI 用神經網絡消化完他們,再讓 AI 做出自己的預測。

下棋下哭柯潔的DeepMind,這次要讓生物界地震?

而 2018 年第一代 AlphaFold 一經釋出,就技驚四座,力壓一衆實驗室老師傅,獲得第 13 屆蛋白質結構預測大賽 ( CASP ) 冠軍。

AI ,很神奇吧。

不過,初代 AlphaFold 有個問題,它更依賴局部資料的特征來訓練,它不太能提取到較遠元素之間的關系。就好像一個隻會寫短文,但學不會寫長篇小說的作家。

問題是,很多蛋白質分子有長距離的依賴性,這讓初代 AlphaFold 的實力就有點捉襟見肘了。

好在 2020 年釋出的 AlphaFold2.0 ,用上後來在 ChatGPT 上大火的 Transformer 模型。

下棋下哭柯潔的DeepMind,這次要讓生物界地震?

Transformer 模型的注意力機制,則完美解決了長距離氨基酸的問題,進步有多大呢?

2018 年蛋白質結構預測大賽裡 1.0 版本準确度得分不到 60 分,但是 2020 年大賽裡 2.0 版本拿到了驚人的 92.4 分,它能生成的範圍已經涵蓋了人類已知蛋白質的 98% ,更重要的是它完全開源。

下棋下哭柯潔的DeepMind,這次要讓生物界地震?

可以說, 2.0 版本已經基本解決了單鍊蛋白質的預測問題,到 2021 年,基于 2.0 改版的 AlphaFold-Multimer 釋出,也支援上了多鍊,準确度上也取得了突破,蛋白質之間作用的預測準确率超過 70% 。

是以現在很多公司也用上了它們,甚至助力了國外一些新冠疫苗研發。

下棋下哭柯潔的DeepMind,這次要讓生物界地震?

但在 DeepMind 看來,蛋白質結構預測上的勝利,還遠遠沒發揮完 AI 的潛力,因為生物體内的複雜分子結構不止有蛋白質,還有核酸,小分子配體等等,

這就好比你花了十年時間學刻鑰匙開鎖技術,結果一出師,發現大家用的都是指紋鎖密碼鎖,用傳統鑰匙的人太少了!

是以這次 AlphaFold 3 ,他們更新了一個更牛逼的全方位模型,不僅能預測蛋白質 DNA RNA 等各種小分子,還能揭示他們之間的互相作用。

下棋下哭柯潔的DeepMind,這次要讓生物界地震?

那這是怎麼幹的呢?答案是,他們用了 Diffusion 。

對,就是大名鼎鼎的擴散模型,在 AI 繪畫大火的時候,想必大家就聽說過。它的原理就是把原圖像不斷打碼,再讓 AI 學會預測這些馬賽克的生成過程,然後反過來實作從馬賽克到圖像的生成。

不過,就像 AI 畫畫生成不好手指, Sora 椅子視訊會穿模一樣, Diffusion 加持下的 AlphaFold 3 也會預測錯誤,特别是在一些長得相似難以區分的結構上,比如各位高中有機化學裡學過的手性分子。

下棋下哭柯潔的DeepMind,這次要讓生物界地震?

是以在這些容易出錯的地方, DeepMind 用了一個叫做交叉蒸餾的操作,說白了就是讓有 Transform 模型的 2 代版本先預測,再把預測資料添加到 AlphaFold 3 的訓練中,也就是相當于讓 2 代扮演教師,領着 3 代去做,這樣就能減少預測失誤。

生成的效果有多好?直接看官方圖吧

AlphaFold 3 對 7BBV - 酶 ( 存在于一種土壤真菌體内 ) 的預測,其中酶蛋白( 藍色 )、離子( 黃色球體 )和單糖( 黃色 )與真實結構( 灰色 )幾乎重合

下棋下哭柯潔的DeepMind,這次要讓生物界地震?

AlphaFold 3 對感冒病毒刺突蛋白( 藍色 )與抗體( 綠松石色 )和單糖( 黃色 )互相作用時的結構預測,與真實結構準确比對( 灰色的)

下棋下哭柯潔的DeepMind,這次要讓生物界地震?

AlphaFold 3 對蛋白複合物的預測,其中蛋白質( 藍色 )與 DNA ( 粉色 )結合,預測模型與實驗測定的真實分子結構( 灰色 )近乎完美比對

下棋下哭柯潔的DeepMind,這次要讓生物界地震?

除了生成品質相當哇塞,精度也是遙遙領先的原子級。在蛋白質與核酸配體的模拟上全面優于其他産品,抗原抗體的模拟也同樣優秀。

而操作 AlphaFold3 就更容易了。用 ChatGPT ,咱還得想辦法提個好問題、寫好提示詞,而在 AlphaFold 3 ,你隻需要輸入一些分子清單,它就能預測出它們是如何組合在一起的。

下棋下哭柯潔的DeepMind,這次要讓生物界地震?

試想一下,原先需要花大量時間精力和資金才能觀察到的現象,現在隻需要在網站輸入參數再單擊,幾分鐘後就能産生極高清晰度和準确度的生物大分子模型。

甚至細胞系統内部的生化過程,現象, DNA 如何發揮作用,藥物和激素的反應如何進行,也全都能在極短時間内被整明白。

這些遙遙領先的資料,和大家的熱情好像都在說:這次釋出已經不是跨越式進步了,而是革命性的突破,整個傳統生物醫療的科研方式,似乎都要被改變了。

不過世超覺得,樂觀是好的,但是科學這玩意兒除了樂觀,要的還得是中肯和嚴謹。

在各路媒體和網友都在 “ 炸裂 ” “ 颠覆 ” “ 改變世界 ” 的時候,圈内對的不少大佬,也發表了些對 AlphaFold 3 的評價。

比如顔甯教授團隊就發現, 3.0 版本在一個糖蛋白預測中就翻車了,表現甚至不如前代版本。

也有不少科學家吐槽 3.0 相比 2.0 它還不開源了,使用次數也有限制。

下棋下哭柯潔的DeepMind,這次要讓生物界地震?

甚至,還有人質疑 DeepMind 的老闆 Hassabis ,他自己就創立過一家 “ 專注人工智能的藥物公司 ” ,号稱要 “ 利用人工智能重新定義藥物發現 ” ,但從 2021 年到,今天他們還沒有推出任何藥物。

當然這就有點在尬黑了,畢竟藥物研發過程中,蛋白質結構問題隻是其中一小部分,這并不能對藥物研發進度産生決定性影響。。。

下棋下哭柯潔的DeepMind,這次要讓生物界地震?

總之,世超覺得 AlphaFold 的三代産品确實喜人,但在生命科學的漫漫實踐長路上,它依舊有着不少難題需要去突破。不過說到底,進步總還是好事,希望 DeepMind 能再多搞點,搞快點吧。