天天看點

《科學》:蛋白設計技術革命!生化大牛David Baker團隊颠覆蛋白設計方法,通過強化學習逆向從頭創造全新蛋白

作者:奇點網

*僅供醫學專業人士閱讀參考

《科學》:蛋白設計技術革命!生化大牛David Baker團隊颠覆蛋白設計方法,通過強化學習逆向從頭創造全新蛋白
《科學》:蛋白設計技術革命!生化大牛David Baker團隊颠覆蛋白設計方法,通過強化學習逆向從頭創造全新蛋白

太震撼了!

至于哪裡震撼,我一兩句話暫時有點說不清楚!

今日,《科學》雜志發表了來自蛋白質學大牛David Baker團隊的新論文,研究者們提出了一種“Top-Down”的基于強化學習的蛋白設計新思路。與以往不同,這并非是指揮AI修飾優化現有結構、組裝所需功能蛋白,而更接近于告訴AI,我要一個xxx功能的蛋白,去做!

在實驗中,Top-Down思路不僅設計出了先前技術完全達不到蛋白結構,其産物還具有極強的功能性,對蛋白納米材料、蛋白藥物和疫苗等領域來說不亞于一次技術革命。

《科學》:蛋白設計技術革命!生化大牛David Baker團隊颠覆蛋白設計方法,通過強化學習逆向從頭創造全新蛋白

論文題圖

David Baker其人,非常的牛逼,在這裡我也不費勁去給他做傳,偷懶抄抄同僚寫過的大牛履曆:

作為蛋白質學領域的傑出科學家和領軍人物,David Baker在蛋白質折疊預測、蛋白質與小分子結合、自組裝蛋白納米顆粒、蛋白質設計等方向都有着深入研究和衆多貢獻。

早在1998 年時,David Baker及其團隊就開發出Rosetta平台來預測蛋白質結構,基于實體學原理,對蛋白質的構象進行能量最小化計算,以預測最穩定的三維結構,并在後續的時間裡不斷拓展Rosetta的應用,如蛋白質。2008年時,David Baker實驗室還創造性地開發了蛋白質結構預測和設計的“硬核”小遊戲Foldit,動員科研人員、非科研人員一起參與到這個領域。

近幾年,他們研發的深度算法RoseTTAFold與備受關注的AlphaFold 2并駕齊驅,僅根據氨基酸序列即可快速準确地預測蛋白質結構,成為迄今為止最準确的蛋白質結構預測算法之一 。去年,他們推出的深度學習算法ProteinMPNN ,可快速根據給出的蛋白質三維結構“逆推”出可能的氨基酸序列,序列恢複率達52.4%(Rosetta為32.9%)。

總之,學科之光。

這次他們想要做的事情,是完全颠覆此前的蛋白結構設計方法。

以前的方法,是一種“Bottom-Up”思路,由單體結構開始逐漸組裝成寡聚物、複雜的聚合體。這種方法固然有它的有點,比如多個部件可以拆分獨立驗證,主打一個穩定。

《科學》:蛋白設計技術革命!生化大牛David Baker團隊颠覆蛋白設計方法,通過強化學習逆向從頭創造全新蛋白

Bottom-Up思路

但它也有局限性,設計的終産物範圍被有限的低聚結構限制住了,畢竟隻用七巧闆,能拼出來的東西也就那麼多了。而且這種針對單個亞基來設計優化的方法,也限制了對終産物的整體優化。

而Top-Down的思路則是從整體的結構和性能出發,給出所需的結構特性,讓AI進行計算,通過大量模拟蛋白質片段組裝,最終尋找到最符合預期的産物。

用昨天剛掉下來的SpaceX打個比方,Bottom-Up要做的是分析總結哪些馬達發動機可以用,哪些有問題需要優化,疊代做新的;Top-Down要做的是把鋼闆螺絲(或者樂高)給AI,然後告訴它,“我要去火星,來做個SpaceX Plus吧!”

《科學》:蛋白設計技術革命!生化大牛David Baker團隊颠覆蛋白設計方法,通過強化學習逆向從頭創造全新蛋白

Top-Down思路

為了實作全讓AI來的想法,研究者們選擇了強化學習(RL),也就是AlphaGo打敗圍棋大師的機器學習方法。更具體地說,是采用了其中的蒙特卡洛樹搜尋算法(MCTS)。在這個算法中,每個分支點都會進行一次評估,并向上傳回進行權重,最終得到最優的路徑。

用在蛋白設計上,我們可以了解為,在一個蛋白質片段上,依次增加新的蛋白質片段,每次增加都參考預期的結構特性來評估并打分,比如蛋白的形狀、大小、孔隙率、末端位置等等,如此逐次模拟,最終獲得在原子級别上,符合預期的精确蛋白結構。

《科學》:蛋白設計技術革命!生化大牛David Baker團隊颠覆蛋白設計方法,通過強化學習逆向從頭創造全新蛋白

算法思路

如此一來,我們隻要給算法提供一些基礎的蛋白質片段,然後告訴AI我們想要什麼,就夠了。

接下來就是看AI有沒有了解一切了!

研究者提出的第一個難題是設計一個能填充特定形狀的蛋白。之前他們做過兩個不同大小的蛋白質環,現在他們決定讓AI設計一個能把它倆“粘”在一起中間結構,這個結構要能緊緊連住内外兩個環,同時還要有足夠的密度,不留下大的空隙。

這是一個Bottom-Up完全做不到的工作。

《科學》:蛋白設計技術革命!生化大牛David Baker團隊颠覆蛋白設計方法,通過強化學習逆向從頭創造全新蛋白

目的是把這兩個環組裝成盤

MCTS模拟得到的蛋白結構,通過ProteinMPNN設計了序列,由AlphaFold預測得到了32種符合要求的設計。其中28種是可溶且可純化的,11種能形成符合預期大小和形狀的顆粒,其中2種的形狀與設計模型的基本一緻。

我們可以看看在冷凍電鏡5.1Å分辨率下的終産物之一,與設計模型不能說像,就是一個一模一樣。

《科學》:蛋白設計技術革命!生化大牛David Baker團隊颠覆蛋白設計方法,通過強化學習逆向從頭創造全新蛋白

冷凍電鏡下的終産物

研究者認為,這種非自然的形狀可能應用于基于納米孔的傳感器。

接下來,研究者使用MCTS設計了一個二十面體蛋白衣殼,他們的目标是讓這個産物達到其他方法實作不了的小體積和高緊湊性,它的表面還要擁有能連接配接其他結構的末端。

經過一萬次疊代,MCTS最終生成了比之前已知的任何二十面體蛋白質序列都更短、孔隙與天然進化的衣殼蛋白相當的産物。

《科學》:蛋白設計技術革命!生化大牛David Baker團隊颠覆蛋白設計方法,通過強化學習逆向從頭創造全新蛋白

該團隊之前也設計過二十面體衣殼蛋白,并用在了疫苗上

從幾十萬個産物中,研究者最終選擇了368個進行實驗測試,并最終得到了2個非常符合要求的蛋白産物,直徑分别為13nm和10nm,比大多數病毒衣殼都小得多。

更值得期待的是,它們的表面具有60/120個N/C端融合蛋白拷貝,比他們之前設計的二十面體蛋白高6倍以上,可以融合到功能蛋白的結構域,形成有生物活性的納米顆粒。

這意味着,它們能夠以更高效的方式易位到細胞核中,為遞送蛋白質或DNA提供了新工具。

研究者讓衣殼蛋白融合了血管生成素1的F結構域,話不多說看圖!融合衣殼蛋白的效果比單獨的血管生成素1或者F結構域都好太多。它還比血管生成素1更容易制造、也更穩定……

《科學》:蛋白設計技術革命!生化大牛David Baker團隊颠覆蛋白設計方法,通過強化學習逆向從頭創造全新蛋白

冷凍電鏡下的兩種産物結構

《科學》:蛋白設計技術革命!生化大牛David Baker團隊颠覆蛋白設計方法,通過強化學習逆向從頭創造全新蛋白

血管生成素1(Ang1),F結構域(Fd)

研究者還給衣殼蛋白融合了流感血凝素(HA),形成了新的流感疫苗,效果也比之前已經投放入臨床試驗的前代産品效果更好。

《科學》:蛋白設計技術革命!生化大牛David Baker團隊颠覆蛋白設計方法,通過強化學習逆向從頭創造全新蛋白

MI15-RC_I_1體積更小、效果更好

以類似的思路,MCTS具有産生任何我們指定的幾何形狀的蛋白的能力。我小小聲預言一句,蛋白學的未來,翻天覆地了!

參考資料:

[1]https://www.science.org/doi/10.1126/science.adf6591

[2]https://www.bakerlab.org/2023/04/20/protein-design-reinforcement-learning/

《科學》:蛋白設計技術革命!生化大牛David Baker團隊颠覆蛋白設計方法,通過強化學習逆向從頭創造全新蛋白
《科學》:蛋白設計技術革命!生化大牛David Baker團隊颠覆蛋白設計方法,通過強化學習逆向從頭創造全新蛋白

本文作者丨代絲雨

繼續閱讀