天天看點

擴散模型新應用——微軟推出蛋白質生成架構EvoDiff

作者:夕小瑤科技說
作者 | 謝年年

最近,微軟推出了一個名為EvoDiff的通用架構,據稱它可以根據蛋白質序列生成“高保真度”和“多樣性”的蛋白質。

這項技術的意義非凡,因為蛋白質是構成我們身體的疾病的基本組成部分。通過研究蛋白質,我們可以揭示疾病的機制,并找到減緩或逆轉疾病的方法。

而通過創造蛋白質,我們可以開發全新的藥物和治療方法。

目前,設計蛋白質的過程非常複雜且昂貴,但EvoDiff的出現可能會改變這一現狀。它不需要目标蛋白質的結構資訊,進而省去了最繁瑣的步驟。

這項技術有望應用于新型治療藥物和藥物傳遞方法的酶的創造,以及用于工業化學反應的新型酶的開發。

蛋白質生成成本高昂

從計算和人力資源的角度來看,目前在實驗室設計蛋白質的過程成本高昂。

這個過程涉及兩個關鍵步驟。

  • 首先,需要找到一種蛋白質結構,這種結構可以在體内執行特定的任務。
  • 其次,需要找到一種可能“折疊”到該結構中的蛋白質序列,也就是構成蛋白質的氨基酸序列。

隻有當蛋白質正确折疊成三維形狀時,它才能發揮其預期功能。這個過程需要大量的計算和人力資源,是以成本很高。

但有時候我們不必把事情搞得太複雜。

最近,微軟推出了一個名為EvoDiff的通用架構。微軟表示這個架構可以隻在給定蛋白質序列的情況下,生成高保真、多樣化的蛋白質。

與其他蛋白質生成架構不同的是,EvoDiff不需要任何關于目标蛋白質結構的資訊,這樣就省去了通常最費力的步驟。

擴散模型新應用——微軟推出蛋白質生成架構EvoDiff

産生蛋白質的過程

EvoDiff架構

EvoDiff架構的核心是一個6.4億參數的模型,該模型是通過使用來自不同物種和功能類别的蛋白質資料進行訓練而得到的。

訓練模型所使用的資料來自于序列比對的OpenFold資料集以及UniRef50和UniProt的資料子集。

UniProt是由UniProt聯盟維護的蛋白質序列和功能資訊資料庫。通過使用這些資料,EvoDiff架構能夠訓練出一個強大的模型,用于生成蛋白質等任務。

EvoDiff本質上是一個擴散模型,它的架構類似于一些現代圖像生成模型,比如Stable Diffusion 和DALL-E 2。EvoDiff的目标是從幾乎完全由噪音組成的起始蛋白質中逐漸減去噪音,逐漸複原蛋白質序列。

擴散模型是一種在圖像生成領域以外越來越廣泛應用的技術。它不僅可以用于設計新型蛋白質,例如EvoDiff,還可以用于創作音樂甚至合成語音。這種模型的應用範圍正在不斷擴大。

不同于傳統的蛋白質生成架構,EvoDiff不是基于蛋白質的結構,而是基于蛋白質的序列空間來設計蛋白質。這意味着它可以合成一種特殊的蛋白質,即無序蛋白質,這些蛋白質最終不會折疊成具有特定三維結構的形态。

盡管如此,這些無序蛋白質在生物學和疾病中仍然扮演着重要的角色。它們可以增強或降低其他蛋白質的活性,進而對生物體的功能産生影響。這表明無序蛋白質在細胞内具有多種功能,并且對于我們了解生物體的生物過程以及疾病的發生機制非常重要。

EvoDiff将推動蛋白質工程的發展

EvoDiff的另一位作者、微軟進階研究員Ava Amini強調了根據序列生成蛋白質的重要性,并指出這一方法具有通用性、規模和子產品性的優勢。

Ava Amini還提到他們的擴散架構使他們能夠控制蛋白質的設計,以實作特定的功能目标。這一架構為他們提供了生成蛋白質的能力,并且能夠控制蛋白質的設計,使其具備特定的功能。

Amini認為,EvoDiff不僅可以創造新的蛋白質,還可以填補現有蛋白質設計中的“空白”。例如,如果蛋白質的一部分與另一種蛋白質結合,該模型可以在該部分周圍生成符合一系列标準的蛋白質氨基酸序列。這意味着EvoDiff可以幫助科學家們設計出更多種類的蛋白質,進而拓寬了蛋白質的應用領域。

微軟進階研究員Kevin Yang表示,EvoDiff将會開源。這個開源工具可以用來制造酶,用于新療法和藥物遞送方法,以及用于工業化學反應的新酶。

該團隊預計EvoDiff将推動蛋白質工程的發展,從傳統的結構-功能範式擴充到可程式設計、序列優先的設計。

他們通過EvoDiff的實踐證明了一個重要觀點,即蛋白質生成不一定需要依賴特定的結構,隻使用蛋白質序列本身也可以發揮有效的作用。這意味着他們可以通過可控地設計新的蛋白質來實作更多的應用。

但目前需要注意的是,EvoDiff背後的研究尚未經過同行評審——至少現在還沒有。參與該項目的微軟資料科學家Sarah Alamdari承認,在該架構投入商業使用之前,還有更多的擴充工作要做。

下一步計劃

目前EvoDiff模型隻有6.4億個參數。如果将參數擴充到數十億個,生成品質可能會更好。不僅如此,該團隊還希望将EvoDiff應用于文本、化學資訊或其他方式,以定制需要的功能。

EvoDiff團隊還計劃在實驗室中測試他們模型産生的蛋白質,以确定這些蛋白質是否可行。如果測試結果證明可行,他們将開始開發下一代架構。

擴散模型新應用——微軟推出蛋白質生成架構EvoDiff