天天看點

基于Transformer的蛋白質生成,具有正則化潛伏空間優化

作者:ScienceAI

編輯 | 蘿蔔皮

強大的自然語言模型的發展提高了學習蛋白質序列有意義表示的能力。此外,高通量誘變、定向進化和下一代測序的進步已經允許積累大量标記的适應度資料。

利用這兩個趨勢,耶魯大學的研究人員引入了正則化潛在空間優化(ReLSO),這是一種基于深度 Transformer 的自動編碼器,具有高度結構化的潛在空間,經過訓練可以聯合生成序列并預測适應度。通過正則化的預測頭,ReLSO 引入了一個強大的蛋白質序列編碼器和一種高效的适應性景觀周遊的新方法。

使用 ReLSO,研究人員對大型标記資料集的序列函數景觀進行模組化,并通過使用基于梯度的方法在潛在空間内進行優化來生成新分子。

該團隊在幾個公開可用的蛋白質資料集上評估這種方法,包括抗雷珠單抗和綠色熒光蛋白的變體集。與其他方法相比,研究人員觀察到使用 ReLSO 的序列優化效率更高(每個優化步驟的适應度增加),其中 ReLSO 更穩健地生成高适應度序列。此外,聯合訓練的 ReLSO 模型學習的基于注意力的關系為序列級适應度歸因資訊提供了潛在途徑。

該研究以「Transformer-based protein generation with regularized latent space optimization」為題,于 2022 年 9 月 26 日釋出在《Nature Machine Intelligence》。

基于Transformer的蛋白質生成,具有正則化潛伏空間優化

基于序列的蛋白質設計的主要挑戰是可能序列的巨大空間。一個 30 個殘基的小蛋白質(真核生物的平均長度 ≈ 472)轉化為 10^38 的總搜尋空間——遠遠超出現代高通量篩選技術的範圍。

上位性(序列中遠處殘基上的氨基酸之間的高階互相作用)進一步加劇了這一障礙,這使得難以預測序列中的微小變化對其特性的影響。總之,這激發了對能夠更好地利用序列-功能關系(通常使用适應度景觀進行描述)的方法的需求,以更有效地生成具有所需特性的蛋白質序列。

基于Transformer的蛋白質生成,具有正則化潛伏空間優化

圖示:ReLSO 将序列映射到正則化模型适應度環境。(來源:論文)

為了解決這個問題,耶魯大學的研究團隊提出了一種資料驅動的深度生成方法,稱為正則化潛在空間優化 (ReLSO)。ReLSO 利用最近庫生成和表型篩選技術的改進所産生的更豐富的标記資料來學習聯合序列和結構資訊的高度結構化的潛在空間。此外,研究人員在 ReLSO 的潛在空間中引入了新的正則化,以便可以使用适應度函數上的梯度上升直接在潛在空間中優化和重新設計分子。

盡管蛋白質的适應度(研究人員通常使用這個術語來指代氨基酸序列擁有的某些可量化水準的功能:例如,結合親和力、熒光、催化和穩定性)更直接地是其折疊的三維結構而不是嚴格的氨基酸序列的結果,但通常最好将适應度直接與序列聯系起來,因為結構資訊可能并不總是可用的。事實上,在為治療發現或合成生物學生成變體庫時,無論是通過設計的組合方法還是通過随機誘變,解決産生的通常 10^3 – 10^9 變體中的每一個變體的結構都是成本高昂的。

在這裡,研究人員觀察到蛋白質設計基本上是在複雜而廣闊的氨基酸序列空間中的搜尋問題。對于大多數生物學相關的蛋白質,序列長度可以從幾十到幾千個殘基不等。由于 N 長度序列的每個位置可能包含 20 種可能的氨基酸之一,是以産生的組合空間(≈20^N 序列)通常太大而無法徹底搜尋。

值得注意的是,盡管非規範替代品的數量越來越多,但僅考慮規範氨基酸就會出現這個問題。這個搜尋空間規模的一個主要後果是,大多數公開可用的資料集,盡管它們的規模很大,但隻捕獲了一小部分可能的序列空間,是以絕大多數可能的變體都沒有被探索。

為了導航序列空間,通常應用稱為定向進化的疊代搜尋過程,其中生成成批的随機序列并篩選感興趣的功能或屬性。然後将最佳序列轉移到下一輪文庫生成和選擇。實際上,這相當于使用「爬山」方法搜尋序列空間,是以容易受到可能掩蓋更好序列發現的局部最大值的影響。蛋白質設計的其他方法包括基于結構的設計,其中理想的結構是先驗選擇的,任務是使序列适合設計。

近期,出現了幾種有前途的方法,将深度學習融入蛋白質的設計、搜尋和優化中。然而,這些方法通常用于計算機篩選,通過訓練模型直接從輸入的氨基酸序列預測适應度分數。最近的方法還利用強化學習來優化序列。盡管這些方法對于通過提出有希望的序列來減少實驗篩選負擔很有價值,但導航序列空間的挑戰仍未得到解決。

最近的方法還利用強化學習來優化序列。盡管這些方法對于通過提出有希望的序列來減少實驗篩選負擔很有價值,但導航序列空間的挑戰仍未得到解決。

是以,研究人員提出了 ReLSO,這是一種基于深度 Transformer 的蛋白質設計方法,它将 Transformer 模型的強大編碼能力與産生資訊豐富、低維潛在表示的瓶頸相結合。

ReLSO 中的潛在空間除了是低維的外,還通過潛在空間的适應度預測被正則化為(1)關于結構和适應度的平滑,(2)訓練資料點之間的連續和可插值;(3)基于資料外負采樣的僞凸。這種高度設計的潛在空間可以使用适應度的梯度上升直接在潛在空間中進行優化,并收斂到一個最佳值,然後可以将其解碼回序列空間。

基于Transformer的蛋白質生成,具有正則化潛伏空間優化

圖示:ReLSO 學習蛋白質序列的平滑表示。(來源:論文)

ReLSO 的主要貢獻包括以下内容。

使用具有自動編碼器類型瓶頸的基于 Transformer 的編碼器的新穎用途,用于對蛋白質序列進行豐富且可解釋的編碼。

由序列-函數關系組織的潛在空間,可緩解由于組合爆炸而導緻的優化困難。

一個凸潛在空間,使用基于範數的負采樣進行重塑,以誘導自然邊界和基于梯度的優化的停止标準。

一種基于插值的正則化,在周遊潛在空間時強制解碼序列空間逐漸變化。這允許對訓練資料所在的底層序列流形進行更密集的采樣。

用于從潛在空間生成新序列的梯度上升算法。

基于Transformer的蛋白質生成,具有正則化潛伏空間優化

圖示:抗雷珠單抗抗體的蛋白質序列優化。(來源:論文)

找到更好的表示的能力對于從蛋白質生物學領域的嘈雜、高維資料中提取見解至關重要。由它們的生化互相作用、進化選擇壓力和功能穩定性權衡所定義,蛋白質對于深度學習的應用來說是一個越來越重要的領域。更具體地說,生物治療開發領域從線性和非線性模型的應用中受益匪淺。該領域中一些非常有影響力的模型在很大程度上受到了監督,但最近的研究證明了利用無監督學習來預訓練預測模型以識别具有增強的感興趣特性的蛋白質序列的有用性。

耶魯大學團隊是采用了一種結合這兩種學習目标的替代路徑,而是采用了多任務學習方法。通過同時優化蛋白質序列生成和适應度水準預測,他們明确地實施了一個富含序列和适應度資訊的潛在空間。重要的是,這種适應度資訊可能包含各種不同的屬性,例如結合親和力和熒光,它們平滑地嵌入到訓練的模型的潛在空間中。然後,添加反映蛋白質工程原理的正則化,重塑過程中的潛在空間。利用這些正則化和模型架構,研究人員展示了梯度上升優化如何在搜尋蛋白質序列空間時改進蛋白質優化。

基于Transformer的蛋白質生成,具有正則化潛伏空間優化

圖示:利用 ReLSO 中的注意力關系進行适應性歸因。(來源:論文)

這種方法與其他方法的不同,證明了一種新的、有前途的途徑,這可以提高設計和優化蛋白質的能力。此外,這種方法僅依賴與适應度值配對的序列資訊表明,類似 ReLSO 的架構可以應用于其他生物分子,例如 DNA 和 RNA。特别是,核酸的一種應用是優化基因編輯工具,例如 CRISPR-Cas9,以減少脫靶效應。

具體來說,這是一個有趣的途徑,通過調整結合親和力以增加對某個目标或同種型的選擇性,但針對其他目标或異構體以減輕脫靶毒性。随着生物療法的日益突出,這一研究方向有可能在改進療法的開發中提供改進。

論文連結:https://www.nature.com/articles/s42256-022-00532-1

繼續閱讀