天天看點

Nat. Commun. | AI語言工具揭示分子運動

大家好,今天推薦的是Nature Communication發表的UMD研究人員使用人工智能語言工具解碼分子運動的文章,文章的通訊作者是來自馬裡蘭大學化學與生物化學系和實體科學與技術學院的醫學博士Pratyush Tiwary。通過将自然語言處理工具應用于蛋白質分子的運動,馬裡蘭大學的科學家創造了一種抽象語言,用于描述蛋白質分子可以采取的多種形狀,以及如何以及何時從一種形狀轉變為另一種形狀。

Nat. Commun. | AI語言工具揭示分子運動

1

介紹

循環神經網絡(RNN)是一種人工智能(AI)技術,為時間序列模組化而開發。RNNs的一個具體且極為流行的執行個體是長短期記憶(LSTM)神經網絡,它擁有更多的靈活性,可用于語言模組化、機器翻譯和天氣預報等挑戰性任務。LSTMs的開發是為了緩解之前現有的RNN架構的局限性,這種架構中,它們無法學習源自遠古時間的資訊。這就是所謂的消失梯度問題,這個術語捕捉了RNN參數所經曆的梯度如何消失,作為基礎資料中的變化發生在多長時間前的函數。LSTMs通過門控機制控制梯度的流動來處理這個問題,其中門控機制可以打開或關閉由其為每個輸入學習的值決定。梯度現在可以保留較長的序列,LSTMs可以通過允許網絡動态學習忘記資訊的某些方面來長期積累資訊。最近,LSTMs還被證明有可能模仿實驗或模拟産生的軌迹,在獲得大量過去資料的情況下,對未來短時間内做出準确的預測。這項工作中,研究人員考慮了RNNs,特别是LSTMs的另一種可以說是新穎的用途,在進行預測時,與以前的工作相比,這些預測在很長一段時間内都是有效的,但隻是在統計意義上。盡管隻在短時間内有效,這裡研究人員感興趣的是來自化學和生物實體學的問題,其中強調的是更多的是在統計上有效的預測,在極長的時間内有效。

本研究工作中研究人員提出了一種替代方法,使用基于LSTM的語言模型,從高維系統的計算機模拟或實驗産生的一些低維階參數沿時間序列學習機率模型。研究人員還通過對不同模型系統的計算模拟表明,該語言模型不僅可以産生正确的玻爾茲曼統計量,而且可以産生表征基礎資料中動态的動力學。我們在這裡強調這個計算的一個獨特的方面,我們的架構需要的順序參數可以任意遠離真正的底層慢模式,通常稱為反應坐标。這反過來又決定了必須捕獲多長的記憶體核心,這在一般情況下是一個非常難以解決的問題。我們的架構是不可知的接近從真正的反應坐标和重建統計學上準确的動态在一個廣泛的秩序參數。我們還展示了損失函數的最小化如何導緻學習實體系統的路徑熵,并建立嵌入層和過渡機率之間的聯系。按照這種聯系,我們還展示了如何通過嵌入向量來定義過渡機率。我們分别提供了模型電位的Langevin動力學的Boltzmann統計和動力學的測試,丙氨酸二肽的MD模拟,以及從單分子力譜實驗對多态核糖開關的軌迹。我們還比較了我們的協定與替代方法,包括隐藏馬爾科夫模型。研究人員的工作代表了一個流行的人工智能架構的新用途,以執行動态重建在一個潛在的高基本和實際相關的領域,包括材料和藥物設計。

2

方法

2.1 模型

所有模型的微分都有兩個自由度x和y。本研究的前兩個模型有三個可轉移的狀态,其控制微分U(x, y)由下列公式給出:

Nat. Commun. | AI語言工具揭示分子運動

研究人員還建立了一個4-state模型系統:

Nat. Commun. | AI語言工具揭示分子運動

2.2 分子動力學

Langevin動力學模拟的積分時間步長為0.01個機關,線性3态和4态勢的模拟在β=9.5下進行,三角形3态勢的模拟在β=9.0下進行,其中β=1/kBT。丙氨酸二肽的MD模拟使用軟體GROMACS 5.0.4,用PLUMED 2.4修擷取得的。

3

結果

3.1 分子動力學可以映射成一個字元序列

這項工作的核心是在空間和時間上充分分化的分子動力學軌迹,可以映射到一些語言中的字元序列中。通過使用一個字元級的語言模型,有效地預測未來的字元,給定序列中迄今為止的字元,可以學習被映射到字元中的MD軌迹的演變。研究人員使用的模型是随機的,因為它通過每個字元在用于訓練的語料庫中出現的機率來學習它們。這個語言模型由三個順序部分組成:首先是一個嵌入層,将一熱向量映射到密集向量,然後是一個LSTM層,它通過一個可訓練的遞歸函數連接配接不同時間步長的輸入狀态和隐藏狀态,最後是一個密集層,将LSTM的輸出轉化為分類機率向量。

Nat. Commun. | AI語言工具揭示分子運動

3.2 訓練網絡等同于學習路徑熵

研究人員通過不同系統的數值結果證明,這項工作的核心發現是用于語言模組化的LSTM架構也可以用來捕捉化學和生物實體學中普遍存在的動力學和熱力學方面的動态軌迹。

3.3 嵌入層捕捉動能距離

詞嵌入理論中,嵌入層提供了對詞之間相似性的衡量。然而,從路徑機率表示來看,由于推導可以不需要嵌入向量x,是以不清楚嵌入層是如何工作的。研究人員通過測試系統的數值示例表明,LSTM嵌入層具有通過等式的轉移機率,可以捕獲原始實體系統中兩個狀态之間的平均通勤時間,而與饋入LSTM的低維投影的品質無關。

3.4 測試系統

為了證明想法,研究人員考慮一系列不同的動力學軌迹。包括三個模型電位、分子丙氨酸二肽模型,以及從單分子力譜實驗的多态核糖開關的軌迹。當将神經網絡應用于模型系統時,嵌入次元M設定為8,LSTM單元L設定為64。當學習丙氨酸二肽和核苷酸的軌迹時,取M=128,L=1024。所有的時間序列都被分批成序列,序列長度為100,批次大小為64。對于每個模型使用随機梯度下降的方法對神經網絡進行20個epochs的訓練,直到訓練損失變得小于驗證損失,這意味着已經達到了一個合适的訓練。

3.5 模型電勢的玻爾茲曼統計學和動力學

盡管研究人員的LSTM模型可以捕獲不同模型電位的平衡機率和過渡速率,而不論輸入投影方向或順序參數如何,正如人們所期望的那樣,它仍然不是萬能。

Nat. Commun. | AI語言工具揭示分子運動

3.6 丙氨酸二肽的玻爾茲曼統計和動力學

研究人員将LSTM模型應用于丙氨酸二肽的構象轉變研究,丙氨酸二肽是一個由22個原子組成的模型生物分子系統,與熱浴耦合時會發生熱波動。雖然整個系統包括大約63個自由度,但通常使用扭轉角ϕ和ψ來識别該肽的構象。多年來大量的方法已在此系統上,以增強扭轉采樣,以及建構最佳反應坐标被測試。結果表明,研究人員的LSTM模型可以非常準确地捕獲正确的玻爾茲曼統計量,以及在兩個主要的亞穩态之間移動的躍遷速率。重要的是,無論選擇何種形式的LSTM投影時間序列,平衡機率和躍遷動力學的重建都是極其準确的。

Nat. Commun. | AI語言工具揭示分子運動

3.7 從單分子力譜軌迹學習

研究人員使用LSTM模型從以10.9 pN的恒定力進行的多态核糖開關的單分子力譜實驗中學習。結果顯示了在5個獨立訓練集上平均的機率密度曲線與從實驗資料計算出的機率密度之間的一緻性。

Nat. Commun. | AI語言工具揭示分子運動

3.8 基于嵌入層的動态距離

該模型通過學習動力學來捕獲正确的連通性,清楚地證明了該模型能夠沿任何自由度繞過投影誤差。結果還說明了,無論研究人員使用何種自由度,LSTM模型仍會給出正确的過渡時間。是以,LSTM中的嵌入矢量可以定義一個有用的距離度量,該距離度量可用于了解和模組化動力學。

Nat. Commun. | AI語言工具揭示分子運動

4

讨論

這項工作展示了在化學和生物實體等不相關領域使用為自然語言處理開發的AI方法的潛力。研究人員的工作證明人工智能方法能夠執行人們本來可以完成的任務是至關重要的第一步。未來的工作中,研究人員将探索不同的方向,這裡開發的人工智能方法可以用來執行在非人工智能設定中越來越非平凡的任務。更具體地說,這項工作中,研究人員已經表明,基于LSTM神經網絡的簡單字元級語言模型可以學習從實體系統生成的時間序列的機率模型。該機率模型不僅可以學習Boltzmann統計量,而且還可以捕獲大量的動力學軌迹。為編碼單詞和字元的上下文含義而設計的嵌入層顯示出很好的連接配接性。嵌入層的一個有趣的未來工作線可以是發現不同的狀态,當它們被相同的反應坐标值錯誤地表示時,這類似于尋找同一單詞或字元的不同上下文含義。對于這裡所考慮的不同模型系統,研究人員可以獲得正确的時間尺度和速率常數,而不管輸入到LSTM中的階次參數的品質如何。是以,研究人員認為這種模型優于傳統的學習熱力學和動力學的方法,傳統的方法往往對投影的選擇非常敏感。最後,當人們隻能獲得一些低維投影時,嵌入層可以用來定義一種新型的高維資料的距離度量。研究人員希望這項工作代表了使用RNNs來模組化、了解和預測生物學、化學和實體學中發現的複雜随機系統動态的第一步。

繼續閱讀