
從 2D 分子圖中預測穩定的 3D 構象一直是計算化學中的一個長期挑戰。而最近,機器學習方法取得了相比傳統的實驗和基于實體的模拟方法更優異的成績。這些方法主要側重于模拟分子圖上相鄰原子之間的局部互相作用,而忽略了非鍵合原子之間的長程互相作用。然而,這些未成鍵的原子在 3D 空間中可能彼此接近,模拟它們的互相作用對于準确确定分子構象至關重要,尤其是對于大分子和多分子複合物。在本文中,作者提出了一種稱為動态圖評分比對 (DGSM) 的分子構象預測新方法,該方法通過在訓練和推理過程中根據原子之間的空間接近度動态建構原子之間的圖結構來對局部和遠端互相作用進行模組化。具體來說,DGSM根據動态建構的圖,使用評分比對方法直接估計原子坐标對數密度的梯度場。可以以端到端的方式有效地訓練整個架構。多項實驗表明,DGSM 的表現遠超該領域一流水準,并且能夠為更廣泛的化學系統生成構象,例如蛋白質和多分子複合物。
1.簡介
基于圖的分子表示普遍出現于各種任務之中,例如屬性預測和分子生成。不過,分子更自然的表示方法是使用 3D 幾何或 3D 構象,它将分子表示為一組 3D 坐标。分子的 3D 表示是許多任務的核心,例如分子性質預測和虛拟篩選。然而,确定分子的構象仍然是一項具有挑戰性的任務——源于昂貴又耗時的計算方法(例如分子動力學 (MD))和實驗方法(例如晶體學)。
最近,機器學習方法已被證明有望用于分子構象的生成。GRAPHDG 和 CGCF 等開創性的方法會先進行鍵合原子間距離的預測,并據此通過後處理算法求解 3D 坐标。最近, Shi 等人提出了 CONFGF ,它采用評分比對技術來學習鍵合原子之間的僞力,并疊代地将這些力施加到随機初始化的 3D 結構上,直到收斂。CONFGF 突破了之前工作中的兩段式方法,并顯著提高了性能。然而,這些方法有一個共同的主要限制——它們主要側重于模拟由輸入分子圖定義的鍵合原子之間的局部互相作用,但未能捕獲非鍵合原子之間的長程互相作用,因為它們隻根據鍵合原子之間的距離(或梯度)進行模組化。
圖1 三個分子系統,其中遠端互相作用對其構象至關重要
而在分子力學中,改變構象的分子的勢能可以模組化為四部分的總和:
E = Ebond + Eangle + Etorsion + Enon-bonded
其中 Ebond、Eangle 和 Etorsion 對鍵合原子之間的局部互相作用進行模組化,這些互相作用是在以前的方法中模組化的。非鍵合原子之間的長程互相作用,表示為Enon-bonded,也是非平凡的,它通過不可忽略的靜電力或範德華力等塑造分子幾何形狀。對于多分子複合物,非鍵互相作用主導複合物的幾何結構。是以,構象生成的理想解決方案應該是同時捕獲局部和遠距離互相作用。在圖 1 中,作者展示了三個典型的分子系統,其中長程互相作用在确定它們的構象方面起着關鍵作用。
為了實作上述模組化遠端互相作用的構想,在本文中,作者提出了動态圖評分比對 (DGSM) 用于分子構象生成,遵循CONFGF 的學習原子坐标對數密度梯度的原則。不同于依靠分子圖的靜态輸入作為現有工作,其基本思想是在訓練和推理過程中根據原子的空間接近度動态建構原子之間的圖結構。這允許模型 (1) 動态學習分子圖表示,并考慮到長程互相作用的進化圖結構,以及 (2) 動态确定一組對目前原子坐标梯度有貢獻的原子間距離。具體來說,動态圖的邊由兩部分組成。第一部分由共價鍵決定,共價鍵捕獲原子之間的局部互相作用(Ebond、Eangle 和 Etorsion)。邊的第二部分由每個訓練或采樣步驟中原子之間的空間接近度動态确定,即,兩個原子隻要它們是接近的就連接配接,無論它們是否鍵合。這種政策能夠有效地捕獲非局部互相作用(Enon-bonded),因為長程互相作用的大小與原子之間的距離成反比。同時它保持可擴充性,因為避免連接配接所有原子對,這具有平方複雜度。此外,模組化非鍵互相作用使模型能夠對多分子複合物的構象進行采樣,這代表了更廣泛的問題适用情況。
作者進行了大量的實驗,并将 DGSM 與之前在标準構象生成和屬性預測任務上的最先進方法進行了比較。結果表明 DGSM 明顯優于以前的方法,證明了模組化長程互相作用的好處。此外,為了進一步證明 DGSM 的優勢,作者将注意力放在兩個更具挑戰性的任務上——蛋白質側鍊構象預測和多分子複合結構預測。這兩項新任務代表了兩類實際挑戰:預測大分子和多分子複合物的結構。
2.相關工作.
先前關于構象生成的工作主要依賴于分子動力學 (MD) ,其中新的構象是根據初始構象和原子間勢的實體模型順序生成的。雖然能夠準确地采樣平衡構象,但這些方法的計算量很大,尤其是對于大分子系統,例如蛋白質。另一類方法利用距離幾何并啟發式地将原子之間的距離固定為理想化值,這種方法更快但準确度較低。
最近,人們提出了許多各種用于分子構象生成的深度生成模型,它們在計算效率和準确性之間取得了良好的平衡。在這些方法中,Mansimov 等人首先提出了一個變分自編碼器來直接生成 3D 原子坐标。盡管很簡單,但這種方法無法模拟分子構象的旋轉-平移同變性,導緻性能不理想。為了保持旋轉-平移同變性,Simm 和 Hernandez-Lobato以及 Xu 等人,首先對分子距離幾何進行模組化,然後通過解決優化問題從生成的距離重建原子坐标。最先進的方法 CONFGF 估計作用在原子上的僞力并通過 Langevin MCMC 生成構象,繞過了之前工作中的兩段式方法,顯著提升了性能。這裡存在兩個同期工作,它們分别通過幾何元素組裝和雙層程式設計以端到端的方式生成構象。最近也有人嘗試使用強化學習進行構象搜尋,這種方法無法明确地對鍵長進行模組化,并且與其他方法有着根本的不同。總而言之,之前的所有方法都主要側重于基于靜态輸入分子圖(或通過在兩跳和三跳之外的原子之間添加輔助邊來增強圖)對局部互相作用進行模組化,而忽略了原子之間的長程非鍵互相作用。相比之下, DGSM 通過動态圖評分比對顯式地對局部和長程互相作用進行模組化,并有效地解決了上述問題。
3.準備知識
3.1 符号和問題表述
3.2 基于分數的模組化生成
圖2 DGSM 的拟訓練程式
4.模型
作者的方法将構象生成視為由僞力(即原子梯度)引導的原子依次向高密度區域移動。在Shi等人的帶領下,研究者們利用去噪評分比對來近似原子坐标的對數密度的梯度。為了模拟對局部和長程互相作用(等式 1)敏感的原子梯度,并受到長程互相作用随着距離增加而迅速減少這一事實的啟發,作者建議根據目前的空間接近度動态建構在一定距離内的原子對之間具有非鍵合邊的圖結構。通過這種方式,使模型能夠有效地捕獲長程非鍵互相作用,同時避免連接配接所有原子,這在計算上是昂貴的。為了確定訓練期間圖結構的分布與生成期間的分布比對,作者設計了一種動态圖評分比對算法,其中圖結構也在訓練期間根據添加的擾動動态确定。整個架構如圖2和圖3所示。下面作者将在4.1節描述笛卡爾坐标的得分估計架構,在4.2節描述動态圖得分比對算法,在4.3節描述生成過程。
4.1 笛卡爾坐标系下的分數估計
作者的目标是學習原子坐标的對數密度(分數)的梯度,即∇R log p(R | )。使用圖神經網絡 (GNN) 在絕對笛卡爾坐标上直接參數化評分網絡依賴于旋轉和平移的選擇,這是分子系統中影響構象變化的非必要自由度。是以作者将它們從模型中排除,并首先估計一組動态确定的原子間距離的分數,然後通過到笛卡爾坐标距離的微分來反向傳播梯度。
受上述等式的啟發,作者首先訓練一個噪聲條件評分網絡來聯合預測原子間距離的分數。在訓練噪聲條件評分網絡後,原子坐标的對數密度的梯度 ,可以通過等式4估計。作者有如下命題:
4.2 結合噪聲條件評分網絡的動态圖評分比對
在本節中,作者描述了所提出的原子間距離動态圖評分比對,目的是對局部和遠端互相作用進行模組化。為了確定學習的評分函數覆寫具有不同圖結構的所有區域,在訓練期間基于添加的擾動動态建構具有原子之間非鍵合邊的圖結構。繼 Songand Ermon之後,作者訓練了一個噪聲條件評分網絡來聯合估計一組動态确定的原子間距離的擾動分布的分數,并結合消息傳遞神經網絡(MPNN)将分數參數化。
動态評分比對 為了捕捉分子系統中非鍵原子之間的長程互相作用,一種簡單的方法是将分子圖視為全連接配接圖,并模拟所有原子對之間距離的對數密度梯度。然而,這種做法在計算上是昂貴的,特别是對于大型系統,例如蛋白質,而且有時是不必要的,例如,範德華互相作用會随着距離的增加而迅速衰減。作為補救措施,作者設定了一個截止距離,并假設每個原子隻與截止距離内的所有原子互相作用,忽略所考慮球體之外的所有互相作用。這是計算化學中一種非常流行的政策,它在效率和準确性之間取得了良好的平衡。
圖3 根據朗之萬動力學提出的 DGSM 的生成過程
使用上述政策,特定分子圖的圖結構是可變的并取決于添加的擾動,隻要采樣足夠的噪聲,所有圖結構都是可能的。這将産生 (1) 一個用于消息傳遞和表示學習的動态确定的圖結構,它考慮了遠端互相作用;以及 (2) 一組動态确定的原子間距離,根據等式4它有助于原子坐标的梯度分數估計。請注意等式5 的原始實作需要計算原子對之間的所有距離。在實踐中,為了避免二次複雜性,作者在為每個原子添加擾動之前,通過建構具有 2δ門檻值的半徑圖對遠鄰進行了預過濾,并憑經驗驗證了這種做法的高效性和有效性。
4.3 生成
然後使用來自評分網絡的梯度資訊更新構象(方程 4)。這裡提供算法1中的僞代碼。
5.實驗
繼先前關于構象生成的工作之後,作者使用以下兩個标準任務評估所提出的 DGSM:構象生成(第 5.1 節)和屬性預測(第 5.2 節)。為了進一步證明 DGSM 模拟遠端互相作用的能力,在兩個更具挑戰性的基準任務上對其進行了評估:蛋白質側鍊構象生成 和 多分子複合物構象生成(第 5.3 節)。在特定任務的部分中描述了實驗設定。
5.1 構象生成
設定 此任務通過測量生成的構象的準确性和多樣性來評估模型生成穩定分子構象的能力。根據之前的工作,我們使用 GEOM-QM9 和 GEOM-Drugs資料集來完成這項任務。我們使用提供的 train-testsplit。GEOM-QM9 和 GEOM-Drugs 的訓練分裂都包含 40,000 個分子,每個分子有 5 個用于訓練的構象,或總共 200,000 個構象。GEOM-QM9 的測試分裂包含 200 個具有 22,408 個構象的分子,GEOM-Drugs 的測試分裂包含 200 個具有 14,324 個構象的分子。
将 DGSM 與 5 個最先進的方法進行比較:RDKIT、CVGAE 、GRAPHDG 、CGCF 和 CONFGF。對于測試集中的每個分子,采樣的構象是其參考構象的兩倍。使用比對分數 (MAT) 來衡量生成構象的準确性,并使用覆寫分數 (COV) 來衡量多樣性。這兩個名額都基于分子之間的均方根偏差 (RMSD),同時考慮了對稱性。
結果 作者報告了測試拆分 GEOM-QM9 和 GEOM-Drugs 資料集中所有分子的平均 COV 和 MAT 分數。如表 1 所示,DGSM 始終優于其餘所有方法。值得注意的是,DGSM 和 CONFGF 都是基于分數的模型,但 DGSM 實作了更好的性能。它們之間的差別在于 DGSM 通過動态圖評分比對成功地考慮了遠端互相作用。這證明了模組化遠端互相作用的顯著好處。在圖 4 中展示了由不同方法生成的幾種構象,這表明 DGSM 成功捕獲了高亮區域的遠端互相作用,而其他方法失敗,導緻這些區域的結構扭曲。
表 1 GEOM-QM9 和 GEOM-Drugs 資料集上的 COV 和 MAT 分數
圖4 基于來自 GEOM-Drugs 測試集的四個随機分子圖,由不同模型生成的構象示例
5.2 屬性預測
設定 此任務示範了如何将分子構象的生成模型應用于作為下遊任務的特性預測。它還提供了對不同光線下生成的構象品質的評估。通過在之後聚合其構象特性來估計分子圖的整體特性。具體來說,首先使用模型為 GEOM-QM9子集中的每個分子圖生成 50 個構象,并使用量子化學工具包 PSI4 來計算每個構象的能量和 HOMO-LUMOgap。然後,根據構象能量和間隙計算平均能量 、最低能量 Emin、平均間隙 、最小間隙 和最大間隙 。通過測量它們對實際情況真值的平均絕對誤差 (MAE) 來評估估計的內建屬性的準确性。CVGAE 被排除在這項任務中,因為它的性能很差。
表2 eV 中預測的整體屬性的平均絕對誤差 (MAE)
結果 表 2 顯示 DGSM 明顯優于其他基于機器學習的方法。DGSM 對平均能量 和最小間隙 的估計接近 RDKIT,但仍優于最具競争力的基于 ML 的方法 CONFGF。構象能的計算對幾何形狀的變化高度敏感——即使鍵長的細微偏差也會導緻顯着的能量變化。是以,DGSM 的優越性能表明它比其他方法生成更準确的構象,進而導緻更準确的屬性估計。這再次驗證了模組化遠端互相作用的有效性。
5.3 大分子和多分子模組化
蛋白質側鍊構象 此任務是根據其骨架結構預測蛋白質側鍊構象。與前幾節中的正常分子構象生成相比,這項任務的主要挑戰有兩個:(1)大量原子,這禁止建構以二次方增長的完整圖來模拟長程互相作用。(2)共價鍵稀疏,這限制了之前工作中邊緣增強技術的力量。DGSM 通過引入的動态圖評分比對解決了這兩個挑戰。
表3 不同的側鍊構象生成方法的 RMSD
圖5 (a) 生成的具有原子級坐标的蛋白質側鍊構象的示例 (b) DGSM 生成的兩個多分子複合物的構象。
作者使用 SidechainNet 資料集來完成這項任務,并遵循官方的訓練測試分割。作者将 DGSM 與最先進的構象生成模型 CONFGF 進行了比較。此任務的主要目的是證明 DGSM 對大分子的有效性。對于每個蛋白質,生成了 5 個不同初始化的側鍊構象,并計算了真實構象和生成的構象之間的均值和最小 RMSD。通過對表 3 測試集中每種蛋白質的分數求平均值來報告總體平均和最小 RMSD 分數,表明了 DGSM 比以前的最先進模型取得了更好的性能。作者還在圖5(a)中給出了一個例子,可以看到預測的構象在主要部分與實際情況是一緻的。
圖6 氫氧距離的分布
多分子複合物構象 此任務是預測多分子複合物的構象。多分子複合物由多個分子組成,它們之間沒有共價鍵。長程互相作用支配着多分子複合物的結構。此任務的目的是展示 DGSM 對更廣泛問題的潛在應用,并為構象生成提供新的基準。作者使用量子化學軟體 xtb 建構了一個由24個水-有機複合物組成的資料集,每個水-有機複合物都有數百個構象,其中20個複合物用于訓練模型,剩下4個作為測試資料集。不報告基于 RMSD 的名額,例如 COV 和 MAT,因為多分子複合物的結構非常靈活。圖 5(b) 顯示了兩組生成示例。作者觀察到水分子規則地放置在溶質有機分子周圍。值得注意的是,氫鍵(水和溶質之間,以及水和水之間)正确形成了。這也可以在氫氧距離的直方圖(圖 6)中得到證明,其中在 1.5Å 和 2.5Å 之間有一個峰值,即氫和氧之間的氫鍵長度範圍。
6.結論和未來工作
作者提出了 DGSM,這是一種用于生成平衡态分子構象的基于評分的新方法。通過在訓練和推理期間基于原子之間的空間接近度動态建構圖結構,DGSM 能夠對分子系統中的局部和遠端互相作用進行模組化。作者還設計了一種動态圖評分比對算法來有效地估計原子梯度,其中圖結構是根據添加的擾動動态确定的。對兩個标準任務和兩個原始任務的大量實驗表明,DGSM 大大優于最先進的方法,證明了模組化遠端互相作用的顯著優勢。将來,作者計劃将該方法應用于更具挑戰性的蛋白質結構預測問題。