天天看點

機器學習加速藥物發現,基于 GNN 的分子表征對比學習

編輯/凱霞

快速準确地預測分子特性,對于推進從材料科學到制藥等領域的科學發現和應用具有重要意義。由于探索潛在選擇的實驗和模拟既耗時又昂貴,科學家們開始使用機器學習 (ML) 方法來幫助計算化學研究。但是,大多數 ML 模型隻能利用已知或标記的資料。這使得準确預測新化合物的性質幾乎是不可能的。

雖然标記的分子資料數量有限,但可行但未标記的資料數量正在迅速增長。

卡内基梅隆大學的研究人員思考他們是否可以利用這大量的未标記分子來建立ML模型,這種模型在屬性預測方面比其他模型表現更好。他們最終開發了一個名為 MolCLR(Molecular Contrastive Learning of Representations with GNN) 的自我監督學習架構。MolCLR 通過利用大約 1000 萬個未标記的分子資料,顯著提高了 ML 模型的性能。

該研究結果以「Molecular contrastive learning of representations via graph neural networks」為題,于 2022 年 3 月 3 日發表在《Nature Machine Intelligence》上。

機器學習加速藥物發現,基于 GNN 的分子表征對比學習

分子表征在新型化合物的設計中是基礎和必不可少的。由于可能的穩定化合物的數量巨大,開發一種資訊表示以概括整個化學空間可能具有挑戰性。傳統的分子表示,例如擴充連接配接指紋(ECFP),已成為計算化學中的标準工具。

近年來,随着機器學習方法的發展,資料驅動的分子表示學習及其應用,包括化學性質預測、化學模組化和分子設計,越來越受到關注。

然而,學習這樣的表示可能很困難。首先,分子資訊很難完整地表示出來。其次,化學空間的大小是巨大的,這使任何分子表示都很難在可能的化合物中泛化。第三,分子學習任務的标記資料昂貴且遠遠不夠。是以,大多數分子學習基準中的标簽數量遠遠不夠。在如此有限的資料上訓練的機器學習模型很容易過度拟合,并且在與訓練集不同的分子上表現不佳。

受益于可用分子資料的增長,自我監督/預訓練的分子表示學習也得到了研究。

在這裡,研究人員提出了 MolCLR(通過圖神經網絡進行表征的分子對比學習)來解決上述所有挑戰。這是一種利用大量未标記資料(約 1000 萬個獨特分子)的自我監督學習架構。

MolCLR 架構

MolCLR 模型是在對比學習架構的基礎上開發的。來自正增強分子圖對的潛在表示與來自負對的表示形成對比。整個管道由四個部分組成:資料處理和增強、基于 GNN 的特征提取器、非線性投影頭和歸一化溫度标度交叉熵(NT-Xent)對比損失。

機器學習加速藥物發現,基于 GNN 的分子表征對比學習

圖示:MolCLR 概述。(來源:論文)

MolCLR 預訓練的 GNN 模型針對分子特性預測進行了微調。與預訓練模型類似,預測模型由 GNN 主幹和 MLP 頭組成,其中前者與預訓練的特征提取器共享相同的模型,後者将特征映射到預測的分子屬性中。微調模型中的 GNN 主幹網絡通過預訓練模型的參數共享進行初始化,而 MLP 頭則随機初始化。然後在目标分子特性資料庫上以監督學習的方式訓練整個微調模型。

三種分子圖增強政策

在 MolCLR 預訓練中,建構分子圖并開發圖神經網絡編碼器來學習可微表征。提出了三種分子圖增強政策:原子掩蔽、鍵删除和子圖删除。

在原子掩蔽中,消除了有關分子的一條資訊。在鍵删除中,原子之間的化學鍵被擦除。兩種增強的組合導緻子圖删除。通過這三種類型的變化,MolCLR 被迫學習内在資訊并進行關聯。

分子性質預測

為了證明 MolCLR 的有效性,研究人員對來自 MoleculeNet 的多個具有挑戰性的分類和回歸任務的性能進行了基準測試。

表 1:不同模型在七種分類基準上的測試性能。(來源:論文)

機器學習加速藥物發現,基于 GNN 的分子表征對比學習

研究得出:(1)與其他自監督學習或預訓練政策相比,MolCLR 架構在 7 個基準測試中有 5 個實作了最佳性能,平均提高了 4.0%。這種改進說明 MolCLR 是一種強大的自我監督學習政策,它很容易實作,并且對特定領域的複雜性要求很少。(2)與表現最好的監督學習基線相比,MolCLR 也表現出可匹敵的性能。在一些基準測試(例如,ClinTox、BACE、MUV)中,MolCLR 甚至超過了 SOTA 監督學習方法。(3)值得注意的是,MolCLR 在分子數量有限的資料集上表現非常出色,例如 ClinTox、BACE 和 SIDER。該性能驗證了 MolCLR 學習了可以在不同資料集之間傳輸的資訊表示。

MolCLR 表征的研究

研究人員使用 t-SNE 嵌入檢查由預訓練的 MolCLR 學習的表示。t-SNE 算法将緊密的分子表示映射到 2D 中的相鄰點。

MolCLR 學習了具有相似拓撲結構和官能團的分子的緊密表示。例如,頂部顯示的三個分子具有與芳基連接配接的羰基。左下角顯示的兩個分子具有相似的結構,其中一個鹵素原子(氟或氯)與苯相連。這說明即使沒有标簽,該模型也會學習分子之間的内在聯系,因為具有相似特性的分子具有相似的特征。

機器學習加速藥物發現,基于 GNN 的分子表征對比學習

圖示:MolCLR 通過 t-SNE 學習的分子表征的可視化。(來源:論文)

為了進一步評估 MolCLR,研究人員将 MolCLR 學習的表示與傳統的分子 FP(例如 ECFP5 和 RDKFP)進行了比較。

機器學習加速藥物發現,基于 GNN 的分子表征對比學習

圖示:使用查詢分子 (PubChem ID 42953211) 比較 MolCLR 學習表示和傳統 FP。(來源:論文)

研究表明:通過對大量未标記資料的對比學習,MolCLR 自動将分子嵌入到代表性特征中,并以化學上合理的方式區分化合物。

「我們已經證明 MolCLR 有望實作高效的分子設計,」通訊作者、機械工程助理教授 Amir Barati Farimani 說。「它可以應用于多種應用,包括藥物發現、能源儲存和環境保護。」

作為未來的工作,有許多值得研究的方向。例如,GNN 主幹的改進(例如,基于 Transformer 的 GNN 架構)可以幫助提取更好的分子表示。此外,自我監督學習表示的可視化和解釋也很有趣。這樣的研究可以幫助研究人員更好地了解化合物,有利于藥物發現。

參考内容:https://techxplore.com/news/2022-03-machine-smarter-drug-discovery.html

人工智能×[ 生物 神經科學 數學 實體 材料 ]

「ScienceAI」關注人工智能與其他前沿技術及基礎科學的交叉研究與融合發展。

歡迎關注标星,并點選右下角點贊和在看。

繼續閱讀