天天看點

CIKM 2021 | 基于IPCA的多屬性分子優化

今天給大家介紹以色列理工學院Kira Radinsky課題組發表在CIKM會議上的一篇文章“Multi-Property Molecular Optimization using an Integrated Poly-Cycle Architecture”。分子先導優化是藥物發現的一項重要任務,重點是生成類似于候選藥物但具有增強屬性的分子。大多數先前的工作都集中在優化單個屬性上。然而,在實際環境中,作者希望産生滿足多個限制條件的分子,例如,效力和安全性。同時優化這些屬性是困難的,主要是由于缺乏滿足所有限制的訓練樣本。作者在文章中提出了一種基于內建多循環架構(IPCA)的多屬性分子優化新方法,該架構分别學習每個屬性優化的轉換,同時限制所有轉換之間的潛在嵌入空間,能生成同時優化多個屬性的分子。同時,作者提出了一種新的損失函數,它平衡了單獨的轉換并穩定了優化過程。我們評估了優化兩個屬性——多巴胺受體(DRD2)和藥物相似性(QED)的方法,結果表明基于IPCA的多屬性分子優化方法優于之前的先進方法,尤其是當滿足所有限制且訓練樣本稀疏的情況。

CIKM 2021 | 基于IPCA的多屬性分子優化

1.引言

開發一種新藥是一個非常昂貴的過程,需要花費長達15年的時間和投入超過20億美元的成本。先導分子優化是一項重要任務,其中确定一種物質具有所需的特性,并改進其化學特性以建立将成為潛在候選藥物的最佳物質。針對這個問題,早期無監督機器學習方法顯示出低于标準的結果,但最近的工作帶來了更多的希望。目前的最新技術利用一種對偶學習方法進行單性質分子優化。其他先進的方法是基于監督的,涉及擷取一組配對分子即原始分子和具有更理想屬性的增強分子,來訓練監督的生成模型。大多數先前的工作主要集中在優化單個屬性、同時保持與原始先導分子的相似性上,但在實際應用中,通常需要生成滿足多種限制條件的分子,例如效力和安全性。但這項工作是具有挑戰性的,因為這些方法不僅需要大量的訓練集,還需要大量同時符合所有限制的分子訓練樣本,後者很難被滿足。為了解決這個問題,作者将分子指紋提供給翻譯器,保持優化分子與源分子的相似性。由于不同的屬性會導緻不同的優化路徑,具有不同的訓練複雜度,作者提出了一種新的損失函數,通過在學習過程中調整元件的系數來調整元件的相對重要性。

這項工作的貢獻有三方面:

(1)作者設計了一種新穎的未配對端到端生成模型和獨特的多循環訓練方案,将分子指紋提供給翻譯器來保持分子相似性,同時優化多個分子特性。這項工作是第一個在模型家族中使用SMILES分子表示解決多屬性優化問題。

(2)作者提出了一種自适應損失函數,可以在訓練期間平衡多屬性優化,進而産生出色的結果。

(3)作者展示了大量資料集的實驗結果,并優化了多層次的DRD2(多巴胺受體)和QED(藥物相似性)屬性。IPCA架構在生成具有更優屬性分子的成功率方面表現出優于SOTA基線的性能,特别是當資料中隻有少量滿足多個屬性的示例時。作者進行了消融測試,研究 IPCA在不同設定中的模型性能。

該系統目前正在部署用于個性化醫學和專注于基于RNA治療的納米技術研究實驗室,目标是使用IPCA架構來優化候選分子,以生成新的RNA載體分子。

2.方法

分子域(如高吸毒可能性)用大寫字母表示,如X,從該分子域提取的分子用小寫字母表示,如x。也就是說,𝑥∈𝑋表示𝑥是從域𝑋中提取的分子樣本。分子域的分布由𝑝(𝑋)和一個從這個域中提取的分子x表示,即𝑥∼𝑝(𝑋)。類似地,表示分子𝑥的嵌入向量,表示屬于𝑋的所有嵌入分子的域,其分布為𝑝()。用𝑝𝑟𝑜𝑝𝑖表示分子特性。例如,如果𝑝𝑟𝑜𝑝1是QED,那麼𝑝𝑟𝑜𝑝1(𝑥)就是分子𝑥的QED值。我們希望将具有退化特性的分子𝑚轉化為具有優化特性的分子𝑚’。假設𝐴是具有退化𝑁特性的分子域,𝑝𝑟𝑜𝑝𝑖,𝑖∈[1...𝑁]。作者希望将𝑚∈𝐴轉化為𝑚’∈𝐵𝑖其中𝑝𝑟𝑜𝑝𝑖(𝑚’)>𝑝𝑟𝑜𝑝𝑖(𝑚),i∈[1..𝑁],并且𝑚’保持與𝑚相似。圖1展示了𝑁=2的多循環架構,該模型包含每個屬性𝑝𝑟𝑜𝑝𝑖的優化路徑。是以,在雙屬性優化的情況下,第一個優化路徑将分子從𝐴轉換為𝐵1,第二個優化路徑将分子從𝐴轉換為𝐵2,通過共享嵌入空間實作兩個屬性都是最優的。

2.1分子優化路徑

在本節中,作者描述了單個屬性的端到端優化路徑。作者對屬性使用𝑝𝑟𝑜𝑝1表示法(圖 1的上半部分)。圖中虛線表示訓練路徑,實線表示推理路徑。

在推理過程中,沿着從A到B1(紅實線)的路徑進行翻譯。在離散文本SMILES表示中給出的輸入分子𝑎∈𝐴由編碼器𝐸𝑛𝐴編碼為連續表示,然後使用翻譯器𝑇𝐴𝐵1,2将其映射到具有增強屬性𝑝𝑟𝑜𝑝1的連續分子空間。最後,使用解碼器𝐷𝑒𝐵1,2将其解碼為SMILES表示。𝐸𝑛和𝐷𝑒分别是編碼器和解碼器GRU網絡,後跟全連接配接層,而𝑇是帶有resnet層的卷積神經網絡。

訓練路徑用虛線描述,上方的紅色虛線形成了一個逆時針圓圈,從𝐴到𝐸𝑛𝐴、𝑇𝐴𝐵1,2、𝑇𝐵1𝐴和𝐷𝑒𝐴,最後回到𝐴。𝐸𝑛𝐴将𝑎∈𝐴編碼到一個潛在的嵌入空間,𝑇𝐴𝐵1,2和𝑇𝐵1𝐴依次将編碼轉換為和傳回。𝐴的分布應該與𝐴’的分布沒有差別。上方紫色虛線描述了在域𝐵1中開始(和結束)的相同鏡像循環。

CIKM 2021 | 基于IPCA的多屬性分子優化

圖 1  N=2的多循環架構

為了提高源分子和優化分子之間的相似性,作者将分子的擴充連接配接指紋(𝑓𝑝𝑎和𝑓𝑝𝑏1)連接配接到其潛在表示,使得嵌入空間依賴于指紋,進而能夠表示具有相似嵌入的相似分子結構的分子。

2.2多屬性優化

多屬性優化結合了多個優化路徑,路徑由共享嵌入空間(圖1中的)連結,該空間受到𝐵1和𝐵2的限制。在這個潛在空間上應用解碼器𝐷𝑒𝐵1,2将産生針對𝑝𝑟𝑜𝑝1和𝑝𝑟𝑜𝑝2優化的分子。優化另一個新屬性(𝑝𝑟𝑜𝑝3)将需要添加一個編碼器(𝐸𝑛𝐵3),翻譯器(𝑇𝐵3𝐴)并将它們連結到主翻譯器(𝑇𝐴𝐵1,2,3),進而生成嵌入空間,參見圖2。這将為訓練階段貢獻兩個額外的周期:𝐸𝑛𝐴→𝑇𝐴𝐵1,2,3→𝑇𝐵3A→𝐷𝑒𝐴(附加紅色虛線路徑)和𝐸𝑛𝐵3→𝑇𝐵3𝐴→𝑇𝐴𝐵1,2,3→ 𝐷𝑒𝐵1,2,3(附加紫色虛線路徑)。通過相同的方式,可以簡單地添加用于優化的附加屬性。

CIKM 2021 | 基于IPCA的多屬性分子優化

圖 2  具有附加屬性的分子端到端架構

訓練:算法1描述了模型的端到端訓練。作者首先預訓練所有編碼器和解碼器,為𝐴、𝐵1和𝐵2分子域生成有效的連續分子表示。如果向翻譯器提供高品質的輸入,就能産生有效性更高的結果。然後,作者同時訓練四個周期:𝐸𝑛𝐴→𝑇𝐴𝐵1,2→𝑇𝐵1𝐴→𝐷𝑒𝐴(第8-11行),𝐸𝑛𝐴→𝑇𝐴𝐵1,2→𝑇𝐵2𝐴→𝐷𝑒𝐴(第12-14行),𝐸𝑛𝐵1→𝑇𝐵1𝐴→𝑇𝐴𝐵1,2→𝐷𝑒𝐵1,2(第15-18行)和𝐸𝑛𝐵2→𝑇𝐵2𝐴→𝑇𝐴𝐵1,2→𝐷𝑒𝐵1,2(第19-22行)。翻譯器與獨特的訓練技術都支援在和、和、和域中的相似分布。𝑇𝑖是一種從一個潛在嵌入域到另一個潛在嵌入域的翻譯神經網絡。例如:𝑇𝐴𝐵1,2将∈映射到∈。在訓練期間,𝑇𝐴𝐵1,2通過兩個訓練周期(圖1中的左上角和左下角)将∈ 轉換為∈。在推理過程中,∈被解碼為𝑏’1,2∈𝐵’1,2,這是優化分子的SMILES表示。

嵌入域之間的翻譯加入分子指紋𝑓𝑝𝑎、𝑓𝑝𝑏1和𝑓𝑝𝑏2(第8、9、12、15、16、19、20行)來保持源分子和優化分子之間的相似性。由于SMILES符号是一種離散表示,作者在解碼器中使用多層GRU單元,在給定目前狀态和目前輸入字元的情況下,來預測SMILES表示中的下一個字元。是以,這項分類任務的正确損失是交叉熵(CE),其中𝐶𝐸(𝑎’,𝑎)表示原始𝑎分子(SMILES字元)和重建的𝑎’分子之間的平均CE損失。

整體損失由四個循環的交叉熵損失(CE)組成。請注意,每個循環可以很容易地形式化為最小化的目标函數,例如,對于從域𝐴開始的左上角循環:

CIKM 2021 | 基于IPCA的多屬性分子優化

為了提高論文的可讀性和可重複性,作者提出了上述(算法1)的算法公式。作者提出了一種新的損失函數,可以自動權衡循環𝐸𝑛𝐵1→𝑇𝐵1𝐴→𝑇𝐴𝐵1,2→𝐷𝑒𝐵1,2和𝐸𝑛𝐵2→𝑇𝐵2𝐴→𝑇𝐴𝐵1,2→𝐷𝑒𝐵1,2的交叉熵損失。損失分量系數在訓練期間進行調整。

推理:在推理過程中,先導分子𝑚∈𝐴由𝐸𝑛𝐴編碼到嵌入域,由𝑇𝐴𝐵1,2映射到嵌入空間并由𝐷𝑒B1,2解碼。由于𝑇𝐴𝐵1,2在訓練過程中被所有循環共享,嵌入空間代表具有𝑝𝑟𝑜𝑝1和𝑝𝑟𝑜𝑝2的優化值的分子,經過解碼器𝐷𝑒B1,2産生了具有𝑝𝑟𝑜𝑝1和𝑝𝑟𝑜𝑝2的優化值的SMILES表示。

CIKM 2021 | 基于IPCA的多屬性分子優化

2.3損失函數

由于模型的目标是生成具有多種增強特性的分子,是以可能存在比其他特性更難優化的特性。在這種情況下,優化可能會傾向于“易于優化”的優化。盡管在損失中設定常數系數可能會有所幫助,但是在訓練期間調整這些系數會産生更平滑、更穩定的訓練過程,進而提高性能。作者通過在訓練期間動态調整損失分量系數來實作這一點(算法1中的𝜆𝐵1和𝜆𝐵2)。

作者初始化為𝜆𝐵1=1和𝜆𝐵2=1,并在每個驗證步驟之後更新這兩個系數:

CIKM 2021 | 基于IPCA的多屬性分子優化

其中𝜆1和𝜆2是初始常數值,𝑤𝑎𝑛𝑡𝑒𝑑𝑖是所需的𝑝𝑟𝑜𝑝𝑖屬性值,𝑣𝑎𝑙𝑖𝑑𝑎𝑡𝑖𝑜𝑛𝑖是驗證過程中生成分子的平均𝑝𝑟𝑜𝑝𝑖屬性值。

2.4用于分子嵌入翻譯的METN

在深度生成環境中,利用SMILES表示的模型的主要挑戰之一是分子的離散表示。作者描述了一個架構元件,該元件允許将離散表示轉換為連續表示,然後可以對其進行優化。作者遵循UGMMT的設計,并使用METN元件,該元件可以使用基于GRU的雙向編碼器和基于GRU的多層解碼器進行序列到序列的轉換。繼Barshatski和Radinsky之後,為了提高解碼器生成的分子的有效性,作者在訓練期間利用教師強制方法:作者為每個GRU單元提供正确的輸入字元,即使之前的GRU單元錯誤地預測了它。請讀者注意,編碼器的架構可以用更強大的架構(例如Transformer)代替。在這項工作中,作者提出了簡單的GRU架構,為了強調IPCA成功的關鍵在于分子指紋和自适應損失元件的循環限制。

3.實驗

3.1資料和基準模型

作者評估了IPCA在優化藥物相似性(QED)和多巴胺受體D2(DRD2)上的性能,其中原始訓練集包含122、710個分子對,測試集包含780個分子。實驗采用的基準模型是HG2G和JTVAE,其中HG2G是一種多屬性線索優化的監督方法,使用先導分子和增強分子的配對訓練集,JTVAE是一種領先的未配對方法。作者使用有效性、平均屬性值、新穎性、多樣性、成功率(SR)作為性能評估名額。

3.2主要實驗結果

作者研究了算法在幾種不同QED和DRD2成功門檻值的設定下的性能。給定一個先導分子,如果生成的分子的QED和DRD2高于其成功門檻值,并且它與先導分子足夠相似,則優化成功。每對門檻值構成一個單獨的資料集。對于每對門檻值,作者進行了一項實驗,研究滿足所有屬性的示例數量對算法性能的影響。圖3顯示了QED門檻值為0.7和DRD2門檻值為0.3的結果。使用其他門檻值也獲得了類似的結果(作者用(0.7,0.3)–(0.9,0.5)進行了實驗,滞後為0.05)。作者觀察到IPCA的性能穩定,随着滿足所有條件的訓練示例數量的減少而略有下降,而HG2G的性能受到很大影響。作者假設IPCA專注于優化每個屬性及其對共享優化嵌入空間的貢獻,而HG2G嘗試同時優化所有屬性。是以,隻要具有一種高性能的分子存在,IPCA的性能就會穩定,而HG2G随着滿足所有特性的分子數量減少而迅速惡化。與IPCA類似,JTVAE呈現穩定的結果,但成功率SR(Success rate)顯著降低。這表明優化兩個屬性的“簡單”梯度上升不足以完成多屬性優化的任務。

作者現在更深入地研究自然界中的常見情況,在自然界中,滿足所有待優化屬性的分子很少。作者删除了QED和DRD2均高于成功門檻值的訓練示例。因為這會影響訓練示例的數量,是以作者對多個屬性門檻值重複此過程。表1總結了從每個訓練集中移除的示例數量。表2報告了IPCA和這些資料集上的其他基準模型的結果。

CIKM 2021 | 基于IPCA的多屬性分子優化

表 1 訓練集大小

CIKM 2021 | 基于IPCA的多屬性分子優化

表 2 對DRD2和QED屬性的多個資料集的評估

請注意,JTVAE生成單個分子,是以标準偏差為零。觀察表2中總結的結果,作者注意到随着成功門檻值的增加,即使訓練示例的數量增加了,但是建立具有如此高DRD2和QED值的分子對于所有算法來說還是變得越來越具有挑戰性。但是,IPCA模型的成功率始終優于 JTVAE和HG2G(無論成功門檻值和訓練示例數量如何)。成功率之間的差異随着門檻值的降低而增加,在最低門檻值時達到2倍甚至更多。請讀者注意,盡管SR可能看起來普遍較低,但對于藥物開發行業來說卻是非常引人注目的。即使是一個成功的分子也可以使作者朝着藥物方向發展。請注意,作者計算了标準偏差和Cohen的𝑑效應大小,并確定它大于1,即作者提出的模型的SR與SOTA有很大不同。

IPCA 模型實作了更高的平均DRD2,而HG2G模型實作了更高的QED。JTVAE努力優化DRD2。這可能是由于自然界有更多具有高QED的分子,但高DRD2相對較少,是以與QED相比,DRD2的優化更具挑戰性。

平均QED、DRD2和相似性值本身并不能提供完整的性能分析,因為多重優化任務要求所有屬性同時存在于優化的分子中。是以,成功率名額更适合用于評估整體性能。

正如預期的那樣,HG2G模型的有效性優于IPCA模型的有效性。這不是一個問題,因為作者可以為每個分子生成大量候選物,使用RDkit自動篩選出無效的分子。總體而言,結果表明IPCA方法優于其他兩種監督配對方法。

CIKM 2021 | 基于IPCA的多屬性分子優化

圖 3 成功率與滿足所有屬性的訓練示例數量的關系

4.總結

在本文中,作者提出了基于IPCA的多性質分子先導優化方法,引入了一種新穎的內建多循環架構,其中包含每個屬性的優化路徑,這些優化路徑由共享嵌入空間連接配接,可以推理出多屬性優化。通過為每個附加屬性添加優化路徑并将其與共享嵌入空間連接配接,該架構可以擴充到不同數量的優化屬性。IPCA的一個顯著優勢是它能夠在訓練集中沒有此類示例的情況下推斷出優化的分子。作者通過實驗證明,就成功率而言,IPCA優于目前的SOTA架構。作者相信IPCA方法為自動算法藥物發現過程奠定了堅實的基礎。

繼續閱讀