Nat. Commun. | 條件GAN網絡和基因表達特征用于類苗頭化合物的發現

今天給大家介紹的是拜耳作物科學公司、拜耳公司機器學習研發部和遺傳毒理學部于2020年1月聯合發表在Nature Communications上的一篇論文，這篇文章通過一種生成模型進行分子的從頭設計以及合成優化。該生成模型利用轉錄組學資料進行訓練，這樣可高機率地自動生成所需轉錄組譜的分子，在隻提供所需狀态的基因表達标記而無需對任何訓練的化合物進行提前靶标注釋的情況下，該模型就能自動為所需靶标設計類似活性的分子，并且得到了與活性化合物更相似的分子，這為藥物研發提供了一種新的方法。

背景

藥物研發是一個漫長而又艱難的過程，其困難在于理論上可能存在的1060個類藥物分子中隻有一小部分可以用于治療，是以在藥物發現過程中面臨的挑戰之一是苗頭化合物（Hit）的識别。苗頭化合物是指對特定靶标或作用環節具有初步活性的化合物，這一階段決定了整個藥物發現過程的起點。苗頭化合物可能是天然配體，也可能是從文獻、專利或者分子的結構資訊中選取的分子。但對于新型靶标或者孤立靶标這種沒有先前的資訊可利用的分子，之前的方法例如使用組合庫或者高通量篩選（HTS）費時費力，效率不高。後來随着計算機的發展，出現了基于計算方法或資料驅動的方式來輔助苗頭化合物的識别，一類是從包含大量分子的虛拟篩選庫的虛拟篩選技術，通常這種方法是利用分子的相似性或者分子對接技術（molecular docking），一類是利用逆QSAR、粒子群優化或者遺傳算法等自動生成具有特定性質的新分子，但總體來說這些方法效果也不是特别好。而在如今的人工智能時代，深度生成模型的出現使得藥物分子的生成得以很好的解決。生成模型能夠從特定訓練樣本學習到樣本的屬性，然後自動生成具有類似特征的新實體，是以其廣泛應用于分子設計、組合優化和苗頭化合物的發現，但是現有的分子生成模型幾乎都忽略了配體與靶标的互相作用，針對該問題，作者提出了一種将條件GAN網絡和WGAN-GP(帶梯度懲罰的WGAN)網絡結合在一起的生成模型，該生成模型将系統生物學和分子設計聯系在一起，在僅使用靶标基因敲除的基因表達特征即可生成活性分子，使得該模型可在無先驗知識的情況下生成類苗頭化合物，并且是多功能的，在同一模型下可為幾種靶标或生物狀态下設計分子。

模型

首先作者利用Grammar VAE模型将分子的SMILES序列編碼到一個隐空間，随後可以将其解碼為重建原始SMILES序列所需的文法生成規則集。其次，為了得到更高清晰度的合成資料，作者使用StackGAN，核心思想就是搭建兩個生成器（generator），主要采用一種逐漸遞進的思想，将分子生成分為兩個階段來操作，利用第二階段來改進第一階段生成的結構，兩個階段的差別在于第二階段的輸入資料不使用随機生成的向量，而是第一階段生成的結果。整個模型的圖示結構如下：

兩個階段使用的具體GAN網絡是将條件GAN網絡和WGAN-GP網絡結合，利用條件GAN的原因是引入基因表達特征，将其作為條件c，而WGAN-GP是在WGAN上提出的改進模型，WGAN在處理Lipschitz限制條件時直接采用了weight clipping，而處理Lipschitz條件時直接把weight限制住也帶來了一些問題，例如導緻很容易一不小心就梯度消失或者梯度爆炸。在兩者模型結合下第一階段的判别器和生成器的損失函數如下：

其中，x是分子表示，c是作為條件的基因表達特征，它們都是從真實資料分布preal中采樣，而第一階段的輸入資料z滿足高斯分布，函數f0是衡量與分子表示相對應的基因表達特征的機率，是正則化的系數，前者是平衡了梯度懲罰項對判别器損失的影響，後者是對f0進行權重，根據經驗将兩者設定為10.第二階段的判别器和生成器的損失函數與第一階段的差別在之前已經說明，具體形式如下：

實驗

從化合物誘導的基因表達中生成分子

結果是每個特征産生約8.5%的有效分子，大約8.2%是獨有的SMILES表示形式，隻有約1.6%是易合成的，而且StackGAN的第二階段生成的分子數并沒有比第一階段多。另外，在分子生成中，參考化合物和訓練集的基因表達譜會有很大的歐幾裡得距離，這樣會導緻和參考化合物的相似性降低。（僅為一部分，其餘請參考原文）

設計類抑制劑分子

下圖顯示了幾個靶标各自産生的分子及其最接近的已知活性分子的示例。（僅為一部分，其餘請參考原文）

從上圖可以看到在許多情況下，所産生的分子與活性分子共享官能團，甚至具有相似的分子長序列片段。從這些例子中可以看出，進行基因敲除後靶标的基因表達特征能夠将分子的生成引向與活性分子相關的化學空間的特定區域。

優化長序列片段（scaffolds）

下圖是實驗中根據特定靶點優化的一些分子示例，通過使用AKT1，EGFR，ERG和TP53的基因敲除後的基因表達優化苯環而生成的分子，并且在圓圈外顯示了和它們的活性最相關和最鄰近的分子。

相似性搜尋和本模型的對比

用于化學空間的特定區域

總結

作者提出了一種基于條件生成對抗網絡的方法，該方法從特定的基因表達特征中生成了新的分子，由于不依賴靶标注釋和活性資料使得它在諸如靶标脫孤中無法獲得此類資訊的情況下非常有用。但該方法仍有改進的空間，例如，評估是否可以将其應用于先導化合物的優化或尋找産生具有與特定藥物靶标活性相關的已知結構特征的化合物的方法。作者也正計劃擴充此方法，以自動生成具有多目标特征或能夠逆轉毒理學相關或疾病相關基因表達特征的分子。

Nat. Commun. | 條件GAN網絡和基因表達特征用于類苗頭化合物的發現

繼續閱讀

K-近鄰算法以及圖像分類應用

小i機器人受邀赴韓交流，CFO首爾亞洲金融論壇演講

吳恩達deeplearning

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

吳恩達機器學習筆記（3）

吳恩達j機器學習之過拟合

吳恩達機器學習(一) 介紹

深度學習模型分析人類複雜疾病的準确性

疾病研究：重症肌無力

人工智能如何有效地運用于自然語言處理

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

無人機--飛控科普