
作者 | 陳雨潔
指導 | 曾湘祥教授
機關 | 湖南大學
研究方向 | 藥物互相作用
研究背景
藥物互相作用(DDI)是指病人在同時服用兩種或兩種以上的藥物時,一種藥物的藥效受到另一種藥物、食物或者環境的影響而發生改變,進而導緻藥效下降,或是藥效增強導緻明顯毒副作用。例如,乙酰水楊酸(俗稱:阿司匹林)本身具有抗炎解熱、抑制血小闆聚集、預防血栓和心肌梗塞的作用,但是當它與1-苄基咪唑相結合時會使高血壓的風險增加。是以,對于藥物互相作用的預測研究是有重要意義的,不僅能夠減少非預期藥物互相作用的情況,還能降低藥物開發成本,以及優化藥物設計過程。
目前的DDI預測模型,主要基于DrugBank、KEGG、PharmGKB等資料,使用基于特征的、基于相似性度量的方法,取得了一定效果,但這些預測模型存在以下局限性:(1)在DDI預測中缺少對藥物表示形式的具體設計(2)模型僅僅是依賴有标簽資料進行預測,不能很好地将模型泛化到新藥或者DDI中(3)模型的參數多,難以提供可解釋性。
針對這些局限性,近期哈佛大學的Kexin Huang等人提出了CASTER(ChemicAl SubstrucTurE Representation)模型,根據給定藥物化學結構預測DDI,并且能對預測提供可解釋性。
方法
CASTER通過三個子產品很好地緩解之前計算模型的局限性:(1)基于DDI機制的序列模式挖掘子產品,有效地描述藥物的功能子結構(2)自編碼子產品 ,利用标簽資料和無标簽的化學結構資料來提高模型的準确性和通用性(3)字典學習子產品,測量每個輸入子結構與DDI結果的相關性的一組系數來解釋預測 。
序列挖掘子產品(SPM, sequential pattern mining module)
将藥物的SMILES字元串按照層次分解為子結構、更小的子結構和原子。具體算法如下:
根據SPM算法生成離散的頻繁子結構的集合,将用于推導所有有标簽和無标簽資料集中藥物對的功能表示(Functional Representations )。
自編碼子產品(auto-encoding module)
Encoder使用神經網絡(Neural Network)将藥物-藥物、藥物-食物的功能表示成潛在特征嵌入z,映射到隐空間中。
Decoder根據潛在特征嵌入,使用另一個神經網絡(NN)重構功能表示。
重構損失(Reconstruction Loss)隻需要用無标簽的藥物對作為訓練資料進行優化,能夠利用更多的無标簽藥物資料源來提取更多相關的特征。
字典學習子產品(dictionary learning module)
可以通過該子產品了解CASTER如何進行預測,并确定哪些子結構可能導緻藥物間的互動。
深度字典表示(Deep Dictionary Representation)
深度字典表示是将每一個頻繁子結構使用single-hot向量生成功能表示,再通過上述的encoder生成潛在特征向量,最後生成矩陣形式B。
将生成的藥物對的潛在特征向量z投影到由span(B)定義的子空間,将投影系數r通過損失函數進行計算:
使用閉式解進行解析求解,找到産生最小投影損失的有意義的系數r:
最後得到的投影系數作為對應藥物對的字典表示。
計算藥物對的機率分數
基于投影系數r來計算藥物對互相作用的分數,評估藥物間互動的可能性,并通過交叉熵損失函數進行優化。
訓練過程
使用無标簽的藥物-藥物和藥物-食物對來對自編碼子產品和字典學習子產品進行預訓練,編碼器可以學習任意化學結構的最有效的表示。
使用有标簽的資料集微調DDI預測的整個學習流水線。
可解釋性預測
投影系數r用來評估基特征向量b和預測結果之間的相關性,而每個基向量b和頻繁的子結構C有關聯, r系數越大表示在DDI預測中對應的功能子結構對藥物互動起作用,進而可以解釋CASTER預測的合理性。
實驗
資料集和評價名額
使用DrugBank資料庫包括1850已準許藥物,提取221,523有标簽 DDI;使用BIOSNAP資料庫包括1322已準許藥物,提取41520 有标簽DDI;随機生成220,000藥物-藥物對和220,000藥物-食物對作為預訓練的無标簽資料。使用ROC-AUC、PR-AUC、F1 Score作為評價名額。
DDI預測中CASTER實作更高的精度
作者将CASTER模型與5種經典的端到端算法進行比較,包括有:LogisticRegression(LR) 、Nat.Prot(Vilar et al. 2014) 、Mol2Vec: (Jaeger, Fulle, and Turk 2018)、MolVAE(Gómez-Bombarelli et al. 2018) 、DeepDDI(Ryu, Kim, and Lee 2018) ,實驗證明CASTER能夠捕捉重要的互動機制。實驗結果如下圖:
CASTER利用無标簽資料可以成功提高預測性能
使用少量的标簽資料,調整無标簽資料的數量進行實驗,實驗證明随着無标簽資料的增加,CASTER能夠利用無标簽資料中的更多資訊,并不斷提高其對兩個資料集的DDI預測的準确性。實驗結果如下圖:
CASRTER能夠生成可解釋性預測
以西地那非(Sildenafil)和其他硝酸鹽類藥物(如IM)為例,二者同時服用會引起血壓下降,進而導緻心髒病發作。實驗測試CASTER在預測二者互相作用時是否将高系數配置設定給硝酸鹽組。
實驗結果很明顯顯示出由CASTER識别的21種功能子結構中硝酸鹽結構系數(8.25)最高,進而對CASTER預測結果中可能導緻DDI的子結構提出合理線索。
結論
本文在藥物互相作用的化學機制的啟發下,提出了一個新的DDI預測計算架構CASTER,它是一個端到端的字典學習架構,包含了DDI預測的具體表示。證明了比先前使用通用藥物表示的方法能夠提供更準确并且具有可解釋的DDI預測。