天天看點

Nat. Commun. | 識别藥物靶點的貝葉斯機器學習方法

今天給大家介紹的是2019年11月發表在Nature Communications的一篇文章,“A Bayesian machine learning approach for drug target identification using diverse data types“。藥物靶辨別别是藥物開發的關鍵步驟。為了解決這個問題,作者開發了BANDIT,這是一種內建多種資料類型來預測藥物結合靶點的貝葉斯機器學習方法,并提供了一個平台,允許加入新的資料類型進行內建。

Nat. Commun. | 識别藥物靶點的貝葉斯機器學習方法

1

研究背景

藥物研發是一個耗費大量金錢和時間的過程,從實驗室中的小分子到獲得準許的藥物平均需要花費15年時間和26億美元,其中的瓶頸之一是确證候選分子的靶标。通過計算的方法能夠大大的減少藥物靶點識别所需的工作和資源。傳統的識别靶标的方法需要大量的已知資訊以及較高的計算能力等。除了傳統的方法,也有新的計算方法使用治療後基因表達變化和副作用等資料來預測藥物的新機制。然而,大多數的方法所用到的資料類型過于單一,容易受到資料特定噪聲的影響,實用性和準确性也有待提高。最近,有越來越多的方法試圖在基于相似性或資料驅動的架構内內建多種不同的資料類型。然而,這些方法存在一些局限性:

使用給定化合物的已知靶标作為輸入,限制了對未知化合物的預測能力。

經常使用基于基因的相似性特征,這種方法傾向于發現與已知藥物靶點關聯緊密的基因,不利于發現不同類型的靶标(基因)。

除化合物結構之外,大多數模型僅內建一個或兩個資料類型。

許多依賴複雜資料類型的內建算法很難适應新的資訊源。

大多數人隻在少數藥物上評估了他們的方法(<500鐘),沒有經過廣泛的實驗驗證。

為了克服這個局限性,作者提出了BANDIT,使用貝葉斯方法以無偏的方式內建許多不同的資料類型,并提供了一個平台,允許添加新資料類型進行簡單的內建。此外,通過內建多種不同的資料類型,BANDIT的預測不依賴于任何一個實驗,而且與單一資料類型方法相比,可以獲得更好的預測能力。

Nat. Commun. | 識别藥物靶點的貝葉斯機器學習方法

圖1 聯合多種資料類型預測共享靶标藥物對的方法原理圖

2

方法

2.1

資料集

生長抑制資料

文中使用來自National Cancer Institute's Development Therapeutics Program(NCI-DTP)的生長抑制資料。從cellminer.com(1.6.2版本)下載下傳。

基因表達資料

所有治療後基因表達資料均來自Broad Connectivity Map (CMap)項目。從Broad CMap Portal下載下傳。

不良反應

副作用從SIDER資料庫下載下傳。使用MedDRA(16.1版)字典對每種副作用進行分類。

生物測定/化學結構

所有生物測定結果和化學結構均從PubChem下載下傳,并根據每個小分子的PubChem Compound Identification(CID)進行組織。

已知藥物靶标

從DrugBank資料庫中提取所有已知藥物靶标(4.1版)。

2.2

計算和實驗

計算相似性分數

生長抑制資料,對每一對藥物計算pearson相關系數;基因表達和化學基因組适應度評分,使用pearson相關系數來衡量兩種藥物的相似程度;生物測定,根據Pubchem提供的資料,所有生物測定均分為陽性或陰性。jaccard指數是根據兩種藥物共有的陽性化驗次數計算出來的。要求每個藥物對至少在一個類似的試驗中進行了測試,以計算相似度評分;化學結構,為每個藥物提取同分異構的SMILES,并使用atom-pair方法計算了兩種化合物之間基于DICE系數的結構相似性;不良反應,使用SIDER2資料庫,提取出每種藥物的“preferred term”副作用。然後計算每個藥物對共有的副作用的jaccard指數。

計算相似類型之間的相關性

為了合并來自不同資料庫的資料,作者将每種藥物的資訊映射到用于所有後續內建的PubChem Compound Identification(CID)。計算每一對相似度評分之間的Pearson相關系數(PCC)和決定系數(R2)。

Nat. Commun. | 識别藥物靶點的貝葉斯機器學習方法
Nat. Commun. | 識别藥物靶點的貝葉斯機器學習方法

圖2 密度圖顯示了不同的相似度評分如何互相關聯,用較暗的區域表示較高的密度。

總似然比

對于每個資料類型,BANDIT計算一個似然比,總似然比(TLR)可以表示為個各個似然比的乘積。總似然比(TLR)與兩種藥物在給定的資訊源中共享給定靶标的幾率成正比;

測試已知靶标的藥物

利用五折交叉驗證生成ROC曲線并計算AUROC的值。結果表明BANDIT是針對藥物開發的新穎且有效的篩選和靶标預測平台,有望對目前的工作産生積極影響。

與現有的藥物靶點預測方法

對比幾個現有的藥物靶點預測研究,進一步證明了BANDIT的性能更優(具體對比結果可見原文Supplementary Table 4)。

複制激酶實驗性篩選

首先在Peterson等人的資料庫中分離出被分為BANDIT孤兒小分子的激酶。對于每種孤兒激酶抑制劑,使用BANDIT來預測共享的靶标藥物;共享靶标藥物的每個已知激酶靶标被歸類為孤兒抑制劑的一個潛在激酶靶标。

Nat. Commun. | 識别藥物靶點的貝葉斯機器學習方法

圖3 BANDIT可以複制實驗激酶實驗性篩選的結果

特定靶标投票

測試到的每個孤兒小分子的投票最高的靶點為預測的一個新的特異性靶點;

Nat. Commun. | 識别藥物靶點的貝葉斯機器學習方法

圖4 用于預測特定靶點互動的BANDIT投票原理圖

新型抗微管小分子的鑒定

對于每種預測的微管抑制劑(MTI),作者使用網絡方法檢查了它與已知MTI的關系;

Nat. Commun. | 識别藥物靶點的貝葉斯機器學習方法

圖5 基于作用機制的已知的微管抑制劑簇

藥物機制聚類

對于每個藥物對,将它們之間的TLR轉換為用于估計任何兩種藥物之間的親密度的距離度量。接下來,分離了所有已知至少存在于三個BANDIT資料集中抑制微管的藥物。以BANDIT距離度量為輸入,使用譜系聚類R方法和基于平均值的聚類方法建立了所有已知MTIs的層次聚類;

藥物領域叢集

使用與建立MTI網絡相同的協定,建立了一個包含所有已知靶點的藥物網絡,每個邊緣代表一個預測的共享靶點互動作用,以及與互動作用強度相對應的邊緣權重。使用KEGG藥物資料庫和DrugBank,根據ATC代碼對每種藥物進行了注釋,并對每種藥物進行了相應的着色。特别分離出三個叢集,分别為:(1)帕金森氏症藥物的β受體阻滞劑,(2)抗逆轉錄病毒藥和他汀類藥物,以及(3)阿片類藥物和微管抑制劑。

除此之外還利用生物實驗進行了微管成像/測試,量化微管的影響,對耐藥細胞系的處理,ONC201-DRD2互相作用的表征。

3

結果

綜合多種類型資料的方法能夠提高預測的準确性

作者開發的BANDIT整合了六種不同資料類型去确定藥物靶點之間的互相作用。計算了所有已知靶點的可能藥物對的TLRs,并使用5倍交叉驗證對輸出的結果進行了評估。觀察到使用全部類型資料得到ROC曲線(AUROC)下的面積約為0.89,說明了綜合更多資料的方法可以更準确地識别共享靶标的藥物。為了進一步驗證這一點,作者重新計算了AUROC,同時改變了所包含資料類型的數量,随着新資料類型的添加而不論添加順序如何,預測能力都會提高。具體結果如圖所示:

Nat. Commun. | 識别藥物靶點的貝葉斯機器學習方法

圖6 不同資料類型集的AUROC對比圖

BANDIT精确地預測了特定靶标的互相作用

作者研究了如何使用BANDIT複制已發表的實驗篩選結果。通過Peterson等人的激酶實驗複制,說明了BANDIT能夠用來指導實驗篩選,同時最小化操作成本。從共享靶标的預測出發,作者檢查了對于給定的藥物BANDIT是否可以用于預測特定的結合靶标,結果表明BANDIT可用于準确識别多種多樣的小分子的特定靶标。作者使用BANDIT預測了14,000多個小分子的新靶标,這些小分子在資料庫中都沒有已知的靶标和作用機制。得到了4167個獨特小分子的靶标,預測的靶标範圍超過了560種不同的蛋白質靶标。并通過設定更高的TLR門檻值獲得更高可信度的靶标預測,得到了720個高置信度的預測靶标。基于此,作者設想了BANDIT的兩個主要操作方案:(1)将BANDIT與孤兒的小分子庫結合使用,以識别針對特定蛋白質的新的小分子;(2)将BANDIT直接整合到藥物開發流程中預測目前正在開發中的藥物的靶标并指導實驗(圖7)。

Nat. Commun. | 識别藥物靶點的貝葉斯機器學習方法

圖7 BANDIT獲得特定靶标的兩種建議的操作方案示意圖

新型微管靶向化合物的發現

抗微管藥物是目前應用最廣泛的一類癌症化療藥物,微管蛋白是迄今為止最有效的抗癌靶點之一。通過實驗作者證明了BANDIT的潛力,不僅可以用來識别孤兒分子的特定靶标,而且可以用來區分同一靶标上的不同作用模式。

4

總結

總而言之,作者展示了BANDIT加速藥物開發的潛力,因為它涵蓋了從新靶标的識别和驗證到臨床候選藥物開發和藥物再利用的整個空間。通過允許研究人員快速獲得預測靶點,可以簡化随後的所有開發工作,并節省科學家的時間和資源。此外,BANDIT可用于快速篩選大型化合物資料庫,并可以進一步評估任何有前途的藥物療法。

參考資料

Madhukar N S, Khade P K, Huang L, et al. A Bayesian machine learning approach for drug target identification using diverse data types[J]. Nature communications, 2019, 10(1): 1-14.