今天給大家介紹一篇由Abdul W.Basit等人2020年12月5日發表在Drug Discovery Today上的一篇綜述文章” Advanced machine-learning techniques in drug discovery”。機器學習(ML, machine learning)在藥物發現中的受歡迎程度持續增長,取得了令人印象深刻的結果。随着其使用的增加,其局限性也變得明顯。這些局限性包括它們對大資料的需求、資料的稀疏性以及缺乏可解釋性。此外,這些技術也變得很明顯,它們并不是真正的自主技術,甚至需要在部署後進行再教育訓練。綜述中詳細介紹了先進技術的使用,以規避這些挑戰。此外,還介紹了新興技術及其在藥物發現中的潛在作用。

背景
ML在藥物發現領域的應用持續增長,促進了衆多途徑的研究。越來越多的制藥公司将ML作為其商業模式的核心,大型制藥公司也在探索ML用于藥物發現。這樣的成功證明了ML對于藥物發現的必要性和實用性,也毫不含糊地表明藥物發現将與ML有着内在的聯系。其目标是減少藥物發現的資源和勞動密集型,主要是高通量篩選(HTS)技術。ML的另一個目的是消除對動物試驗的需求,而動物試驗近來受到了負面的宣傳。
傳統的ML技術已經在藥物發現方面進行了徹底的探索。這些技術包括有監督和無監督的ML技術,包括k-最近鄰(kNN)、決策樹、随機森林、支援向量機(SVM)、人工神經網絡(ANN)、主成分分析(PCA)和k-均值。它們的吸引力來自于它們的簡單性,計算量不大,但與傳統預測算法相比,預測精度有所提高。同樣,傳統技術的底層機制也可以被非計算機科學家研究人員認知了解。例如,對于kNN來說,使用者隻需要控制一個參數,即k值,而k值又是根據複數投票來決定分類搜尋空間。另一個例子是SVM,它利用超平面結合支援向量來劃分類别,使不同類别之間的距離最大化。SVM的優勢在于使用了核心技巧,可以對資料進行非線性映射,這在非線性資料集上得到了廣泛的應用。該技術也可用于PCA(kernel PCA;kPCA)。最近的一項研究發現,kPCA可以用來改善線性模型的分類,其性能與非線性模型相當,不過速度明顯更快。
傳統的ML技術盡管簡單,但也有其缺點。kNN受到次元的詛咒,即在高維空間,預測性能開始減弱。同樣,當維數大于樣本量時,SVM的性能也開始下降。增加随機森林中的樹的數量可以提高預測精度,盡管大量的樹結果産生的算法對于實時監測來說效率不高。然而,ML技術有兩個主要的批評是其對大資料的需求和缺乏透明度。鑒于資料的收集可能具有挑戰性、成本高、耗時長,是以需要解決這些限制。此外,透明度可能會促進使用者對發現過程的了解,并最大限度地減少他們對ML了解過程的依賴。傳統ML技術的另一個限制是它們缺乏自主性。此外,一旦部署,它将需要後期維護,特别是随着資料集的發展。為了解決這些限制,研究界已經采用了新的技術,并取得了可喜的成果。預計這些先進的技術将進一步擴大ML的應用範圍。最終,人們的目标是實作藥物發現管道中的人工智能(AI)。AI是計算機科學中一個廣泛的分支,旨在利用機器創造人類智能,其中ML是實作這一目标的核心。近年來,ML的一個子集--深度學習作為一種能夠從大資料中實作高準确度的技術出現,同時處理結構化和非結構化資料。
先進機器學習技術
ML技術的一些批評包括需要大量的資料集和人為幹預。從這些言論中,人們研究了先進的技術,以解決傳統ML技術的缺點,進而進一步擴大其适用性。這些先進的技術包括強化學習(RL, Reinforcement learning),它彌補了自主學習技術的差距;遷移學習,以及多任務學習,用于開發缺乏大資料的預測模型。
強化學習(RL, Reinforcement learning)
當代RL的核心是新分子設計或分子優化。Popova等人針對藥物的全新設計進行了一項結合這兩方面的值得注意的研究。通過這種方法,RL與兩種深度學習技術相結合。一種技術,即生成模型,作為代理,生成表面上可行的化學分子。另一種技術,預測模型,作為批評者,據此它獎勵或懲罰生成模型的每一個生成的分子。研究還進一步證明,通過深層RL,可以優化理想的實體性質、化學複雜性或生物活性的新型化合物。雖然該研究表明,RL可以被利用來生成新的化合物,但還需要進一步的工作來完善該模型。
遷移學習(Transfer learning)
如果資料供不應求,那麼可以使用一些技術來規避這個問題。其中一種技術是遷移學習,它是将從解決一個任務中獲得的知識轉移到另一個相關任務的過程。
ML在材料科學中也得到了應用,盡管它的應用不像在藥物發現和開發中那樣發達。材料科學與藥物制劑息息相關,實際上也是一個同盟領域,有着相似的研究理念和方法。最近,遷移學習被應用于各種材料,包括小分子、聚合物和無機晶體材料。該研究能夠成功地将遷移學習應用于一個觀測值較少的資料集。此外,還揭示了小分子和聚合物之間、無機化學和有機化學之間的潛在聯系。
多任務學習(Multitask learning)
遷移學習是順序學習以及随後知識向另一任務的轉移,而多任務學習是在一個模型中同時學習不同任務。據觀察,與單學習任務時相比,學習相關任務可同時提高預測性能。多任務學習的好處在小批量資料集或噪聲很大的情況下特别有用。此外,發現多任務學習優于傳統的MLT,尤其是在資料相對稀疏的情況下。
藥物發現中,多任務學習已發現可用于解決多靶點藥物的作用。對此類候選物進行研究是因為它們具有嚴重的不利影響,這是對多個靶标采取行動的不利結果。同樣重要的是,最近證明,對于幾種複雜疾病,例如癌症和代謝性疾病,多靶點藥物比單靶點藥物更有效。
主動學習(Active learning)
主動學習是一種獨特的半自動化機器學習方法,試圖使用使用者回報來解決低标簽資料集的問題。與被動學習相比,主動學習是理想的選擇,因為在這種情況下,大量的無監督訓練資料需要昂貴且耗費資源的實驗來标記。是以,使用者可以進行實驗并随後為資料集的子集标記資料,并使用主動學習來獲得對其餘未标記資料的預測。例如,使用ML預測藥物通過血腦屏障的滲透率,一個人可以對10%的分子進行實驗,并使用所述10%的分子訓練模型以預測其他90%的分子。如果模型不确定,它将進行查詢,然後研究人員可以對這些樣本進行實驗。是以,與被動學習相比,它有可能需要相當少的标記資料,進而在最小化成本的同時加快了藥物發現過程。
生成模型(Generative models)
如前所述,生成模型是能夠生成新樣本的ML技術。生成模型通過直接從輸入資料中學習而将自己與區分模型區分開,并不一定要求使用者編寫明确的規則。生成模型可以通過實作資料分布的機率估計器來生成新資料執行個體,其中新資料位于分布内。換句話說,生成模型能夠為給定的分布生成新的樣本。這與判别模型形成對比,判别模型揭示了給定資料執行個體的情況下标記資料的機率,而與資料執行個體是否有效無關。最近的研究中使用的深度生成模型,其中,在除了生成新的化合物,可以用小的資料集時用于資料擴張。如前所述,将需要對新産生的分子進行徹底評估,以確定它們與市場上已經存在的化合物不同和/或與輸入模型的化合物不同。
貝葉斯神經網絡(BNN, Bayesian neural networks)
BNN是利用貝葉斯推理将多個神經網絡模型組合在一起的集合模型。與傳統的神經網絡不同,傳統的神經網絡需要大量的資料進行訓練,而BNN由于能夠避免過拟合,是以能夠處理小資料集。過拟合是大多數傳統ML技術相關的問題,BNN在訓練過程中通過先驗機率分布來計算衆多模型的平均值,進而産生網絡的正則化效應,進而避免了這個問題。換句話說,神經元的權重和偏置不是一個單一的值,而是從一個分布中抽樣出來的,這個分布會定期更新來訓練BNN。BNN在藥物發現中的應用還沒有被徹底探索。最近的一項研究顯示,利用ChEMBL資料集,貝葉斯圖網絡在預測分子的抑制活性方面表現優于傳統圖網絡。最近,BNN被應用于識别藥物相似性,其中單個分類器的貝葉斯誤差分布可以産生93%的準确率,用于區分類藥物和非類藥物分子。
可解釋性算法(Explainable algorithms)
ML的使用确實可以促進和加快決策的制定,特别是對于日常任務。是以,可能沒有必要了解該模型實作的決策過程。但是,了解ML做出的決策過程将灌輸研究人員的信心。解釋模型可以幫助研究人員解決模型出現錯誤的問題。此外,決策過程中的洞察力可能會引發合理的研究問題。另外,它可以通過提供決策制定的見解來促進研究了解。同樣,如果要将技術商業化,透明度也可能會引起對監管機構的信任。
最近一個可解釋的機器學習執行個體被應用到構效關系模組化中,其中半監督的回歸樹的表現優于監督的回歸樹。Rodriguez-Perez和Bajorath使用不同的政策來預測活性,開發了一種方法,該方法闡明了傳統技術的預測過程以及內建和深度學習模型。他們的工作重點是消除ML模型的“黑匣子”性質。
新興的機器學習技術
混合量子-機器學習
(H-QML, Hybrid quantum-machine learning)
機器學習與量子計算的混合已經成為預測分析中的一項強大技術。量子計算的主要前景是能夠解決複雜問題的效率,而這些問題對于傳統計算機而言卻過于昂貴。
H-QML的優勢确實可以在制藥科學中加以利用,但是,該技術尚未得到應用。2018年IBM發表了一篇關于量子計算在藥物發現中的潛力的文章,其中作者将量子ML的潛力納入了其綜述範圍。最近,Google LLC釋出了針對python的開放通路量子ML架構,該架構将使研究人員能夠使用混合量子機器學習技術。是以,制藥科學中的混合量子ML有望很快實作。
推薦系統
推薦系統在2006年因Netflix競賽而聲名鵲起,該競賽旨在為其使用者建立準确的使用者偏好内容。推薦系統是一種ML架構,它基于在一組使用者到一組項目之間建立連結的資料。推薦系統在電子商務中被大量使用,例如亞馬遜和YouTube。此類技術的優勢在于它們具有處理資料稀疏性,在先驗資訊不可用時進行預測的能力,以及通過解釋推薦系統如何做出決策來提供透明度的能力。
推薦系統已被研究用于醫療應用中,正确的治療是根據患者的病史提出的。但是,在藥物發現和開發中的應用尚未建立。Sosnina等開發了用于化合物與靶标互相作用預測抗病毒藥物發現的推薦系統。作者使用了基于内容的過濾推薦系統,該系統适用于稀疏資料和可解釋性。