天天看點

計算化學的深度學習

摘要

人工神經網絡的興衰在計算機科學和計算化學的科學文獻中都有詳細記載。然而近二十年後,我們現在看到了對深度學習興趣的複興,這是一種基于多層神經網絡的機器學習算法。在過去的幾年裡,我們看到了深度學習在許多領域的變革性影響,尤其是在語音識别和計算機視覺領域,在這些領域的大多數專家從業人員現在經常避開之前建立的有利于深度的模型學習模型。在這篇綜述中,我們對深層神經網絡理論及其獨特性質進行了介紹性概述,将它們與化學資訊學中使用的傳統機器學習算法區分開來。通過概述深度神經網絡的各種新興應用,我們強調它的普遍性和廣泛的适用性,以應對該領域的各種挑戰,包括定量結構活性關系,虛拟篩選,蛋白質結構預測,量子化學,材料設計和财産預測。在回顧深度神經網絡的表現時,我們觀察到在不同的研究課題中,針對非神經網絡最先進的模型的一緻表現優異,而基于深度神經網絡的模型通常超出了各自任務的“玻璃天花闆”預期。加上用于訓練深度神經網絡的GPU加速計算的成熟度以及用于訓練這些網絡的化學資料的指數增長,我們預計深度學習算法将成為計算化學的寶貴工具。

介紹

深度學習是AlphaGo開發過程中使用的關鍵算法,AlphaGo是由Google開發的Go-playing程式,在2016年擊敗了頂級人類玩家。 在棋盤遊戲中擊敗人類玩家的計算機程式的發展并不新鮮; IBM的棋牌電腦Deep Blue在二十年前的1996年擊敗了頂級棋手。不過,值得注意的是Go可以說是世界上最複雜的棋盤遊戲之一。 在19 *19闆上玩,大約有10170個法律職位可以玩。 與Go的複雜性相比,據估計Lipinski虛拟化學空間可能隻包含1060個化合物。

深度學習是一種機器學習算法,與計算化學中各種應用中已經使用的算法不同,從計算機輔助藥物設計到材料性質預測。其中一些更高調的成果包括2012年默克活動預測挑戰,其中 一個深層的神經網絡不僅赢得了比賽,而且超越了默克的内部基線模型,但是在他們的團隊中沒有一名化學家或生物學家的情況下這樣做。 在一個不同的研究團隊的不斷取得的成功中,深度學習模型在2014年NIH釋出的Tox21毒性預測挑戰中取得了最高的地位。在最近的這些例子中,深度學習模型在預測活性和毒性方面的異常出色的表現來源于獨特的特點,差別于傳統機器學習算法的深度學習。

對于那些不熟悉機器學習算法複雜性的人,我們将重點介紹一些主要差異-傳統(淺層)機器學習和深度學習之間。機器學習算法最簡單的例子就是無所不在的最小二乘線性回歸。線上性回歸中,模型的基本性質是已知的(在這種情況下是線性的),而輸入(也稱為模型的特征)彼此是線性獨立的。通過變換原始資料(即平方,取對數等)可以将額外的複雜性添加到線性回歸中。随着更多這些非線性項被添加,回歸模型的表現力增加。這個描述突出了傳統(淺)機器學習的三個特點。首先,這些功能由領域專家提供。在一個被稱為特征提取和/或工程的過程中,應用了各種變換和逼近,這可以從第一原理出發,或者可能是衆所周知的近似,甚至是受過教育的猜測。其次,淺層學習是模闆比對。它不會學習問題的表示,它隻會學習如何精确地平衡一組輸入要素以産生輸出。第三,它的表達能力随着項的數量(即要拟合的參數)而增長,但如果非線性變換選擇得不好,它可能需要指數多項。 例如,簡單的幂級數展開将需要大量的項(和參數)來适應具有大量振蕩的函數。  

計算化學的深度學習
計算化學的深度學習

目前開發的絕大多數深度學習算法都是基于人工神經網絡的,為了本次審查的目的,我們将專注于深度神經網絡。在本綜述的前半部分,我們将提供深入學習的簡要非技術性介紹,從人工神經網絡的基本背景開始,并突出介紹在過去十年中使深度神經網絡成為可能的關鍵技術發展。此外,我們将重點關注深度學習與計算化學中使用的傳統機器學習算法的不同之處,以及深度學習正在進行的複興與20世紀80年代的人工神經網絡模型如何不同,後者可能被視為其“父”算法。在接下來的半年回顧中,我們将對計算化學領域的深度學習應用的最新發展進行調查,我們将根據現有的機器學習模型來檢驗其性能,以及為該領域做出貢獻的未來前景。這篇評論主要是為了作為計算化學家的介紹入口,這些計算化學家希望從應用的角度探索或整合深度學習模型在他們的研究中,并且将提供對現有文獻綜述的更多參考資料,以涵蓋更深層次的技術方面學習神經網絡結構和優化。

深度學習101

人工神經網絡(ANN)是大多數深度學習算法的基礎,它是一類受生物神經網絡啟發的機器學習算法,用于通過将大量輸入轉換為目标輸出來估計或近似函數。 1a)中,人工神經網絡由一系列層構成,每層包含許多“神經元”。每個神經元接受來自前一層的輸入值,并将其映射到非線性函數上。該函數的輸出用作ANN中下一層的輸入,直到它到達最後一層,輸出對應于要預測的目标。此外,可調參數,每個神經元函數的“權重”(或系數)在建構該模型時進行調整,以最小化預測值的誤差,這一過程稱為“訓練”神經網絡。形象地說,人工神經網絡中的這些神經元的集合模仿神經元在生物系統中的工作方式,是以其名稱為人工神經網絡。

在反向傳播過程中,使用稱為梯度下降的算法來在生成相應輸出時查找由各個神經元引起的誤差表面中的最小值。 從概念上講,梯度下降與經典分子動力學模拟中使用的最速下降算法沒有差別。 主要差別在于疊代地最小化能量函數并更新每個步驟的原子坐标,疊代地使ANN的目标輸出的誤差函數最小化并且每步更新神經元的權重,在ANN文獻中,這也被稱為“疊代”。 訓練集中的資料可以疊代多次,并将資料完整地傳遞為“epoch”。

反向傳播的一個關鍵問題是随着信号通過每個隐藏層,誤差信号逐漸變得更加分散。 這是因為信号發生了在模型更深處,越來越多的神經元和權重與給定的誤差相關聯。 直到最近,這使得很難有效地訓練許多層; 超過幾層的任何東西都需要很長時間才能收斂到過度拟合的高可能性,特别是對于最接近輸出的層。 此外,非線性變換函數(如S形)具有有限的動态範圍,是以誤差信号在通過多個層時趨于衰減,這通常稱為“消失梯度問題”。

自1986年以來,已經開發了幾種關鍵算法,包括無監督預訓練,糾正線性函數和dropout,以改進人工神經網絡的訓練過程,解決消失梯度問題,并減少過拟合人工神經網絡特别容易受到影響。也許是訓練深度神經網絡(DNN)的最大障礙,是漸近問題的消失,因為它實際上限制了神經網絡的深度。預訓練,由Hinton等人發現。在2006年是一種快速,貪婪的算法,它使用無監督的分層方法一次訓練DNN一層。預訓練階段完成後,将使用更細微的微調過程(例如随機梯度下降)來訓練模型。使用預訓練方法,模型在反向傳播開始之前就已經學會了這些特征,進而減輕了消失梯度問題。 2011年出現了另一種解決方案,Bengio及其同僚證明整流線性激活(ReLU)函數完全避開了消失梯度問題。 ReLU的一階導數恰好為1或0,通常可以確定誤差信号能夠反向傳播而不會消失或爆炸。 (圖2)。

計算化學的深度學習
計算化學的深度學習

總結了人工神經網絡及其相關算法的主要發展情況後,我們注意到它并不全面。除了迄今為止讨論的傳統的前饋DNN(圖1b)之外,更近期的發展包括替代架構,特别是卷積神經網絡(圖3a),遞歸神經網絡(圖3b),和自動編碼器(圖3c),這些在計算機視覺和自然語言處理應用中都非常成功。關于各種DNN體系結構的技術讨論,雖然對深入學習文獻有深刻了解,但超出了本文的讨論範圍,是以,我們向讀者推薦以下出版物總結這一研究課題。現在,應該明顯看到,ANN本身不是一項新發明。事實上,人工神經網絡的數學算法是由McCulloch和Pitts在1943年開發的,實際上可訓練的人工神經網絡可追溯到1986年,與Rumelhart,Hinton和Williams等人發明神經網絡的後向傳播一緻。更深層次的神經網絡超越了幾個隐藏層(圖1b),隻有在最近幾年更新的算法發展才能實作。是以,DNN不僅僅是上個世紀人工神經網絡的重塑品牌,它又如何更好比已經成功用于各種化學資訊學應用的傳統機器學習算法?

計算化學的深度學習
計算化學的深度學習

數十年的化學研究已經導緻了幾千種分子描述符的發展,這些描述符描述了可以想到的任何化合物的一系列性質。是以,分子描述符用作使用化學知識和直覺(即領域專業知識)建構的特征,其可用于傳統的機器學習模型,其已經在計算化學應用中取得了合理的成功。傳統的機器學習算法(如線性回歸和決策樹)非常直覺,可以建立人類可以了解的簡單模型。盡管如此,随着我們對具有非線性關系的更複雜屬性(通常是與生物過程和材料工程相關的屬性)的預測進展,通常需要依賴更複雜且不太透明的算法,如支援向量機(SVM)和随機森林 (RF)達到可接受的預測準确度。乍一看,深度學習算法屬于後一類,但它有一個主要差別。與SVM和RF不同,DNN轉換輸入并将其重構為跨隐藏層的神經元的分布式表示。通過适當的訓練方法,系統隐藏層中的神經元将學習不同的特征;這被稱為自動特征提取。由于每個隐藏層都成為系統下一層的輸入,并且可以沿途應用非線性轉換,是以它會建立一個逐漸“學習”越來越抽象,層次和深度特征的模型。

自動特征提取是一個不需要領域知識的過程,是以是深度學習算法最重要的優點之一。這與傳統的機器學習算法不同,在這種算法中,模型必須用基于化學知識和直覺的“正确”特征仔細建構,以便其執行和推廣。正因為如此,深度學習已成為語音識别和計算機視覺中的主流算法。 ImageNet是用于圖像分類的各種算法的年度評估和競争。在進行深度學習之前,所采用的最先進的模型徘徊在25-30%的錯誤率,這與理想的比對5.1%經過訓練的人為錯誤率的理想目标相距甚遠。 2012年,Hinton及其同僚首次向這個社群介紹了深度學習算法,他們的基于DNN的模型實作了16.4%的錯誤率。這是當時計算機視覺中已建立的模型的顯着改進,而基于傳統機器學習算法的次高性能模型僅實作了26.2%的錯誤率。随後在基于DNN的模型中的改進最終實作了5.0%以下的錯誤率,超過了2015年的人類表現(圖4),這是深度學習引入計算機視覺領域後僅3年對于這些領域的從業人員來說,深度學習和自動特征提取能力的影響已經發生了變革,不僅超越了該領域的“玻璃天花闆”期望的超越能力,而且實作它的時間也顯着縮短。近年來,深度學習在計算機科學領域以外的其他學科中也有所表現,包括高能粒子實體和生物資訊學。

計算化學的深度學習
計算化學的深度學習

還沒有讨論過的深度學習的一個同樣重要的方面是多年來非算法發展的作用。具體來說,由于上個世紀缺乏“大資料”的可行性和GPU硬體的技術進步,導緻了DNN的出現不同于上個世紀的ANN。 2012年的開創性工作被廣泛認為是推動深入學習受到關注的文章,是Hinton的AlexNet論文。雖然算法的發展,尤其是dropout促成了它的成功,但可以獲得包含120萬張圖像的更大的資料集到圖像中使用的10,000幅圖像的資料集,也對其成功起到了關鍵作用。随着更深更大的神經網絡的發展,訓練時間通常可能延長至數天或數周。然而,就像計算化學領域如何從GPU加速計算的興起中受益一樣,該技術也減輕了DNN的訓練速度問題。

在更實際的考慮中,用于在GPU上訓練神經網絡的開源代碼和文檔的可用性也可以說是近年來深度學習快速擴散的另一個原因,包括其對學術研究的影響,這可以通過自2010年以來深度學習相關出版物指數級增長看出來(圖5a)。就像現代大多數計算化學家不再編寫他們自己的代碼來執行分子動力學模拟或運作量子化學計算一樣,而是依賴于已建立的軟體包,深度學習研究團隊也已達到類似的成熟度水準,目前用于訓練神經網絡的主要軟體包,包括Torch,Theano,Caffe和Tensorflow。Torch也許這四者中最古老的一個,其作為一種機器學習科學計算架構于2002年首次在紐約大學釋出,自那時起,深度學習庫被添加。 Theano是2008年由Benjio及其同僚在蒙特利爾大學釋出的第一個專門開發的深度學習架構,之後,該架構已發展成為一個由250多名貢獻者組成的社群團隊。 2014年由伯克利視覺與學習中心開發的Caffe的釋出緊随其後。最近,由谷歌開發的Tensorflow于2015年下半年釋出,可以說在深度學習社群中的吸引力激增,從谷歌搜尋排名的高峰(圖5b)可以看出,以及它的Github已經分别出演了33,000次和14,000次,盡管它僅僅在一年多的時間内釋出了一次。此外,2015年釋出的Keras等API大大簡化了神經網絡的建構和教育訓練,顯着降低了新的深度學習從業者的入門門檻。  

計算化學的深度學習
計算化學的深度學習

毫無疑問,計算機科學領域一直是從網際網路上獲得的可挖掘資料激增的主要援助者(圖6a),毫不奇怪,深度學習的影響力也是最大的。在化學領域,我們也看到了可公開通路的資料庫(如Protein Data Bank(圖6b)和PubChem(圖6c))中資料的相應增長,其中更多的資料來源于最新的高通量組學技術[53]。正是由于這些原因,我們對計算化學領域開始經曆同樣的事件彙合感到樂觀,這将極大地促進我們領域的深度學習應用。我們可以利用計算機科學領域的算法突破,化學資料的日益增加的可用性,以及現在成熟的GPU加速計算技術。[ 圖6d; GPU計算能力資料點來自所報道的雙精度(2010),M2090(2011),K20(2012),K40(2013),K80(2014),P100(2015)計算NVIDIA Tesla系列GPU的計算能力。]

計算化學的深度學習
計算化學的深度學習

計算機輔助藥物設計

在計算機輔助藥物設計中,傳統的機器學習算法在化學資訊學領域有着悠久的曆史,特别是它們對量化結構活性關系(QSAR)應用的貢獻。在QSAR中,要預測的輸出通常是化合物的生物活性。通常使用回歸模型,并且輸入資料是分子描述符,其是根據化學領域知識設計的分子的預先計算的實體化學性質。 QSAR應用的早期工作使用線性回歸模型,但這些模型很快被貝葉斯神經網絡所取代,随後是RFs和SVMs 。該領域的從業者曆來喜歡允許可變選擇的模型,以便知情的化學家可以确定標明的特征是否有意義。此外,也允許評估輸出預測不确定性的模型。 QSAR領域非常廣泛,我們向讀者推薦以下關于曆史關鍵技術發展的評論清單[57-60]。為了進行本次審查,我們将讨論的範圍限制在基于DNN的QSAR模型的性能和适當比較傳統的機器學習模型。

深入學習QSAR的第一次嘗試是2012年的默克挑戰。 在這個公開的挑戰中,團隊提供了化合物的預計算分子描述符及其相應的實驗測量活動,共計15個藥物靶标。 送出的模型評估了他們根據沒有釋出給參與者的測試集預測活動的能力。 獲勝組使用DNN模型,由達爾上司,他是Hinton研究團隊的一員。值得注意的是,應該強調的是,該團隊沒有受過正式訓練的計算化學家。 他們來自計算機科學系。

2014年,Dahl等人根據Merck挑戰中使用的算法送出了預釋出論文,探讨了多任務神經網絡在QSAR應用中的有效性。在這項工作中,作者使用了一個多任務DNN模型。在這裡,“多任務”指的是一種模型,它不僅預測單個感興趣的輸出,而且預測同時多個輸出,在他們的情況下是19次分析的結果。使用的資料集來自PubChem,包含超過100,000個資料點。分子描述符每個分子總共3764個描述符使用Dragon生成,并且它們被用作DNN的輸入特征。在與其他傳統機器學習算法(例如梯度推進決策樹和邏輯回歸)相比的準确性性能基準中,基于DNN的模型在19個化驗預測中的14個中的表現優于統計上顯着的餘量,并且在性能剩餘的5個化驗預測。另外,作者指出了多任務神經網絡的優點,特别是它為多任務開發了一個共享的,學習的特征提取流水線。這意味着不僅可以學習更一般的特征産生更好的模型,而且多任務DNN中的權重也受到更多資料案例的限制,進而分享統計強度。最後,該研究的一個有趣的觀察結果是DNN如何處理數以千計的相關輸入特征,這與Winkler在2002年強調的傳統QSAR智慧相反,盡管我們注意到Winkler當時發表的觀察結果是在開發DNN之前。在達爾的工作中,作者觀察到,将輸入特征減半不會導緻性能下降。

Merck于2015年發表的一項随後研究綜合分析了DNN的教育訓練,并将其性能與該領域目前使用的基于RF的模型的性能進行了比較,并将其擴充到Merck挑戰資料集。作者總結說,DNNs可以作為一種實用的QSAR方法被采用,并且在大多數情況下容易勝過射頻模型。就實際采用而言,作者強調了DNN利用的GPU硬體的巨大進步,以及與傳統機器學習模型使用的傳統CPU叢集相反的部署GPU資源的經濟成本優勢。還研究了與訓練深度神經網絡相關的關鍵問題,特别是可調參數的數量。作者發現,大多數單任務問題可以在具有兩個隐藏層的架構上運作,每層僅使用500-1000個神經元,并且使用75個訓練時期。更複雜的體系結構和/或更長的教育訓練時間可以提高模型精确度的回報,但增量遞減。盡管在上文總結的Merck挑戰和相關研究中,DNN總體上表現良好,但研究界的一些從業人員對此結果持懷疑态度。常見的問題包括樣本量小,并且面對模型複雜性的增加,預測準确性的漸進式改進難以證明其合理性。

2014年,Hochreiter及其同僚在神經資訊處理系統(NIPS)會議上發表了一篇同行評議的論文,讨論如何将多任務DNN應用于QSAR應用于一個更大的資料集。在這項研究中,作者策劃了整個ChEMBL資料庫,該資料庫比原始Merck挑戰資料集大兩個數量級。該資料集包括743,336種化合物,約1300萬種化學特征和5069種藥物靶标。有趣的是,作者沒有使用明确計算的分子描述符作為輸入資料,而是使用了ECFP4指紋。作者對1230個目标的DNN模型的準确性進行了基準測試,并将其與傳統的機器學習模型(包括SVM,邏輯回歸等)進行了比較。應該指出,在2014年Dahl的論文中,梯度提升的決策樹與DNN差不多,并未包含在本研究中。然而,事實表明,DNNs的表現優于所有測試的模型,其中還包括兩家商業解決方案和三家制藥公司目前實施的解決方案(圖7)。雖然大多數傳統機器學習算法的準确度範圍為0.7至0.8 AUC,但DNN達到了0.83的AUC。在更好的表現模型(AUC> 0.8)中,DNNs也具有最不嚴重的異常值,這些作者假設是由于DNN的共享隐藏表示使得它能夠預測單獨檢查時難以解決的任務。與達爾2014年的研究一緻,多任務DNN的使用賦予了兩個優點:(i)允許多标記資訊,是以利用任務之間的關系和(ii)允許在預測任務之間共享隐藏的機關表示。這項研究的作者指出,第二個優點對于一些僅有少量測量資料的藥物靶标特别重要,是以表明單個目标的預測可能無法建構有效的表示。使用多任務DNN可以部分緩解這個問題,因為它可以利用跨不同任務學習的表示,并且可以用較少的訓練示例提高任務的性能。此外,DNN提供了化合物的分層表示,其中更高層次表示更複雜的概念,這些概念可能會超出訓練集資料的潛在更多轉移。  

計算化學的深度學習
計算化學的深度學習

Pande group和Google在2015年向arxiv送出了一項類似的大規模研究。在這項研究中,确定了大約200個藥物靶點,但包括了更多的資料點(4000萬)。與早期的NIPS論文不同,Pande及其同僚将調查重點放在了DNN多任務學習的有效性上,而不是DNN模型本身的性能。作者策劃了一個資料庫,該資料庫由多個公開資料源組成,包括來自PubChem資料庫的PCBA ,來自17個具有挑戰性的虛拟篩選資料集的MUV ,DUD-E組[和Tox21資料集。與Hochreiter及其合作者一樣,這些分子使用ECFP指紋進行了修飾,并且沒有計算明确的分子描述符。主要研究結果中,一直覺察到多任務績效改善,但其他資料或額外任務在改善績效方面是否有較大影響并不明顯。作者還觀察到訓練集中未包含的任務的轉移能力有限,但效果并不普遍,并且在成功運作時需要大量資料,這部分強化了Hochreiter和Dahl提出的多任務學習優勢的主張。奇怪的是,從一個資料集到另一個資料集,多任務改程序度各不相同,并且沒有提供令人滿意的解釋。盡管如此,多任務DNNs與邏輯回歸和RF等傳統機器學習模型的一緻性能顯着(圖8),其中AUC的性能提升範圍從0.02到0.09。

計算化學的深度學習
計算化學的深度學習

迄今為止,至少有四個DNN報告應用于QSAR,一緻的觀察結果表明深度學習優于傳統的機器學習對手。然而,所有研究都主要集中在生物活性預測上。從概念上講,DNN在預測其他感興趣的性質(其可能包括ADMET性質)以及在計算機輔助藥物設計的其他部分中的應用(例如在虛拟篩選中)應該具有類似的性能。

藥物性肝損傷(DILI)是過去五十年中安全性相關藥物撤藥的最常見原因。 DILI的機制是複雜和多樣的,在人類中引起DILI的藥物不易通過正常方法探測,使DILI的毒理學研究變得困難。徐等人最近的一項研究表明,使用DNN預測DILI毒性。作者使用了Mold和PaDEL計算的顯式分子描述符,以及Lusci等開發的URGNN分子建構編碼方法作為DNN的輸入資料。該模型接受了475種藥物的教育訓練,其中198種藥物的外部測試集合,使用DNN的最佳模型的準确率為86.9%,靈敏度為82.5%,特異性為92.9%,AUC為0.955。相比之下,傳統模型的絕對性能名額降低了10-20%。有趣的是,使用來自URGNN分子結構編碼方法的輸入,作者建立了性能最高的模型(AUC 0.955),優于經類似訓練的DNN,其使用來自Mold(AUC 0.931)和PaDEL(AUC 0.895)的計算分子描述符。這表明,一種好的分子編碼方法如UGRNN可能更有效地為DNN提供必要的特征,因為深度學習算法具有自動提取必要特征的能力,并且這種能力可能相當于或甚至可能優于域通過開發明确的分子描述符來進行專家特征工程。

Swamidass及其同僚于2015年釋出了DNN模組化毒性的另一個應用。藥物毒性的一種常見機制源自與蛋白質共價結合的親電子反應性代謝物。環氧化物是這種性質的官能團,其通常由藥物分子的細胞色素P450代謝形成,其作用于芳族或雙鍵。 Swamidass和同僚的結果特别有特色,因為他們開發了DNN模型來預測經曆環氧化的分子的特定位置,即其環氧化(SOE)位點。這項工作的基礎是早期的模型Xenosite,一種基于ANN的小分子P450代謝模型,盡管它是一個淺層網絡,但它已經超越了基于SVM的模型的精确度高達5%。随後通過研究使用不同類型的分子指紋對P450代謝模組化的影響進一步改進,他們發現使用不同指紋類型的共識模型可以獲得進一步的準确性增加和預測的相關姊妹模型葡萄糖醛酸化代謝的位點。在他們最近關于環氧化物基毒性預測的工作中,Swamidass及其同僚設計了一種4層DNN結構,并在702環氧化反應資料庫上訓練了模型,并鑒定出94.9%AUC性能的SOE,并将其分離(即分類)具有79.3%AUC的環氧化和非環氧化分子。此外,在環氧化分子内,該模型能夠通過将芳香族或雙鍵SOEs與所有其他芳族或雙鍵分别具有92.5%和95.1%的AUC分離來提供原子級精确資訊。這使得DNN模型成為文獻中的第一個機理模型,它不僅預測候選藥物的反應性環氧化物的形成,而且準确地識别分子中的特定環氧鍵。 Swamidass及其合作者使用類似的DNN模型模拟了小分子對軟親核試劑如谷胱甘肽(GSH)的反應性位點。通過僅對定性反應性資料進行教育訓練,他們能夠建構基于DNN的模型,其以90.8%的準确度識别反應性分子内的反應性位點,并分離具有80.6%準确度的反應性和非反應性分子。此外,該模型的預測與更具化學多樣性的外部資料集中的定量GSH反應性測量結果相關性很好,這表明該模型在更大面積的化學空間範圍内具有普遍性。随後的出版物擴大了該模型的範圍,以涵蓋對GSH,氰化物,蛋白質和DNA的反應性。由此産生的模型對DNA進行交叉驗證的AUC性能為89.8%,對于蛋白質為94.4%,并且将來自非反應性分子的親電子反應性分子與DNA和蛋白質分開,交叉驗證的AUC性能分别為78.7%和79.8% 。此外,該模型的表現也顯着優于用QM方法計算的反應性指數。由于藥物毒性通常是由親電子反應性代謝産物引起的,是以有助于識别位點反應性研究的模型(迄今為止在文獻中顯着缺失)可以用于建構基于機制的分子毒性預測。

2016年Hochreiter集團最近還釋出了一項關于化學毒性的大規模研究。在這項工作中,作者報告了2014年NIH釋出的針對Tox21資料挑戰的DNN模型的應用。該資料庫由12,000種環境化學品和藥物組成,并且它們在12種不同測定中的相應測量被設計用于測量多種毒性效應。毫不奇怪,由Hochreiter及其同僚開發的DeepTox模型在送出給Tox21挑戰的所有方法中性能最高。對其模型的進一步分析表明,使用多任務DNN模型導緻在12個化驗預測中的10個中與單任務模型相比有一緻的優勢。傳統機器學習算法(包括SVM,RF和Elastic Net)的其他基準也證明了DNN在15個案例中有10個勝出。最後,盡管最初的DeepTox模型使用NIH提供的分子描述符在Tox21挑戰中,作者還表明,僅使用ECFP4指紋作為輸入資料開發的類似訓練的DNN模型具有與那些在顯式分子描述符上訓練的類似的性能,其類似到Xu等人的觀察。在他們的DILI毒性模型中。有趣的是,在可視化這些DNN的第一個隐藏層時,作者觀察到該層中99%的神經元與至少一個已知毒性特征具有顯着關聯,這表明深度學習可能支援發現新的化學知識其隐藏層。

根據QSAR和毒性預測的進展,深度學習算法也開始對計算機輔助藥物設計的其他方面産生影響。 2013年,Baldi和同僚報告使用DNN模型預測分子溶解度[78]。 Pande及其同僚還向arxiv送出了此方向最近的研究進展,他們開發了一個多任務DNN模型,用于預測不僅溶解度,而且預測ADMET性質的整個範圍。深度學習在虛拟篩選方面也可能具有未來作為現有對接方法的可行替代或補充。 2016年,AtomNet送出了一份arxiv論文,該公司開發了一種DNN模型來分類停靠在蛋白質結合口袋中的小分子的活性[87]。值得注意的是,AtomNet DNN模型能夠達到0.7到0.9之間的AUC名額,具體取決于所使用的測試集,它明顯優于傳統的對接方法,特别是Smina,[88] AutoDock Vina [89]分叉0.1到0.2。 [87]關于與計算生物學更緊密結合的應用中的深度學習的其他近期發展,我們向讀者推薦以下關于該研究課題的評論。[90]

計算結構生物學

當蛋白質序列折疊成其三維結構時,預測蛋白質序列的任何兩個殘基的空間接近性稱為蛋白質接觸預測。對順序不同殘基之間接觸的預測是以對其3D結構施加強限制,使其對從頭蛋白質結構預測或工程特别有用。雖然使用基于實體學的模拟方法,如長時間尺度分子動力學[91,92]可用于從頭算蛋白質結構預測,但計算需求是艱巨的。 Wolynes,Onuchic等人開發的互補方法,如基于知識的實體方法也是一種選擇[93,94],雖然它們的計算成本較低,但仍然要求足夠高,以至于不能用于大規模研究。是以,機器學習方法是可行的替代方案,包括基于人工神經網絡,[95-97] SVM,[27]和隐馬爾可夫模型[98]的方法。其他方法包括基于模闆的方法,這些方法使用同源性或線程方法來識别結構相似的模闆,以推斷蛋白質接觸預測。[99,100]接觸預測因子的這些不同模型的評估是蛋白質關鍵評估的亮點之一結構預測(CASP)的挑戰始于1996年。盡管多年來有所改進,但遠端接觸預測曆史上已經達到了精确度低于30%的玻璃上限。計算蛋白質結構預測的關鍵曆史發展是大量的,我們引用感興趣的讀者對這個主題的現有評論。[101-104]為了這次審查的目的,我們将讨論範圍限制在最近的DNN-基于模型的模型,以及它們如何對突破玻璃天花闆的曆史預期至關重要。

2012年,Baldi和同僚們開發了多階段機器學習方法CMAPpro,将接觸預測的準确性提高到36%[105]。 CMAPpro在早期模型中實作了三項具體的改進。首先是使用二維遞歸神經網絡來預測二級結構元素之間的粗糙接觸和取向。此外,一種新型的基于能量的神經網絡方法被用來改進來自第一網絡的預測,并用于預測殘留物接觸機率。最後,DNN架構被用來通過整合空間和時間資訊來調整所有殘差 - 接觸機率的預測。 CMAPpro接受了來自ASTRAL資料庫的2356個成員訓練集的訓練。為了交叉驗證的目的,該組被分割成屬于不同SCOP折疊的10個不相交的組,這意味着無論是訓練還是驗證都設定共享序列或結構相似性。然後對所産生的模型性能進行測試,對照在ASTRAL資料庫版本1.73和1.75之間報告的364個成員的新蛋白質折疊測試集。将CMAPpro性能與多級機器學習模型的幾種排列進行比較,包括單隐層神經網絡(NN),單隐層神經網絡,其利用由2D遞歸神經生成的粗接觸/定向和對準預測器網絡和基于能量的神經網絡(NN1CA)以及深度神經網絡,但沒有CA特征(DNN)。基于相對性能,深度網絡架構和CA特性都需要達到36%的準确度; DNN和NN1CA各占32%,而代表先前技術水準的NN僅達到26%的精度。

Eickholt和Cheng在2012年也報道了DNN用于蛋白質接觸預測的不同實施。[107]在他們的算法DNCON中,它将深度學習與用于開發集合預測器的提升技術相結合。使用來自蛋白質資料庫的1426個成員資料集來訓練DNCON,訓練(1230個成員)和确認(196個成員)組之間随機配置設定。顯式設計的特征被用作DNN的輸入。具體而言,使用了三類特征:(i)來自以所讨論的殘基對為中心的兩個視窗的特征(例如,預測的二級結構和溶劑可及性,來自PSSM的資訊和可能性以及Acthley因子等),(ii) )成對特征(例如Levitt的接觸電位,Jernigan的配對潛能等)和(iii)全局特征(例如,蛋白質長度,預測的暴露的α螺旋和β片層殘基的百分比等)。使用這些工程功能,DNN模型的任務是預測是否有特定的殘基對接觸。此外,分類器的增強集合是通過使用從訓練集中獲得的較大池中的90,000個長程殘留 - 殘留對的樣本訓練幾個不同的DNN而建立的。在評估其性能時,DNCON的交叉驗證準确率為34.1%。該模型的性能可轉移性在其性能基準中與CASP9,[108] ProC_S3,[28]和SVMcon [27]中兩個分别基于RF和SVM算法的最佳預測名額進行了對比。在該評估中,每個軟體都使用了相應的測試集。雖然改進不如Baldi及其同僚報道的那麼戲劇化,但DNCON的性能比當時最先進的算法好3%; ProC_S3(32.6%比29.7%)和SVMcon(32.9%比28.5%)。

基于DNN的蛋白質接觸預測模型值得注意,因為它使社群能夠突破前幾年不可能實作的30%的準确性障礙。除蛋白質接觸預測外,DNNs也已成功應用于僅從序列資料預測各種蛋白質角度,二面角和二級結構。使用DNNs,Zhou,Yang和同僚發表了一系列基于序列的鈣基角度和扭轉預測[109-111]。與蛋白質接觸預測不同,骨幹扭轉可以更好地限制從頭蛋白質結構預測和其他模組化目的。[112]在這些基于DNN的模型的開發中,Zhou,Yang及其合作者使用了4590個成員的訓練集和從蛋白質序列剔除伺服器PISCES獲得的1199個獨立測試集[113]。輸入資料特别包括從PSI-BLAST産生的位置特異性評分矩陣[114,115]獲得的工程特征以及與殘基特性有關的幾個其他實體化學特性,包括空間特性,疏水性,體積,極化率,等電點,螺旋機率等。[116]

在SPINE-X算法的開發中,使用DNN直接預測二級結構,殘餘溶劑可接近表面積(ASA)和u和扭轉角[110]。開發了一個六步機器學習體系結構,其中ASA等輸出被用作其他要預測的屬性(如扭轉)的後續輸入。基于模型在獨立測試集上的性能評估,它分别獲得了u和w兩面體的平均絕對誤差228和338。獨立資料集的二級結構預測精度範圍為81.3%至82.3%,考慮到序列資料的二級結構預測領域近十年來停滞在近80%的準确度範圍内,這一成就值得注意,其中一些利用傳統機器學習算法。[117]以類似的方式,對于稍後開發的SPIDER算法,DNN被用于直接預測Ca角(h)和扭轉(s)。根據對模型性能的評估,它分别獲得了h和s的平均絕對誤差98和348,作者觀察到該模型的誤差從螺旋殘留物增加到片殘留物到殘餘物,随後出現非結構化趨勢。使用這些預測的角度和扭轉作為限制,作者能夠在預測結構和天然結構之間對蛋白質的三維結構進行模組化,平均RMSD為1.9A。随後,SPINE-X和SPIDER算法作為并行多步算法重新訓練,同時預測以下性質:二級結構,ASA,u,w,h和s。這導緻二級結構整體精度略有提高2%,并且角度/扭矩MAE減少1-38,同時保持相同的ASA性能水準。

除了蛋白質結構模組化之外,深度學習也被用來根據序列資料預測其他感興趣的特性。例如,最近報道預測DNA和RNA結合蛋白的序列特異性[118,119]。在Frey及其合作者的開創性研究中[118],DeepBind算法用于預測DNA和RNA結合蛋白的序列特異性。使用12TB的序列資料,跨越數千個公共PBM,RNAcompete,ChIP-seq和HT-SELEX實驗,将原始資料用作DNN算法的輸入以計算預測結合分數。 DeepBind表征DNA結合蛋白特異性的能力在來自Weirauch等人修訂的DREAM5 TFDNA基序識别挑戰的PBM資料中得到證明[120]值得注意的是,DeepBind基于Pearson相關性和AUC名額優于所有現有的26種算法,并在DREAM5送出的15個小組中排名第一。有趣的是,他們的結果還表明,體外資料訓練的模型在體内評分資料中運作良好,表明DNN已經捕獲了核酸結合本身的一部分性質。

随着在其他領域重複出現深度學習優于傳統機器學習算法[18,32-35]以及計算機輔助藥物設計本身[62,67,69],DNN在推動“玻璃”天花闆“蛋白質接觸預測和二級結構預測的界限應該不令人意外。本次審查中顯然缺乏的是深度學習在RNA結構預測和模組化中的應用,據我們所知盡管尚未報道。與蛋白質資料庫相比,RNA上的可用結構資料更小。此外,大多數RNA結構資料不是結晶學的,而是基于核磁共振的,由于NMR結構本身是用基于實體學的力場對抗實驗有界的限制來近似解決的事實,其自身受到較高的不确定性[121]。盡管如此,研究深度學習如何使RNA模組化社群受益将會很有趣。

最後,與計算機輔助藥物設計相比,在計算結構生物學應用中使用深度學習的一個有趣的對比是對工程特征的獨占使用,并且在一些情況下,多級機器學習算法本身的體系結構的工程設計。 雖然計算機輔助藥物設計領域的發現是初步的,但有一些迹象表明,明确設計的特征不一定能更好地對抗化學指紋,這可能需要較少的化學領域知識來建構。 盡管我們承認蛋白質比小分子複雜得多,但确定使用僅包含基本結構和連接配接性資訊的輸入資料的DNN模型的性能(沒有任何特别設計的特征)是否能夠準确預測諸如 蛋白質二級結構和遠距離接觸。

量子化學

使用機器學習補充或取代傳統的量子力學(QM)計算已在過去幾年出現。在本節中,我們将研究一些機器學習應用到量子化學,并檢查類似的基于DNN的模型的相對性能。 2012年,von Lilienfeld和同僚開發了一種基于非線性統計回歸的機器學習算法,以預測有機分子的霧化能量[29]。該模型使用分子生成資料庫(GDB)的7000個成員子集,該資料庫是109個穩定且可合成處理的有機化合物庫。用于訓練的目标資料是使用PBE0雜種功能計算的7000種化合物的原子化能。沒有明确的分子描述符被用作輸入資料,相反,隻有笛卡爾坐标和核電荷用于“庫侖”矩陣表示。可以說,沒有明确設計的特征,輸入資料中的這種表示與傳統分子模組化方法中使用的分子指紋所提供的表達水準相同。 von Lilienfeld及其同僚使用的化合物隻有1000種,平均絕對誤差(MAE)準确度為14.9 kcal / mol。進一步的外部6000化合物驗證組測試産生了15.3 kcal / mol的相似準确度,證明了該模型在“同類”化合物中的可轉移性。這項工作特别具有開創性意義的是合理概括QM計算能量的能力,平均絕對誤差為15千卡/摩爾,根本沒有在機器學習算法中實作薛定谔方程。更重要的是,考慮到這項工作使用了缺乏DNN優勢的傳統機器學習算法,并且基于DNN的曆史性能,這表明基于DNN的模型應該表現得更好。

Hansen等人随後的出版物研究了許多已建立的機器學習算法,以及分子表征對von Lilienfeld工作中使用的相同資料集上原子化能量預測性能的影響[122]。主要研究結果之一是使用“庫侖矩陣”的随機變體大大提高了霧化能量的準确度,以實作低至3.0千卡/摩爾的MAE。[122]除了作為分子的逆原子 - 距離矩陣表示之外,随機變體是獨特的并且保持關于分子翻譯和旋轉的不變性。這種改進的表示增加了“副作用”,因為它是高次元的并且考慮到原子的多重索引,是以它是最富有的發展。作者發現,在所有測試的機器學習算法中,通過資訊對各種表示進行排序确實會産生相應較低的準确性[122],這強調了QM應用程式中良好資料表示的重要性。公平地說,還應該指出的是,作者确實對人工神經網絡進行了基準測試,雖然它們的MAE為3.5kcal / mol,但表現出令人滿意的效果,但并沒有比非線性回歸法的3.0kcal / mol MAE好得多。盡管如此,我們強調所用的神經網絡“淺”,有幾層,再加上缺少更大的資料集,并不代表真正的DNN實作。本文的一個特别有啟發性的猜想是通過外推性能(MAE誤差)相對于所使用的資料集的大小,作者得出結論,3千卡/摩爾可能是無論機器學習如何可以實作的“基線”誤差算法。[122]

2013年,馮·利林菲爾德報道了第一個多任務DNN模型的應用,該模型不僅可以預測原子化能,還可以預測其他幾種電子基态和激發态性質。在這項工作中,他們試圖利用多任務學習的優勢,通過預測幾種電子屬性并潛在地捕捉看似無關的屬性和理論水準之間的相關性。資料用“庫倫矩陣”的随機變量表示。[122]目标資料是使用幾種不同的理論水準計算的原子化能量,靜态極化率,前沿軌道特征值HOMO和LUMO,電離勢和電子親和力,例如PBE0,ZINDO,GW和SCS。原子化能量保持了0.16eV(〜3.6kcal / mol)的相似MAE精度,并且對于其他能量預測(包括HOMO,LUMO,以及其他)的MAE的準确度為0.11至0.17eV(≥2.5至3.9kcal / mol)電離電位和電子親和力[123]。此外,這種精确度與用于建構訓練集的品質管理計算中使用的相應理論水準的誤差相似。

雖然使用機器學習算法替代QM計算是誘人的,但另一種更“第一原理基礎”的方法是使用機器學習算法來補充現有的QM算法。正如von Lilienfeld及其同僚在2015年首次報道的那樣,他們展示了Dlearning方法,即機器學習“修正術語”被開發出來。在該研究中,作者使用DFT計算的特性,并能夠使用D學習校正項預測G4MP2理論水準的相應數量。這種複合式QM / ML方法結合了近似而快速的傳統QM近似與現代大資料量化的品質管理估算,這些估算在化學空間上進行了昂貴且準确的結果教育訓練。但是,我們注意到,這種方法迄今僅用傳統的機器學習算法進行了示範。如果使用我們在衆多執行個體中觀察到的多任務DNN進行性能提升适用于此示例,則基于DNN的方法可能會産生出色的結果,但尚未在文獻中報告。

據我們所知,量子化學應用中DNN的例子似乎表明,與計算機輔助藥物設計和計算結構生物學相比,它處于發展的早期階段。 從文獻中,我們知道傳統的機器學習模型已經用于其他品質管理應用,例如模組化電子量子傳輸,用于精确半經驗量子化學計算的學習參數[126]等等。 另外,QM應用的新表示和指紋也正在開發中[127,128]。鑒于基于DNN的模型在其他計算化學領域的傳統機器學習模型中觀察到的高精度,我們建議開發基于DNN的模型 機器學習QM應用的例子對該領域有利。

計算材料設計

量子化學領域的DNN應用的邏輯擴充是預測和設計與QM計算的特性相關或基于QM計算的特性的材料特性。定量結構特性關系(QSPR),是QSAR在非生物領域的類似版本,是預測實體性質的科學,其從更基本的實體化學特性出發,在之前的出版物中得到了廣泛的綜述。[129,130 ]與現代藥物開發早期相似,物質發現主要是由偶然性和機構記憶驅動的[131]。這使得該領域成為探索性的試驗方法,而分子材料設計的關鍵瓶頸在于實驗的合成和表征。近年來,計算和合理材料設計的範例已被封裝在材料基因組計劃下[132,133]。由于這一領域的新穎性,在本節中,我們将研究使用計算材料的機器學習的一些關鍵成就設計并突出深度學習應用場景。

Raccuglia等人發表了一篇最近使用機器學習模型加速材料性能研究的高調例子。在2016年。[30]無機 - 有機雜化材料如金屬有機骨架(MOFs)的合成已經被廣泛研究了數十年,但對這些化合物形成的理論了解僅部分被了解。在Raccuglia等人的工作中,作者使用基于SVM的模型來預測模闆化釩亞硒酸鹽結晶的反應結果。關于他們的工作有趣的是,在訓練模型時納入了“黑暗”反應,這些反應是從存檔的實驗室筆記本收集的失敗或不成功的反應。由目标化合物類型的合成所定義的,所得模型具有89%的成功率。值得注意的是,這超過了78%的人類直覺成功率[131]。雖然在本研究中沒有使用基于DNN的模型,但沒有技術上的原因說明它不能用來代替SVM作為用于計算材料合成預測的工具。

2015年,Aspuru-Gizik及其同僚報告了DNN如何用于加速材料發現的一個例子。[134]在這裡,作者使用從哈佛清潔能源項目獲得的資料集 - 高通量虛拟篩選工作,發現高性能有機光伏材料。要預測的度量是功率轉換效率(PCE),其是HOMO和LUMO能量以及幾個其他經驗參數的函數。[134]由于沒有高品質的三維資料可用于生成庫侖矩陣,作者決定使用基于分子圖的指紋作為輸入表示。測試了四種不同的表示,結果顯示HOMO,LUMO和PCE預測的準确性一緻(在同一數量級内)。該資料集由從CEPDB資料庫中随機選擇的200,000種化合物組成,另有50,000種被提取作為測試集。 HOMO和LUMO的測試誤差分别為0.15和0.12eV,這與von Lilienfeld及其同僚開發的DNN模型相當。

雖然材料設計中的DNN應用仍處于起步階段,但看看它的應用如何應對傳統QSPR應用和即将進行的合理材料設計工作(如預測熒光團的光譜特性[135,136]、離子液體的特性[137]、和納米結構的活性[138]))将會很有趣。

關于深度學習和黑盒子特性的保守看法

機器學習算法雖然可能不是我們領域許多從業人員首選的工具,但無可否認在化學資訊學領域以及QSAR和蛋白質結構預測等應用領域有着豐富的曆史。雖然有人可能認為深度學習在某種意義上是以前的人工神經網絡的複興,但過去十年的算法和技術突破使得開發出驚人複雜的深度神經網絡,允許訓練具有數億權重。加上資料和GPU加速科學計算的發展,深度學習推翻了計算機科學領域的許多應用,如語音識别和計算機視覺。鑒于化學領域中類似的相似之處,這表明深度學習可能是一個有價值的工具,可以添加到計算化學工具箱中。正如表1所總結的那樣,它提出了基于DNN模型的關鍵初步出版物,我們注意到深度學習在計算化學許多子領域的廣泛應用。此外,基于DNN的模型的性能幾乎總是等同于現有的最先進的非神經網絡模型,并且有時提供了優異的性能。然而,我們注意到,如果要比較DNN為其語音識别和計算機視覺的“母體”領域帶來的改進,許多情況下的性能提升并不顯着。解釋化學領域缺乏革命性進展的一個緩解因素可能是資料的相對稀缺性。與資料便宜的計算機科學領域不同,尤其是從網際網路或社交媒體獲得的資料時,由于需要進行實際的實驗或計算以生成有用的資料,是以化學中可用資料的數量可以了解為更小且更昂貴。此外,化學領域已經存在了幾個世紀,并且考慮到化學原理基于實體定律的事實,例如分子描述符等特征的發展來解釋化合物溶解度是不難想象的,例如,比開發功能來解釋狗和貓之間的差異更容易,這是計算機視覺中的一項常見任務。是以,在化學中具有更精确和更好的工程特征,我們也可能看不到如此大的初始性能改進,尤其是對于相對簡單的化學原理或概念。

此外,作為計算化學家,與工程師或技術人員相比,更重視概念了解,這可以說是計算機科學領域中比較流行的思維模式。 在這方面,深度學習算法目前在兩個賬戶上不足。 首先,它缺乏基于實際實體定律的第一原理模型的概念優雅,第二,DNN本質上是一個黑盒子; 很難了解神經網絡“已經學會”什麼,或者它究竟如何預測感興趣的屬性。  

計算化學的深度學習

為了解決概念優雅的第一個問題,從某種角度來看,這種反對可能更多地是科學偏好的哲學論證。在大多數計算化學應用中,除非人們精确地求解薛定谔方程,我們知道除了雙體系統外其他方法都不可能,我們必須對模型進行近似。從這個意義上說,幾乎所有的計算化學都是憑經驗确定的,有時甚至直覺地确定了薛定谔方程的“真實”第一性原理的近似值。為了說明這一點,讓我們來看看古典分子模型力場的曆史發展,如CHARMM [42]和AMBER。[43]例如,二面角力常數的參數化在曆史上一直針對QM計算值,即以經驗證的實體原理為基礎的“真實”值。然而,由于真實分子的動力學行為不具有疊加作用(這本身就是經典分子模型的另一種近似),最近的重新參數化已經開始修改二面角參數,以經驗拟合實驗NMR分布,盡管這可能導緻偏差[142,143]同樣,模拟靜電力的倫琴互相作用的選擇也隻是近似正确的,模型帶電離子互相作用的最近參數開始已經開始拟合各種實驗觀察值,例如滲透壓值,以及在模組化特定的靜電互相作用對時引入非實體修正項[144-146]在這些例子中,必須從第一原理進行逼近,而這個過程是一個基于經驗資料或有時“化學直覺“ - 就像Raccuglia等人。已經表明,不是絕對可靠的,并不總是更準确。[131]在計算化學家所做的工作過于簡單化的風險下,現有計算化學模型的發展可能被視為一種精細的曲線拟合練習。與其使用人類專家知識,可能的替代方案可能是使用深度學習算法來“建議”,或者甚至可能幫助我們“決定”應該做出什麼樣的近似以達到期望的結果,以朝着未來的範式轉變基于DNN的人工智能(AI)輔助化學研究。這自然會導緻深層學習的第二個缺點 - 不可避免的問題 - 我們如何知道深度學習模型正在學習正确的實體或化學?

我們會承認,在目前的實施中,深度學習算法仍然是一個黑匣子,并且詢問它“學習”的内容是一項極具挑戰性的任務。盡管如此,諸如SVM和RF之類的黑盒算法也被用于幾種計算化學應用中,特别是在主要用作工具的示例中,和/或用于預測如此複雜的屬性,以至于即使對于問題不一定有助于其預測。我們承認,要推動深入學習不僅僅是化學家工具包中的另一個工具,并且為了獲得更廣泛的适用性和科學研究的采用,顯然DNN的可解釋性的提高是最重要的。雖然神經網絡的可解釋性曆來不是這一領域的從業人員強烈的研究焦點,但值得注意的是,近期有關提高可解釋性的一些發展已有報道[147,148]。其他可行的選擇包括使用不同的基于神經網絡的機器學習模型,如為解釋性而設計的影響相關性選民(IVR)。正如Baldi及其同僚所做的一些計算化學應用所證明的,IRV是一種低參數神經網絡,通過非線性地結合化學鄰居在訓練集中的影響來改進k-最近鄰分類器。 IRV影響也被非線性地分解為相關成分和投票成分。是以,IRV的預測本質上是透明的,因為通過檢查每個預測的影響可以從網絡中提取用于進行預測的确切資料,使其更接近“白盒”神經網絡方法[149,150]

結論

與目前計算化學中使用的傳統機器學習算法不同,深度學習在其使用非線性函數的層次級聯中有所差別。這使得它可以學習表示并從預測理想的實體化學性質所需的原始未處理資料中提取出必要的特征。正是這一特點使得深度學習在其語音識别和計算機視覺的“母體”領域中産生了重大影響和變革性影響。在計算化學中,其影響更近,更具初步性。盡管如此,根據近期一些研究的結果,我們注意到深度學習在許多計算化學領域的廣泛應用,包括計算機輔助藥物設計,計算結構生物學,量子化學和材料設計。在我們所研究的幾乎所有應用中,基于DNN的模型的性能常常優于傳統的機器學習算法。

随着問題複雜性的增加,能夠應用多任務學習(即需要更多的不同屬性的預測),随着資料集大小的增加,我們也看到了深入的學習從經常表現出色到始終優于傳統機器學習模型。此外,一些初步研究結果表明,諸如分子描述符等明确設計的特征可能不需要建構高性能DNN模型,并且以分子指紋或庫侖矩陣形式的簡單表示可能就足夠了。這是因為DNN能夠通過隐藏層提取出自己的特征。甚至有迹象表明DNN“學習”的特征符合實際的化學概念,如毒素。加上最近關于提高神經網絡可解釋性的研究,它表明DNN在計算化學中的未來作用可能不僅僅是一種高性能的預測工具,而且可能也是一種假設生成裝置。

參考文獻

Goh G B, Hodas N O, Vishnu A. Deep learning for computational chemistry[J]. Journal of Computational Chemistry, 2017, 38(16):1291-1307.

繼續閱讀