天天看點

GPU 計算和深度學習在藥物發現中的轉型作用

編輯/綠蘿

深度學習(DL)幾乎颠覆了所有研究領域,包括藥物發現。這場革命很大程度上歸功于高度可并行化的圖形處理單元(GPU)的空前進步和支援 GPU 的算法的發展。

近日,來自不列颠哥倫比亞大學、北卡羅來納大學教堂山分校和英偉達的研究人員合作發表題為《The transformational role of GPU computing and deep learning in drug discovery》(GPU 計算和深度學習在藥物發現中的轉型作用)的綜述文章。

GPU 計算和深度學習在藥物發現中的轉型作用

在綜述中,研究人員全面概述了 GPU 算法的曆史趨勢和最新進展,并讨論了它們對發現新藥和藥物靶點的直接影響。還介紹了最先進的深度學習架構,這些架構已在早期藥物發現和随後的先導優化階段得到實際應用,包括加速分子對接、評估脫靶效應和藥理性質的預測。最後,讨論了 GPU 加速和深度學習模型對藥物發現領域全球民主化的影響,這可能導緻對不斷擴大的化學領域的有效探索,以加速新藥的發現。

GPU 計算和深度學習在藥物發現中的轉型作用

圖 1:計算機輔助藥物發現(CADD)工作流程。(GPU 加速器在藥物發現和開發過程的每個步驟中都有應用)

用于分子模拟的 GPU 計算和深度學習

GPU 加速來自海量資料并行性,這源于對資料的許多元素執行的類似獨立操作。在分子模拟中,資料并行性可以應用于原子勢能的獨立計算。類似地,DL 模型訓練涉及前向和後向傳遞,通常表示為易于并行化的矩陣變換(圖 2)。

GPU 計算和深度學習在藥物發現中的轉型作用

圖 2:DL 架構在單 GPU 和多 GPU 環境中的并行化。

加速 GPU 上的分子動力學模拟

與基于中央處理器 (CPU) 的算法相比,過去十年中以 GPU 為中心的分子動力學代碼的發展導緻模拟的計算成本降低了數百倍。GPU 不僅非常适合加速分子動力學模拟,而且還可以使用空間域分解很好地适應系統規模。是以,分子動力學模拟擴充到更廣泛的生物分子現象,接近病毒和細胞水準,更接近實驗時間尺度。最近的方法和算法進步使分子動力學模拟高達 2 × 10^9 個原子的分子組裝成為可能,總模拟時間為微秒甚至毫秒。

圖 3:可以用分子動力學模拟的生物系統複雜性的時間表。

自由能模拟代表了另一個受益于 GPU 開發進展的領域。諸如相對結合自由能計算、熱力學積分和自由能擾動等方法現在可以計算大量蛋白質-配體複合物的可靠結合親和力。

量子力學和 GPU

TeraChem 是第一個專門為 GPU 編寫的量子化學代碼。混合精度算術允許非常有效地計算庫侖和交換矩陣。TeraChem 的最新算法允許使用密度泛函理論 (DFT) 模拟整個蛋白質。

未來的百億億級超級計算機将在異構 CPU 和 GPU 環境中提供高水準的并行性。這種擴充需要開發新的混合算法,并且本質上是對科學代碼的完全重寫。這些新的發展現在正在作為 NWChemEx 軟體包的一部分實施。NWChemEx 将為系統提供執行量子力學和分子力學模拟的可能性,這些系統比那些可以通過理論方法的規範公式處理的系統大幾個數量級。

GPU 加速蛋白質結構測定

冷凍電鏡的高通量和自動化變得越來越重要,作為用于蛋白質結構确定的最先進的實驗技術,作為最先進的實驗技術用于蛋白質結構的确定,用于基于結構的藥物設計。

已經開發了基于 DL 的方法,例如 DEFMap 和 DeepPicker,以加速冷凍電鏡圖像的處理。

除了通過冷凍電鏡加速蛋白質結構的實驗表征之外,DeepMind 最近在蛋白質結構預測的關鍵評估 (CASP) 挑戰中使用 AlphaFold-2 方法取得的突破性成功,這暗示了 DL 算法對蛋白質的未來影響結構表征和可藥用蛋白質組的擴充。

CADD 中 DL 的出現

深度學習的發展,特别是在計算機視覺和語言處理方面的進步,重新喚起了 CADD 研究人員對神經網絡的興趣。

支援 GPU 的 DL 架構的出現,以及化學基因組學資料的激增,導緻了有意義的支援 CADD 的臨床候選藥物發現。此外,人工智能 (AI) 驅動的公司(例如 BenevolentAI、Insilico Medicine 和 Exscientia 等)在增強藥物發現方面的成功。最近的成功案例表明,進一步推廣和應用由 GPU 計算支援的 AI 驅動方法可以極大地加速新藥和改進藥物的發現。

CADD 的 DL 架構

從在現有或合成可行的化學庫的虛拟篩選中找到應用的判别神經網絡,到最近啟發其在從頭藥物設計中使用的 DL 生成模型的成功,圖 4 描繪了常用的最先進的 DL 架構的一般方案。表 1 列舉了它們在 CADD 中的采用情況。

GPU 計算和深度學習在藥物發現中的轉型作用

圖 4:幾種流行的神經網絡的架構。

表 1:最先進的 DL 類别及其在藥物發現中的應用。

GPU 計算和深度學習在藥物發現中的轉型作用

使用 GPU 和 DL 擴大虛拟篩選

基于結構的虛拟篩選和基于配體的虛拟篩選旨在根據化合物與靶點的計算結合親和力對化合物進行排序,并将小分子之間的結構相似性分别推斷為功能等效性。随着可購買配體庫的指數級增長,已經包含數百億個可合成分子,人們越來越關注通過對接計算的并行化或基于 DL 的加速來擴大傳統虛拟篩選操作的規模。

最近開發了許多基于結構的虛拟篩選方法,以有效篩選數十億條目的化學文庫。然而,計算成本仍然很高,對于無法通路精英超級計算叢集的藥物發現組織來說可能是令人望而卻步的。

另一方面,最近出現了基于結構的替代虛拟篩選平台,利用 DL 預測和分子對接來促進從計算資源有限的大型庫中選擇活性化合物。與蠻力方法相比,這些基于 DL 的方法可能在使學術研究小組和中小型工業等能夠通路化學空間方面發揮重要作用。

支援 GPU 的 DL 促進開放科學和藥物發現的民主化

DL 與 CADD 的整合極大地促進了藥物發現和開放科學工作的全球民主化。對 DL 模型的大型資料集日益增長的需求自然會鼓勵資料共享實踐,并要求更廣泛的開放資料政策。此外,雲原生計算和面向微服務架構中的 GPU 加速可以使 CADD 方法免費且廣泛可用,有助于标準化計算子產品和工具、架構、平台和使用者界面。

盡管這些新的支援 DL 的模組化機會令人興奮,但 CADD 科學家需要對 DL 技術的預期影響保持謹慎。

開放科學工作受益于最近的端到端 DL 模型,這些模型可以使用 GPU 在藥物發現的所有階段實施。

由于法律的複雜性,機構之間共享專有資料繼續成為簡化藥物發現研究的瓶頸。聯合學習允許參與機構對其各自的非共享資料進行本地化訓練。然後将經過訓練的本地模型聚合在中央伺服器中,以實作更廣泛的可通路性。是以,聯邦學習通過在一定程度上緩解資料交換挑戰來支援民主化,盡管有效的模型聚合仍然是一個活躍的研究領域。

結論與展望

現代藥物發現受益于最近 DL 模型和 GPU 并行計算的爆炸式增長。在硬體進步的推動下,DL 在從虛拟篩選和 QSAR 分析到生成藥物設計的藥物發現問題上表現卓越。預計,功能日益強大的 GPU 架構的日益普及,以及進階 DL 政策和 GPU 加速算法的開發,将有助于使全球更廣泛的科學界能夠負擔得起和使用藥物發現。

DL 算法的另一個關鍵驅動因素是「大資料」的可用性。随着基因測序和高通量篩選越來越容易,資料驅動的計算化學研究人員現在可以輕松獲得大量原始資料。然而,對監督學習方法至關重要的高品質标記資料的管理成本仍然很高。是以,深入探索集中、處理和标記良好的資料存儲庫的假定優勢仍然是一個開放的研究領域。

總體而言,藥物發現和機器學習領域的研究人員有效地合作識别 CADD 子問題和相應的 DL 工具。我們相信,未來幾年這些應用程式将得到微調和成熟,這種合作将進一步發展到生命科學的其他未開發領域。是以,聯邦學習和協作機器學習正獲得越來越多的關注,我們相信它們将成為民主化藥物發現革命的先驅。

人工智能×[ 生物 神經科學 數學 實體 材料 ]

「ScienceAI」關注人工智能與其他前沿技術及基礎科學的交叉研究與融合發展。

歡迎關注标星,并點選右下角點贊和在看。

繼續閱讀