天天看點

AI提高藥物發現效率 | ML,Supercomputers and Big Data

AI提高藥物發現效率 | ML,Supercomputers and Big Data

摘要

藥物研發成本的增加和投資回報率的降低對制藥行業構成了巨大的威脅。新興技術有可能大幅提高藥物研發和制造的效率。人工智能(AI)被認為是一種令人難以置信的工具,可以增強醫療保健的多個方面,特别是藥物發現。越來越多的制藥公司正在投資人工智能。盡管最初持懷疑态度,但醫療人工智能市場據稱到2020年将增長到80億美元,主要受到藥物發現應用的推動。

從本質上講,人工智能由新穎的機器學習算法、計算能力的進步以及不斷增加的臨床前和臨床資料提供支援。機器學習公司的數量激增,專門為制藥公司提供服務,包括疾病靶辨別别、化合物篩選、從頭藥物設計、臨床療效,毒性和ADME預測。這些工具現在比以往任何時候都更強大,不僅因為算法設計的進步,還因為可以通路大型超級計算機和基于GPU的新型AI加速器。甚至難以捉摸的量子計算機也開始用于人工智能驅動的藥物研發。但是,擷取良好的資料是關鍵,公共和私營公司越來越多地努力彙總和協調可用于藥物研發的資料。随着先進研究工具(例如,下一代測序)、醫療保健數字化以及新興的物聯網基礎設施的出現,這變得越來越重要。

為了提高藥物發現效率和增加藥物管線,許多制藥公司已經與機器學習、計算和大資料公司合作。例如,強生公司正在進入臨床試驗IIb階段的藥物由BenevolentAI重新調整。然而,重要的是要了解不同AI系統的優點和缺點,因為它們通常針對特定目的進行優化。投資正确的技術是關鍵,通過投資一系列不同的系統,制藥公司不僅能夠将AI用于的大部分的藥物研發和從藥物發現到臨床試驗,而且還能找到針對複雜疾病的颠覆性新療法。

介紹

藥物研發變得越來越低效,主要歸因于較大的平均研發成本,低臨床試驗藥物成功率和低ROI,醫療支出減少和對罕見疾病的關注。大約15-20%的研發成本處于發現階段。是以,減少藥物發現的成本和時間以及提高臨床試驗成功率是必要的。

使用計算機模拟進行藥物研發,也稱為計算機篩選、設計和測試,有可能降低成本并提高藥物管線的成功率。然而,這個想法并不新鮮。自90年代以來,已使用如同源模建、分子對接、定量構效關系和分子動力學模拟的方法。但是現代預測分析工具的出現使得計算機技術的力量呈指數級增長。AI常被用作流行語來描述不同的預測分析工具,例如預測模組化、機器學習和資料挖掘。

AI提高藥物發現效率 | ML,Supercomputers and Big Data

越來越多的制藥公司投資于人工智能,以加強疾病靶辨別别、化合物篩選、從頭藥物設計和效力/毒性預測。目前,醫療保健人工智能市場估值約為70億美元,預計将以驚人的複合年增長率53%增長,到2022年達到80億美元。藥物發現應用占據了該市場的最大部分(超過35%)。其他應用可以在醫學圖像、診斷、治療方案和醫院工作流程中找到。

這些預測工具的性能依賴于三個關鍵元件:算法(核心基礎設施),計算能力(發動機)和資料(燃料)。除了互相交叉以外,這三個方面都取得了快速進展,進而産生了前所未有的強大工具,可用于了解複雜疾病和發現先進的治療方法。

機器學習

巨大的計算能力和大量資料不足以進行預測模組化。要在強大的計算機中處理所有資料,算法是必要的。算法越複雜,分析能力越好。由于人工智能革命,算法正在快速發展。其核心在于機器學習 - 一種用于發現資料集模式的極其強大的工具。機器學習的前沿是深度學習,它使用複雜的分層人工神經網絡。 深度學習非常适合藥物發現,因為它具有前所未有的從原始未處理資料、大型或小型資料集中提取關鍵特征的能力。是以,這對于識别新的疾病靶标,産生新的關聯和預測藥物結果是非常有利的。機器學習算法有不同的“學習”方式:監督、無監督或強化。無監督機器學習可以在醫學和生物學研究資料中找到可用于識别新疾病靶标的隐藏模式。通過模組化和量子化學的強化機器學習,可以實作虛拟篩選和從頭藥物設計。使用現有的藥物和臨床試驗資料,監督學習可用于提高藥效,毒性和ADME預測。是以,通過利用正确的AI算法,大部分藥物開發可以通過計算機進行,進而節省成本并降低風險。

機器學習(ML):人工智能的一個子集,專注于計算機程式,可以教會自己在暴露于新資料時成長和變化。這種學習或“績效的逐漸提高”可以通過任務訓練(監督學習),沒有回報(無監督學習)或性能回報(強化學習)來實作。是以導緻了複雜算法的建立和發展,這些算法對于人類自身發展而言過于複雜。

人工神經網絡(ANN):一種資訊處理算法,可以極大地提高機器學習性能。這種資料處理方法的靈感來自于生物神經系統如何處理資訊。通常,這由節點(或人工神經元)網絡組成,這些節點堆疊在不同的層中并一起工作以處理輸入,互相調制并生成輸出。調制由算法本身發生,以産生最佳輸出。雖然這些算法可以在台式計算機上運作,但超級計算機和AI加速器可以增加它們的潛力。

AI提高藥物發現效率 | ML,Supercomputers and Big Data

深度學習(DL): ANN的子集僅存在了幾年,并且在技術上以節點的多個“隐藏層”為特征。這種層次結構使算法能夠基于更簡單的下層在更高層中建立更複雜的模式和概念,就像人類視覺的工作方式一樣。由于能夠通過多個非線性變換對資料中的進階抽象特征進行模組化,是以它可以指數級地加速機器學習性能。

AI提高藥物發現效率 | ML,Supercomputers and Big Data
AI提高藥物發現效率 | ML,Supercomputers and Big Data
AI提高藥物發現效率 | ML,Supercomputers and Big Data
AI提高藥物發現效率 | ML,Supercomputers and Big Data

迄今為止最先進的機器學習系統之一是Google的 DeepMind。在技術方面,它使用卷積神經網絡上的深度學習和一種無模型強化學習的形式。實際上,這意味着沒有提供預定義的環境/資料模型。該算法教會自己面對資料以及如何使用它。谷歌最強大的AI,AlphaGo Zero,已經教會了自己如何在最複雜的棋盤遊戲中擊敗人類大師。谷歌已使用AlphaGo Zero來學習如何預測蛋白質折疊。

越來越多的AI公司為藥物開發提供特定的解決方案。此清單概述了最值得注意的内容及其提供的服務:

Atomwise

What:預測小分子的生物活性

How:卷積神經網絡(AtomNetTM)進行分子模組化

Partners:AbbVie,默克

BenevolentAI

What:産生更好的靶标選擇,設計新分子和優化化合物

How:深度學習從臨床試驗資料到學術論文挖掘和分析生物醫學資訊

Partners:強生公司

Berg

What:患者特異性的精确醫學解決方案,以預測藥物療效和毒性

How:深度學習評估患者适應性 - 生物學資料

Partners:AstraZeneca,Sanofi

Exscientia

What:小分子藥物設計和效力,選擇性和ADME的預評估

How:機器學習使用各種實驗、結構和臨床資料庫

Partners:GlaxoSmithKline(針對10種疾病相關目标的小分子),Sanofi(代謝性疾病的小分子),Sumitomo Dainippon Pharma(針對兩種GPCR受體的小分子),Evotec合作夥伴關系,包括拜耳,賽諾菲,羅氏/基因泰克,強生公司和UCB(用于免疫惡性良性腫瘤治療的小分子)

Insilico Medicine

What:藥物發現和再利用、生物标志物鑒定和臨床試驗設計

How:生成對抗網絡來評估大量的多組學資料

Partners:GlaxoSmithKline(生物目标和途徑)。

Numerate

What:小分子藥物的發現和優化,包括活性和毒性預測

How:可以同時使用小型和大型資料庫的機器學習(商業秘密)

Partners:Boehringer Ingelheim(傳染病的主要負責人),Merck(心血管疾病的主要負責人),Servier(心血管疾病的小分子調節劑設計目标),Takeda(惡性良性腫瘤學,胃腸病學和中樞神經系統疾病的主要負責人)

Recursion Pharmaceuticals

What:用于靶标發現和活性/毒性預測的細胞疾病模型

How:深深度學習來分析内部實驗生物學資料

Partners:武田,賽諾菲

twoXAR

What:發現、篩選和優先考慮候選藥物

How:機器學習與基因表達測量,蛋白質互相作用網絡和臨床記錄

Partners:斯坦福大學亞洲肝髒中心,Santen

其他有價值的包括(1)Roche / Genentech和GNS Healthcare(癌症藥物靶标),(2)加速GlaxoSmithKline醫學機會治療(ATOM)聯盟(從藥物目标到患者就緒治療不到一年), (3)Deep Genomics,Johnson&Johnson Innovation的創業公司(用于操縱細胞生物學和治療疾病的反義寡核苷酸),以及(4)Turbine,Bayer Open Innovation的初創公司(癌症生物學的分子模型,用于更好的生物标記)。

超級計算機

算法需要一個平台才能運作。雖然簡單的機器學習算法可以在台式計算機上運作,但更強大的處理器可以執行更複雜的算法并處理更大的資料集,在頻譜的最遠端是令人難以置信的數字運算機,稱為超級計算機,它可以大規模提升機器學習算法的功能。

計算能力不斷提高,進而不斷加速預測模組化和人工智能的深度。據預測,2018年計算性能将達到1 exaFLOPS(每秒10億億次計算)。這種計算水準被認為是人類大腦的處理能力,并且可以實作令人難以置信的強大功能,資料分析和預測模組化。

目前,中國的神威·太湖之光是最強的超級計算機,擁有驚人的93 petaFLOPS。它在石油勘探,生命科學,天氣預報,工業設計和藥物研究方面具有商業應用,但消耗大量15,371千瓦的電力。更著名的IBM Watson是一個由90台超級計算機組成的叢集,即IBM Power 750,可以産生80 teraFLOPS的處理能力。IBM通過将沃森開放給商業應用程式,包括醫療保健和生命科學,推動了這一趨勢。從藥物發現到臨床開發和疾病診斷。例如,輝瑞公司正在加速其與IBM Watson進行藥物發現的免疫惡性良性腫瘤學研究。IBM目前最強大的超級計算機是Sequoia(Blue Gene / Q),運作速度為20 petaFLOPS。

Nvidia通過引入新的計算模型完全改變了這種模式,這些模型大大加速了人工智能和高性能計算(HPC)。導緻他們的股票在去年飙升了81.3%。他們采用異構計算,使用多個GPU作為協處理器,作為快速動作節點。2017年,Nvidia釋出了其Volta處理器,該處理器使用所謂的張量微體系結構,也被谷歌的AlphaGo Zero使用,該處理器針對深度學習進行了優化。這種微體系結構用于他們的消費者GPU“Titan V”,它在經典基準測試中提供大約15 teraFLOPS,在張量基準測試上提供120 teraFLOPS。而功耗低于600 W。Nvidia還将他們的Volta處理器用于他們的GPU雲,他們的資料中心GPU'Tesla V100'和他們的桌面AI超級計算機'DGX-1'。憑借新的張量核心,DGX-1系統可提供驚人的960 teraFLOPS,據說可以極大地促進機器學習。BenevolentAI已經使用先前版本的DGX-1(170 teraFLOPS)作為他們的判斷增強認知系統TM,使計算機藥物發現比以往更快更有效。

計算的下一個前沿是量子計算。目前公司之間存在競賽,以生産穩定且适用于應用的系統。量子計算機使用單個粒子或量子位來編碼資訊。這使得能夠在具有低功耗的小型裝置中實作指數計算能力。例如,一個隻有50個量子比特的系統理論上可以勝過目前的超級計算機。然而,保持量子比特穩定是一項重大的工程挑戰。

AI提高藥物發現效率 | ML,Supercomputers and Big Data

大資料

所有這些超級計算機和深度學習算法都隻是傾注于其中的資料“智能”。通常不是關于誰擁有最好的算法或最強大的處理器,而是關于誰有權通路最佳資料。真實的現代機器學習算法可以分析非結構化資料,例如PubMed上同行評審的生命科學文章的大量資料庫。

我們生活在所謂的“資訊爆炸”時代。僅在過去兩年中就創造了90%的資料,我們目前每天産生大約2.5艾位元組或2.5×1018位元組。然而,大部分資料是分散的,不可通路的和未經證明的。不同的私人和公共組織專注于聚合資料,以便更有效地使用它。具體而言,對于藥物發現,有許多可以開采的公共資料庫,通常可分為3類:

分子生物學資料庫:用于識别疾病靶标,包括組學資料(基因組學,轉錄組學,蛋白質組學,代謝組學),分子互相作用,功能獲得和喪失,以及顯微鏡圖像。資料庫:dbSNP,dbVar,COSMIC,1000 Genomes Project,TCGA,Gene Expression Omnibus,ArrayExpress,Cancer Genome Atlas,GTEx Portal,Encode,Human Protein Atlas,Human Proteome Map,Cancer Cell Line Encyclopaedia,Project Achilles等。

結構-功能資料庫建立新的藥物線索,包括分子結構,藥物-靶标互相作用和結構-功能關系。資料庫:LINCS,連通圖,ChEMBL,PubChem等

臨床試驗資料庫用于預測藥物反應,包括藥物療效,毒性和ADME。資料庫:Cancer Therapeutics Response Portal,ImmPort,ClinicalTrials.gov,PharmaGKB等。

還有許多私營公司在資料聚合和結構上貨币化。這些公司通常使用機器學習來挖掘和管理資料。例如,Innoplexus和NuMedii都利用分子、生物和臨床資料庫來提供可用于藥物發現的注釋、策劃和标準化資料。其他公司正在應對來自下一代測序的資料激增。需要做出更多努力來集中和協調各種生物和醫學研究機構所産生的大量資料。在這方面,歐盟的Corbel等共享服務正處于領先地位。

有許多患者資料可用,例如保險資料、公共衛生資料、移動健康資料、患者報告資料、組學資料、EHR資料、家庭資料和環境資料。這些資料不僅可以洞察疾病和治療,還可以支援新的醫療保健模式,如基于結果的模式和面向患者的服務。資料挖掘通常是必要的,因為大約80%的醫療保健資料是非結構化的。然而,主要問題之一是資料保護和隐私。例如,谷歌DeepMind與英國國家健康服務(NHS)就擷取腎功能衰竭資料達成的協定導緻了由于隐私法問題引起的強烈反對。像IQVIA這樣的公司通過使用強有力的隐私和安全措施來解決這個問題。IQVIA從藥房供應商和EHR系統購買和管理資料。

随着物聯網(IoT)的出現,患者特定資料的數量将以加速的速度增長。雖然資料挖掘将具有挑戰性,但這可以使人們更好地了解健康和疾病。物聯網健康解決方案,如臨床級生物識别傳感器,家用螢幕和健身可穿戴裝置,将增加可用于預測新疾病靶标和重新利用藥物的大量資料。例如,Proteus Digital Health在藥片上使用可攝入的傳感器,不僅可以追蹤依從性,還可以追蹤症狀。Quantus和MC10等公司生産臨床級可穿戴生物識别傳感器,可跟蹤各種生命體征。

結論

近年來人們對人工智能能否兌現其提高藥物開發效率的承諾持懷疑态度。現在公平地說,使用這些計算工具确實存在令人難以置信的疾病靶辨別别、化合物篩選、從頭藥物設計和臨床預測的潛力。這不僅展現在技術提供商數量的增加,而且還包括制藥行業的大量采用和測試。值得注意的是,BenevolentAI和Johnson&Johnson正在通過機器學習進入IIb期臨床試驗,服用一種可以改善帕金森病嗜睡狀态的藥物。雖然許多其他制藥和生物技術公司已經開始與幾家人工智能公司合作,旨在通過機器學習和超級計算的進步獲利,但公司投資正确的機器學習技術非常重要。每種算法都有其優點和缺點,并且通常針對特定目的進行優化。随着超級計算機創新,新型基于GPU的AI加速器和難以捉摸的量子計算的不斷增加的計算能力,AI對藥物開發的影響隻會增加。此外,我們隻處于資料時代的開端。随着越來越多的資料從先進的研究(如新一代測序)、醫療保健數字化和物聯網湧入,随着時間的推移将獲得更多的見解。

作者:

Dr Jeroen Verheyen

Dr Michal Wlodarski

————————————————

版權聲明:本文為CSDN部落客「DrugAI」的原創文章,遵循CC 4.0 BY-SA版權協定,轉載請附上原文出處連結及本聲明。

原文連結:

https://blog.csdn.net/u012325865/article/details/105683712