天天看點

技經觀察丨探索GenAI在生命科學領域的價值:從預測到創造

作者:全球技術地圖
技經觀察丨探索GenAI在生命科學領域的價值:從預測到創造

人工智能深度賦能生命科學與生物醫藥數字化、智能化轉型,在解決人類生命健康問題方面取得了衆多令人矚目的研究成果。而近期以ChatGPT為代表的生成式人工智能(Generative Artificial Intelligence,GenAI)更進一步擴充了資料驅動藥物研發和醫療保健模式的能力邊界。高德納咨詢公司(Gartner)預測,截至2025年使用GenAI技術系統研發新藥比例将從現在的零上升到30%以上。然而在GenAI釋放生命健康産業潛能的期待中,還需警惕生物資訊安全問題、生物武器威脅等帶來的諸多風險和挑戰。

一、GenAI賦能生命科學研究和技術創新

随着人工智能技術持續的疊代更新,GenAI掀起了以巨量資料、大模型架構為技術特征和驅動力的一場生産力方式的變革。ChatGPT、DALL·E、Stable Diffusion等應用以豐富多元、可互動的方式率先落地應用,生命科學領域也持續蓄能并嘗試探索。相較前一階段人工智能的預測作用,GenAI以大幅提升的學習能力和生成能力引領生命科學和生物醫藥領域邁入創造階段,為豐富的下遊産業任務提供有力支撐。

(一)GenAI為生命科學基礎研究提供強大助力

人工智能預測蛋白質結構使自由控制細胞功能和生命活動成為可能,并且其預測性能在精度、範圍、耗時方面不斷提升。2023年10月,美國谷歌DeepMind公司與歐洲生物資訊研究所(EMBL-EBI)推出了重大更新版本的AlphaFold-latest,在預測地球上所有已知蛋白質的能力基礎之上進一步将準确率提升10%,且預測精度可達原子級。相較于AlphaFold使用多序列比對算法實作原子分辨率結構預測的性能突破,美國Meta等科研隊伍則利用語言模型内部表征的方式,實作了高分辨率預測的數量級加速,其開發出的最大的蛋白質語言模型ESM-2僅用2周時間就預測了超過6.17億個蛋白質結構。這兩種技術途徑都充分展示了人工智能在提升預測蛋白質結構性能和創新性方面的巨大潛力。

預測結構為解碼蛋白質的三維奧秘提供了更高效手段,而GenAI為直接創造蛋白質甚至是未知或不存在的功能蛋白提供了一種端到端的便捷方式,擴增出近乎無限的、廣闊的蛋白質序列和結構空間,使颠覆生命科學和生物醫藥研究範式的趨勢更加顯著。目前,GenAI在蛋白質設計、生物醫藥領域的應用主要有Transformer架構和擴散性模型兩大建構思路。前者的代表是美國初創生物醫藥公司Profuluent在2023年1月開發的蛋白質語言模型Progen。該模型基于Transformer架構的12億參數神經網絡,提供了一種可根據所需屬性生成特定蛋白質的方法,從頭合成了自然界中不存在的人工酶,引起了生命科學領域的廣泛關注。而後者建構思路則是采取了圖像生成領域常用的擴散性模型的技術路徑,更加擅長基于文本生成圖像來描述蛋白質序列和結構之間的關系,并以此快速生成蛋白質的骨架結構。例如2022年10月美國斯坦福大學和微軟研究院經受體内蛋白質折疊過程的啟發,引入了一個折疊擴散(folding diffusion,FoldingDiff)模型,通過鏡像蛋白質天然折疊過程實作蛋白質主鍊結構的設計,解決了直接生成結構複雜多樣的蛋白質的難題。

(二)GenAI引發醫藥研發的技術變革

在藥物研發方面,GenAI可以基于生物學機制、疾病臨床資料、藥學用藥資料建立藥物開發輔助模型。一方面可減少研發中的人力物力和時間投入,降低藥物研發的時間和經濟成本,另一方面可輔助預測新藥的有效性和安全性,提升藥物研發的成功率。例如美國英矽智能(Insilico Medicine)在2022年開發出人工智能藥物發現平台Pharma.AI,僅在18個月内花費270萬美元就研發出全球首個由人工智能發現的具有全新靶點和分子結構的候選藥物ISM001-055,相較于新藥研發平均耗時14年花費19.8億美元的高昂成本,GenAI極大減少了藥物研發成本和時間。

二、探索GenAI在生命科學領域的創新應用場景

生命科學研究鍊條長、産業布局複雜,GenAI整合了生物學、化學、計算科學、藥理學和疾病治療形成綜合路徑,為小分子和大分子設計、優化和合成提供高效工具。目前GenAI的應用探索尚處早期研發階段,平台層面初露頭角,真正應用程式還處在萌芽階段,且在各技術環節的開發程度和可應用程度不盡相同,但整體來說GenAI的産業應用潛力充足。

GenAI為藥物發現和抗體建構提供強大的搜尋和優化工具。在研發難度最大、研發成本最高的早期分子發現階段,GenAI不僅能夠建立氨基酸序列到蛋白質結構間的連接配接,更重要的是可根據某種疾病或某個靶點在廣闊的蛋白空間找到能夠精準靶向、有效執行功能并完成屬性調優的新分子,以此作為最有前途的候選藥物進行後續研發,進而避免大量資源密集型的試錯工作,提升成功率。例如加拿大多倫多大學和美國斯坦福大學根據AlphaFold預測的蛋白結構,利用AI驅動的端到端藥物發現引擎PandaOmics生物計算平台和Chemistry42生成化學平台標明了7個分子進行合成和生物學測試,僅用30天就發現了第一個藥品,成為首個成功将AlphaFold應用于早期藥物命中發現識别過程的案例。而後美國華盛頓大學開發出基于深度學習的蛋白質序列設計政策ProteinMPNN,僅通過蛋白的三維結構資訊即可從頭設計出具有高度穩定性、特異性和親和力的結合蛋白,擴充了不可成藥靶點,開創了蛋白藥物開發的全新方式。

GenAI為腦圖像計算和腦網絡計算開辟新途徑。GenAI通過整合神經影像學,在提取時空腦特征和重建腦網絡拓撲連通性方面獲得諸多重要突破,為重建人腦活動的視覺體驗和了解大腦提供了具有潛力的方式。2023年3月,日本大阪大學前沿生物科學學院基于擴散模型重建将人腦活動進行高分辨率圖像的重建(技術思路如下圖1)。4月,美國伊利諾伊理工學院提出一種結合了GenAI、非侵入性腦機接口、思維類型軟體的夢境記錄新方法,能夠在快速眼動睡眠期間産生用于思維輸入的信号,是腦網絡計算的了解和應用重要的一步。

技經觀察丨探索GenAI在生命科學領域的價值:從預測到創造

資料來源:Takagi Y, Nishimoto S. 基于人腦活動的潛在擴散模型進行高分辨率圖像重建[C]//IEEE/CVF 計算機視覺和模式識别會議論文集.2023: 14453-14463.

GenAI為複雜臨床診斷和專家系統提供新“智慧動能”。GenAI賦能診療全過程。首先在輔助診斷方面,GenAI可為臨床診療決策提供有價值的參考,并改善醫學圖像品質、替代錄入電子病曆等診斷流程,完成對醫生的智力、精力的解放,實作醫生群體業務能力的提升。經美國哈佛醫學院和日本獨協大學的先後評估,生成式訓練模型GPT-3和GPT-4在一系列具有挑戰性的臨床案例中的診斷,結論發現診斷總準确性在90%以上。其次在康複治療方面,GenAI可以為失聲者合成語言音頻,為殘疾者合成肢體投影,為心理疾病患者合成無攻擊感的醫護陪伴等,通過用人性化的方式來撫慰患者,進而舒緩其情緒,加速其康複。

GenAI可在藥物再定位方面發揮積極作用。藥物再定位是指發現已有藥物在其他疾病領域的新用途。通過分析臨床資料、基因組學資料等資訊,GenAI可以識别藥物在其他疾病治療中的潛在作用,進而為藥物的臨床再定位提供支援。這種方法可以節省藥物研發的時間和成本,加速藥物從實驗室到臨床的轉化。如以色列IBM研究院和梯瓦(Teva)制藥的科研人員利用GenAI算法模拟臨床試驗,發現了安眠藥唑吡坦還可以作為治療帕金森癡呆症的一種新藥物。

三、GenAI在生命科學領域面臨的風險與問題

随着GenAI不斷釋放生命科學研究潛能,生物安全和資料隐私問題也面臨着一定的風險。

一是GenAI為生物恐怖主義提供簡單便捷的實作手段。新技術無需從來源提取毒素,就可在細菌或細胞中培養出生物武器,或是在此基礎上将毒素與抗體結合制備出更具威脅的“融合毒素”,是生物武器的威脅的“倍增器”。美國羅切斯特大學的化學工程教授安德魯・懷特(Andrew White)進行了GPT-4模型滲透測試,在提供了化學武器相關的科學論文和化學品制造商名錄後,得到了GPT-4推薦的可作為化學武器的神經毒劑和制造點。

二是生成資料的可信度與GenAI的不可解釋性之間的沖突增加了資料安全風險。GPT等大語言模型存在的資訊錯誤,或利用虛假資訊進行誤導和诽謗的“幻覺”問題,以及GenAI不透明的“黑箱”理論都在一定程度上影響了藥物資料的可信度和可用性,或将導緻後續研發決策出現偏差,無法確定藥物的安全性和有效性。同時其有限的可解釋性也使得修正生成内容的錯誤和偏差變得困難。

三是AI藥物研發過程中存在資料隐私問題。藥物研發涉及大量的患者資料和臨床試驗資料,其中包含患者的個人身份資訊和健康資訊,涉及隐私和安全的問題。如果GenAI模型在資料處理和存儲過程中存在漏洞,可能會導緻患者資料洩露、濫用或被不當使用,進而引發潛在的法律訴訟和聲譽損害。

技經觀察丨探索GenAI在生命科學領域的價值:從預測到創造

資料來源:麥肯錫官網

四是資料來源和處理是掣制GenAI在生命科學和醫藥領域研究最大痛點。一方面,目前結構生物學資料的品質和數量遠遠無法滿足生成式模型的訓練需求;另一方面,蛋白質序列的資料标簽處理成本十分高昂,或對研發工作帶來較大的資金壓力影響開發進度。

結語

GenAI為生命科學新業态和新模式注入創新動能,未來也将持續向更經濟、更高效、更快速的階段發展,包括運作計算成本的下降,以及越來越多大模型的開源等。生命科學和生物醫藥領域前景令人期待,但要真正發揮從研發到落地的驅動作用,還需要政府和産業關聯搭建産業生态,堅持監管規範和促進發展兩手并重,加強與行業特異性場景深度融合,才能推進AI+生命科學産業的安全穩健發展。

參考文獻:

[1]https://www.gartner.com/cn/information-technology/articles/beyond-chatgpt-the-future-of-generative-ai-for-enterprises

[2]http://www.cac.gov.cn/2023-04/11/c_1682854275475410.htm

[3]Madani A, Krause B, Greene E R, et al. Large language models generate functional protein sequences across diverse families[J]. Nature Biotechnology, 2023: 1-8.

[4]Wu K E, Yang K K, Berg R, et al. Protein structure generation via folding diffusion[J]. arXiv preprint arXiv:2209.15611, 2022.

[5]Perron Q, Mirguet O, Tajmouati H, et al. Deep generative models for ligand‐based de novo design applied to multi‐parametric optimization[J]. Journal of Computational Chemistry, 2022, 43(10): 692-703.

[6]Ren F, Ding X, Zheng M, et al. AlphaFold Accelerates Artificial Intelligence Powered Drug Discovery: Efficient Discovery of a Novel Cyclin-dependent Kinase 20 (CDK20) Small Molecule Inhibitor[J]. arXiv preprint arXiv:2201.09647, 2022

[7]Dauparas J, Anishchenko I, Bennett N, et al. Robust deep learning–based protein sequence design using ProteinMPNN[J]. Science, 2022, 378(6615): 49-56.

[8]https://www.genengnews.com/topics/drug-discovery/ai-proofing-workflows-in-drug-development/

[9]Nair R, Mohan D D, Setlur S, et al. Generative models for age, race/ethnicity, and disease state dependence of physiological determinants of drug dosing[J]. Journal of Pharmacokinetics and Pharmacodynamics, 2022: 1-12.

[10]Hirosawa T, Harada Y, Yokose M, et al. Diagnostic accuracy of differential-diagnosis lists generated by generative pretrained transformer 3 chatbot for clinical Vignettes with common chief complaints: A pilot study[J]. International Journal of Environmental Research and Public Health, 2023, 20(4): 3378.

[11]https://www.genengnews.com/topics/drug-discovery/seven-biopharma-trends-to-watch-in-2023/

[12]https://mp.weixin.qq.com/s/IOkxHFNTnVfmL5Q__Xdm2Q

作者簡介

戴吉 國務院發展研究中心國際技術經濟研究所研究三室

研究方向:生物領域形勢跟蹤及關鍵核心技術、前沿技術研究

聯系方式:[email protected]

編輯丨鄭實

技經觀察丨探索GenAI在生命科學領域的價值:從預測到創造

研究所簡介

國際技術經濟研究所(IITE)成立于1985年11月,是隸屬于國務院發展研究中心的非營利性研究機構,主要職能是研究大陸經濟、科技社會發展中的重大政策性、戰略性、前瞻性問題,跟蹤和分析世界科技、經濟發展态勢,為中央和有關部委提供決策咨詢服務。“全球技術地圖”為國際技術經濟研究所官方微信賬号,緻力于向公衆傳遞前沿技術資訊和科技創新洞見。

位址:北京市海澱區小南莊20号樓A座

電話:010-82635522

微信:iite_er

繼續閱讀