天天看點

對話百圖生科首席AI科學家宋樂博士:“xTrimo”生命科學AI大模型,不應止于加速藥物研發

作者:36氪

文|沈筱

編輯|王與桐

ChatGPT的推出向世界展示了大型語言模型的魅力。這一魅力正是源于大模型泛化能力的提升,使得模型具備完成對話、文本生成、翻譯等多種任務的能力。同時,大模型經過微調之後即可得到專業領域模型的能力逐漸顯現,AI大模型在各個領域的應用潛力正在被激發。

其中,生命科學是一個早已被關注,但似乎不那麼“吸睛”的領域。然而,事實上,其或許是AI大模型最重要的應用領域之一,并将有望同時實作商業價值和社會價值創造。

DeepMind早在2018年就推出了能夠預測蛋白質結構的AlphaFold模型。在2022年,該系列模型已經預測了全球幾乎所有的蛋白質結構。Meta也于2022年推出了蛋白質結構預測模型ESMFold。

同樣,在百圖生科看來,得益于資料、算力以及模型的快速發展,人工智能已經進入了大模型的黃金時代。尤其是生命科學領域積累了海量的資料,而這些資料需要有特定的超大模型來加以利用,其價值才能得到激活。百圖生科認為,基于大模型,這些資料将在藥物研發領域有所可為。

也正是在這樣的背景下,百圖生科從2020年創立之初,就開始搭建“xTrimo”生命科學大模型體系,旨在結合前沿AI和生物技術,建構高通量幹濕閉環的生物計算引擎,模組化蛋白質、免疫細胞、免疫系統的複雜規律,進而開發全新的蛋白質藥物,重程式設計免疫系統、治療數十種免疫相關疾病。

具體來講,“xTrimo”生命科學大模型體系能創造何種價值,以及如何實作價值創造?為了解答上述問題,3月3日下午百圖生科CTO、首席 AI 科學家宋樂博士與36氪等多家媒體進行了交流。

對話百圖生科首席AI科學家宋樂博士:“xTrimo”生命科學AI大模型,不應止于加速藥物研發

百圖生科CTO、首席 AI 科學家宋樂博士

據介紹,百圖生科推出的“xTrimo”(Cross-modal Transformer Representation of Interactome and Multi-Omics)是全球首個、也是目前最大的生命科學領域的超大規模多模态模型體系。該體系由千億參數的預訓練模型和多個下遊任務模型組成。模型采取4層嵌套結構的設計邏輯,能夠對單個蛋白質、細胞中蛋白質互相作用、細胞本身,以及細胞系統模組化。

以下是在百圖生科交流會訪談實錄基礎上,經整理、編輯而成:

01 生命科學領域AI大模型的用武之地

盡管一款新藥的成功研發能帶來高回報,但也意味着其研發過程具有高風險的特征。同時,新藥研發通常面臨周期長、投入資金成本高、技術難度大的問題,以至于在生物醫藥領域中一直有着新藥研發“雙十定律”或“反摩爾定律”的說法。也就是說,一般情況下,需要投入10億美元,花費超過10年時間,才有可能成功研發一款新藥。

而靶點發現、化合物合成和篩選是新藥研發的關鍵環節。在百圖生科看來,AI大模型的價值就在于,有望實作上述過程效率和效果的雙重提升。

一是基于模型的預測能力,研發人員可以更快速地發現新的蛋白質、新的細胞形态,探索新的靶點和藥物設計方向。

生物進化是在多層次上經曆自然選擇的結果,包括蛋白質序列層面、蛋白質互相作用層面、細胞裡基因表達層面。這些結果都不是随機的。通過使用包含上述資訊的資料進行訓練,大模型在一定程度上能夠模拟生物進化的過程,進而具備預測能力。宋樂博士指出:“盡管這些生物學領域的資料在過去的十年中呈現出爆發式增長,但小工具難以實作資料的挖掘和應用。”

二是通過提升化合物合成和篩選的準确率及可靠性,降低後續試驗疊代次數,減少試錯成本,進而提高新藥研發前端程序的效率。

在通用的預訓練模型基礎上,僅需更少的資料就能得到足夠準确的下遊任務模型。這些模型預測出的結果再用于實驗中,成功率會更高,所需的實驗次數和閉環疊代的次數更少。宋樂博士表示,模型預測準确高的時候,甚至可以省去不必要的實驗環節,節省實驗開支。

另外,通過事先在模型中考慮到藥物設計最終需要關注的因素,比如毒性、代謝等問題,基于模型結果設計出來的藥物在臨床試驗階段的通過率有望得到提升。這樣一來也間接提高了臨床階段的效率。

據介紹,百圖生科建構“xTrimo”大模型體系,其目的就是探索從蛋白到複雜生物體的進化規律,并基于此針對性生成滿足特殊需求的蛋白,以蛋白生成和與生物體對話的方式,加速人工設計蛋白進化的速度,進而解決生命科學行業的痛點問題。

在預訓練階段,百圖生科融合了了解與生成兩大訓練模式,從億級跨模态生物資料訓練通用蛋白質及細胞表征預訓練模型,并結合AutoML加速尋找最優應用模型架構,适配多個生物計算任務。在此基礎上,“xTrimo”體系能夠表征單體蛋白質、蛋白質互相作用、免疫細胞、免疫系統等多層次生物問題,了解生物資料之間關聯性。

截止目前,“xTrimo”大模型已經在蛋白結構預測、抗體序列生成、細胞表征等問題上實作SOTA,并在細胞功能預測、denovo藥物設計上取得了進展。百圖生科現有多個AI藥物管線在Lead優化階段,同時已與多個行業夥伴圍繞GCPR、ion channel等難成藥靶點的大分子藥物設計問題展開合作。

02 不止燒錢,訓練資料也是關鍵

想要在更少資料的基礎上建構更準确的下遊任務模型,就意味着需要底層大模型具有很好的表征或通用能力。這就要求使用更多的資料對底層大模型進行訓練,其背後的算力成本之高可想而知。

百圖生科指出,訓練一個千億級的大模型,可能需要上千個GPU,運作3到5個月,所需的資料量也是TB Trillion級别的。為此,百圖生科與百度雲聯合建構了異構的生物超算平台,支援動态擷取高達幾千到幾萬個GPU,以及相應的CPU資源。經粗略估算,每年對類似xTrimo這樣級别的大模型進行幾次訓練,需要在計算資源方面花費上億元。

而除了算力投入,高品質資料的挖掘和利用也是百圖生科打磨大模型需要解決的關鍵問題。宋樂博士表示,資料的準确度或品質會對模型表現造成直接影響,對下遊任務來講更是如此。例如,想知道設計的抗體和抗原之間親和力的強弱,隻有在預測相對準确的情況下,才能夠挑選到一個比較好的抗體。

然而,在百圖生科看來,盡管現有生物學領域的資料已經相當豐富,但由于資料來源于不同的技術和方法,呈現出跨模态的特征,在資料挖掘和利用方面仍然存在兩個挑戰。

一是生物資料的不一緻性和噪聲問題。為了確定資料的品質和一緻性,需要采用合适的算法和工具進行資料預處理和清洗,來解決不同技術和方法造成的資料品質和信噪比不同的問題。

二是跨模态資料的內建和分析的複雜性。生物資料具有多模态、多尺度和多元度的特點,通常需要跨學科的合作,利用專業技能和知識來處理和分析這些資料。

也就是說,在資料收集、整理方面,一方面,需要保障資料的準确度和可靠性;另一方面需要找到資料對應關系,将蛋白質互相作用,單細胞資料都內建到統一的資料庫裡,才能系統性地利用好關聯資料。

為此,百圖生科針對公開資料進行了精細的對齊工作,并以内部實驗室資料為高品質資料的補充。

對來自于公開領域的資料,百圖生科的生信工程師會基于自有實驗體系,重新測量、評估資料,以驗證公開資料之間的相關性或準确率。測量結果将影響模型訓練時對資料的使用權重。同時,為了百圖生科圍繞資料對應關系的建立進行了探索,花費了一年的時間實作了公開資料的對齊。具體來說,包括将蛋白質與基因配對,将互相作用對應的兩個基因或蛋白質進行關聯等。

在内部資料擷取方面,百圖生科規劃、建立了高通量實驗驗證體系,以實作基于幹濕資料的AI創新藥研發端到端閉環。以組學實驗室為例,百圖生科針對10餘種不同來源的組織進行樣本處理,每年可采集1000萬個單細胞測序資料。

目前,來自實驗室的私域資料占比約為10%。而這些私域資料的補充也是将通用大模型微調至專業領域模型所必需的。宋樂博士指出:“大模型需要真實的實驗資料來進行補充,不斷“喂給”模型研究人員最感興趣的靶點問題、疾病問題相關的資料,進而微調到專業領域模型,提高模型的預測能力,這類似于ChatGPT在模型訓練時的人類強化回報過程。”

而為了實作跨模态資料的內建和分析,百圖生科組建了跨多個學科背景的人才團隊,包括AI算法人才、生信工程師、資料科學家、生物學和醫學人才等。百圖生科表示,不同學科背景人才之間的合作也是整個模型體系搭建、模型架構創新,以及推動後續實驗、落地到制藥過程的關鍵。

03 百圖生科的未來願景:從制藥到解決更廣泛的社會問題

和DeepMind、David Bake Lab等緻力于通過大模型解決生命科學領域問題的公司和實驗室相比,百圖生科的不同之處在于兩個層面。

首先,如前文所述,百圖生科關注的不僅是蛋白質結構預測這樣的單點技術,還包括蛋白質之間的互相作用等。在百圖生科看來,DeepMind主打的是以Diffusion擴散模型的方式來生成蛋白質,而這些單點技術本身不足以優化藥物。藥物的優化實際上需要有一系列的專業人才參與其中。

比如,在模型搭建之後需要有生信工程師、生信科學家來了解模型的輸出結果、預測結果是否合理;同時需要生物、醫學方面的人來進行真實實驗,管理高通量的實驗體系,以實作資料回報,持續優化模型能力。這也是百圖生科為什麼選擇在成立之初就建立了基于幹濕資料的AI創新藥研發端到端閉環的原因之一。

而建立該實驗閉環的另一個主要原因,也是百圖生科與DeepMind、David Bake Lab、Meta等的第二個不同之處——在藥物研發場景中更全面的商業化布局,即并非以完成某個單點技術突破或者純粹的科研為目的,而是希望能快速将大模型能力實際應用到在整個生物制藥以及生命科學領域中。為了加速推進幾十、上百個藥物管線的開發,百圖生科在蘇州建立了一套完整的從抗體發現,到蛋白列印,再到抗體工程和優化的平台。

同時,百圖生科表示,在未來還将探索除疾病治愈之外的其他與蛋白質設計相關的社會問題,包括環境保護、能源等。例如,探索能夠高效分解塑膠或加速特定能源生産制備的蛋白酶。

為了實作上述願景,百圖生科未來可能需要持續提升工程能力,并建立更廣泛的合作網絡以實作資料飛輪效應,同時也需注意不能過早地被商業利益所裹挾。

正如OpenAI在大型語言模型領域取得的階段性成果所顯示的,大模型通用能力的提升在一定程度上得益于其積累的強大工程能力,而這又益于高密度、多領域的人才團隊。而這也正是百圖生科關注的重點之一:加強跨學科背景的人才團隊之間的交流、學習,并在此過程中不斷碰撞出新的想法和觀點。

據介紹,在靶點發現算法建設的過程中,算法任務是在預測擾動後的細胞狀态的變化。由于該任務可以直接利用的資料較少,而描述狀态變化的資訊是上萬次元的基因資訊,是以難以直接模組化。通過生物背景的研究人員和AI算法研發人員之間的合作,百圖生科創新地建立了xTrimoCell免疫細胞擾動後功能變化預測模型。

在合作網絡建構方面,百圖生科一方面推出了“卓越開發者計劃”,面向前沿生物技術專家、藥物開發專家和臨床專業團隊等,為高品質的轉化醫學研究項目提供科研經費和引擎能力支援;另一方面,與北京大學醫學部等臨床研究機構,以及免疫專委會等專業協會圍繞具體課題和項目展開相關合作。此外,百圖生科表示,其近期将開放大模型部分能力的接口。

在商業化方面,百圖生科表示,正在探索多種與藥企之間的商業合作形式,并不僅限于License out,也希望能夠一起進行藥物開發。經濟利益的擷取是商業企業必須關注的重點,但同時,對創新難度較大的藥物研發領域而言,如何在尚未實作盈利的情況下保持科研的定力也是關鍵。

繼續閱讀