天天看點

「百圖生科」再添虎将,國際機器學習大牛宋樂加入李彥宏生物計算軍團

繼 ICML 2021 時間檢驗論文獎得主 Max Welling 宣布即将加入微軟主攻分子模拟後

,國際機器學習專家宋樂博士也于近日被任命為百圖生科首席 AI 科學家。

不出一個月,兩位機器學習大牛相繼「下海」,投身 AI+生物計算,為人工智能在生化和制藥領域掀起的熱浪再添波瀾。

宋樂博士是著名的機器學習和圖深度學習專家,曾任美國佐治亞理工學院計算機學院終身教授、機器學習中心副主任,阿聯酋 MBZUAI 機器學習系主任,螞蟻金服深度學習團隊負責人(P10)、阿裡巴巴達摩院研究員,國際機器學習大會董事會成員,具有豐富的 AI 算法和工程經驗。

「百圖生科」再添虎将,國際機器學習大牛宋樂加入李彥宏生物計算軍團

宋樂博士與同僚合著的論文 Syntax-Directed Variational Autoencoder for Molecule Generation 獲得 NIPS2017 研讨會「分子和材料機器學習」最佳論文獎,他在接受佐治亞理工學院采訪時表示,相關工作的計算機程式已被深度學習頂會 ICLR 2018 接收。圖檔來源:cc.gatech.edu

自 2008 年起,宋樂博士在 CMU 從事生物計算相關的研究,利用機器學習技術對靶點挖掘、藥物設計取得了一系列突破性成果,獲得 NeurIPS、ICML、AISTATS 等主要機器學習會議的最佳論文獎。社群服務方面,他曾擔任 NeurIPS、ICML、ICLR、AAAI、IJCAI 等 AI 頂會的領域主席,并将出任 ICML 2022 的大會主席,他還是同行評議期刊 JMLR、IEEE TPAMI 的副主編。

人工智能和機器學習已經證明能在藥物發現等過程中起到至關重要的加速作用。随着新冠肺炎疫情在世界範圍内的流行,用盡可能短的時間将安全、可靠的藥物和疫苗推向市場,比以往任何時候都更加重要。

7 月 30 日,成立不到一年的百圖生科(BioMap)宣布完成上億美元的 A 輪融資,這家由李彥宏牽頭發起并親任董事長、原百度風投 CEO 劉維作為聯合創始人兼 CEO 掌舵的「中國首家生物計算驅動的生命科學平台公司」向外界放出雄心:

「緻力于通過長周期、大規模的投入,将先進AI技術與前沿生物技術融合創新,打造新型多組學檢測分析、高通量實驗模拟、智能化分子發現引擎,加速新型藥物和診斷産品的研發,造福人類健康。」

宋樂博士表示,他選擇加入百圖生科,除了從技術上說,AI+生物計算已經到達了一個爆發點,可以切實去做一些事情,更主要是對「幹濕實驗閉環的模式建構非常有契合度」。

他在接受機器之心專訪說:「以前在學校做AI模型預測,很難有高通量多輪濕實驗的閉環驗證和資料補充,很難讓 AI 模型發揮關鍵價值。百圖生科規劃的幹濕一體化智能實驗平台,基本上國内沒有其他 AI 制藥公司有,是以非常吸引人。」

「幹濕實驗閉環後,如何用 AI 的方式來更好地規劃實驗,預測一些更加有可能成功的實驗,減少實驗次數,一兩年就會看到一些成果。」

把實驗室儀器連入計算系統建構幹濕閉環模式

問:您為什麼選擇加入百圖生科?

我是從 2008 年開始做AI在生物資訊處理這方面的工作,當時的一個挑戰是資料不多,除了基因序列資料之外,其他的資料比較少,很難用 AI 模型做出預測效果會比實驗驗證的更好。

現在情況不同了。首先,生物資料量越來越大,比如說蛋白質的序列資料已經有上億條,現在也能夠對單細胞做基因表達的測量。第二是計算能力的提升。第三是 AI 算法能力的積累,AI 和制藥領域出現了更多新的模型和方法,能夠産生更準确的預測。

結合以上三點條件,至少從技術的角度來說,是到了一個點,AI 可以幫助制藥做得更好。未來,可測量的生物特征數量會越來越多,測量資料的成本也會不斷下降,生物資料會越來越多,相信在未來 10 年裡「AI+生物計算」都會是一個非常好的方向。

選擇百圖生科,除了計算資源的實力外,更主要是對于幹濕實驗閉環的模式建構,我們非常有契合度。基本上國内沒有其他AI制藥公司有這個模式,是以非常吸引人。

問:能具體介紹「幹濕實驗閉環」的模式嗎?

以前在學校做 AI 模型預測,很難有高通量多輪濕實驗的閉環驗證和資料補充,很難讓 AI 模型發揮關鍵價值。AI 模型主要缺陷在于:它是一個模型,本身有一些參數,沒有通過足夠實驗資料校正和檢驗,跟現實有差距,不能取代真實資料的驗證。隻有把 AI 模型和濕實驗有機結合,才能真正解決這個問題。

現在我們平台設計時,同時會考慮需要用什麼樣的實驗手段,例如高通量細胞視覺平台,單細胞測序平台,或高通量抗體和蛋白質親和力實驗平台,分别對應涉及到要整合乃至自主研發什麼先進儀器。

平台将通過主動學習或強化學習的方式,通過 AI 模型規劃,有選擇性地做實驗,形成「幹濕實驗閉環驗證」,未來通過 AI 大腦控制實作全自動實驗室。這是這個行業未來的方向。

我們的願景是,把實驗室儀器都連入一個作業系統,未來實驗都是 AI 模型在後面規劃,實驗員能夠騰出手來做更高層次、更有趣、更有創造力的事情。

問:建構這種幹濕一體化實驗平台有什麼門檻?

首先是人才,需要有一個非常交叉的團隊。既有能夠做實驗、對生物資訊、對制藥、對前沿生物技術有了解的人才,也要有經驗豐富的系統工程人才,以及 AI 算法人才,是以我們招人也是朝這個方向去招的。

其次是強大的硬體支援,包括實驗裝置以及計算資源,以及把這兩種資源整合在一起的能力。如果一開始沒有将濕實驗的硬體以及計算資源規劃在一起,後期是很難再調整的。如果沒有足夠多的計算資源支援,一些大的模型,比如蛋白質的預訓練,三維結構預測模型就比較難應用起來。

「百圖生科」再添虎将,國際機器學習大牛宋樂加入李彥宏生物計算軍團

用模型做預測來進行實驗規劃,需要對資料的拟合、調參,涉及到雲計算等計算資源支援,而百圖生科擁有百度強大的算力支援。圖檔來源:capacitymedia

生物人才+算法人才融合側重大分子藥物研發

問:百圖生科希望用 AI 解決藥物研發的什麼問題,側重哪些環節?

藥物研發過程一般分為三個階段,第一階段主要是發現一些潛在靶點和藥物,然後通過一些比較可控的細胞實驗或是其他生化實驗,去發現有效的方向。第二階段是更進一步的動物等驗證明驗。第三期是人類的臨床實驗。百圖生科會以第一階段為核心發力點,發現候選靶點和藥物,并進行類器官等先進細胞驗證。

這個過程從計算機的角度來說,實際上是一個組合優化的問題。傳統藥物研發的難點在于,搜尋空間太大,從計算角度、實驗的角度都比較難對整個空間進行篩選。人工智能在藥物發現方面的主要價值在于,怎樣根據曆史或者實驗資料,建構一個 AI 模型,能夠很快地在巨大的空間裡把最有可能成藥、最有效的藥物空間縮小,比如從 10 的 60 次方縮短小到 10 的 5 次方,之後就有可能用一些更加精細的計算方式或實驗手段去驗證這些藥物的性能。

生物制藥包含小分子藥物和大分子藥物,現在國内外主要聚焦于 AI 在小分子制藥方面的應用,我們側重于大分子藥物研發。具體說,首先是利用人工智能進行靶點發現,主要是基于知識圖譜,比如圖神經網絡去整合知識圖譜資訊,以及自有多組學實驗資料、分子影像資料去預測靶點。在發現靶點之後,利用 AI 技術設計抗體藥物,比如對蛋白質序列做預訓練模型,針對一些靶點去設計一些蛋白質的序列和抗體的序列,做到更好的親和力,更加穩定,對靶點起到更好的作用。最後,完成濕實驗閉環驗證。

問:能否透露百圖生科目前的藥物探索方向,有哪些已經在落地的項目?

近期 AlphaFold 2 預測蛋白質空間結構的成果引發了廣泛的關注,實際上百圖生科也在利用自有抗體親和力預測、結構預測等算法開展獨特的藥物設計項目。例如研究胃癌、食道癌等亞洲人群高發的惡性良性腫瘤疾病,進行靶點發現和抗體藥物設計,現在還處于早期階段,但實際上算法已經疊代多次了,目前靶點發現的算法預測準确度相較現有最好的文獻方法已經有了 10% 以上的提升,進一步還會進行濕實驗的驗證。

日前,百圖生科投資 10 億元設立的「免疫圖譜卓越計劃」首批項目招募正式啟動,我們計劃聯合前沿的生物技術專家、藥物開發專家和臨床專業團隊,打造一個國際領先的免疫圖譜,為更精準地探尋癌症、自免、纖維化、衰老等疾病的複雜免疫規律,更高效率的靶點挖掘和藥物設計提供可能。目前已收到來自中科院、協和、北大、清華、複旦等系統的近百個臨床和研究團隊的申報。

「百圖生科」再添虎将,國際機器學習大牛宋樂加入李彥宏生物計算軍團
「百圖生科」再添虎将,國際機器學習大牛宋樂加入李彥宏生物計算軍團

2021 年 5 月,百圖生科宣布出資 10 億元設立「免疫圖譜卓越計劃」,并與 30 餘家業内領先技術企業簽訂戰略合作協定,基于百圖生科生物計算核心引擎,共同為免疫圖譜繪制提供技術能力支援。來源:百圖生科

問:主流藥企也在使用人工智能技術,與百圖生科的 AI 驅動制藥有何差異?

首先,主流藥企也有生信、統計、資料分析的人員,但是濕實驗團隊和 AI 團隊是分開的,兩者的工作相對獨立,後期通過交流再各自調整方向。百圖生科希望兩者能夠形成一個閉環系統,把 AI 模型和實驗平台統一規劃,協同工作,一起把藥物發現向前推進。

這是一個新興的行業,沒有一個成熟的解決方案可以直接套用,具有濕實驗和藥物發現知識的人對 AI 了解少,具有 AI 背景的人反之亦然,是以需要有對AI比較了解,而且也願意去深入了解生物問題的人,才能核實模型,利用好這些資料去解決這裡面涉及到的問題。

以我們現有的兩個最小可行性産品為例——靶點發現和藥物設計,我們會動态地将生物和AI算法人才,組合在一起去推進某一個管線或産品的研發。在這個過程中,一方面生物人員可以通過和算法人員的合作,更好地判斷現有算法能夠提供什麼;算法人員可以從生物人員處了解到基于現有問題,如何去适配或者創造一個新的模型,進而更好解決問題。我認為這是把生物人才、算法人才放在一起制藥的一個優勢。

其次,主流藥企研發以人的假設和已有實驗能力為主導,AI 比較偏輔助型工具,是以能探索的潛在的靶點空間或者制藥空間就會受到已有研發積累的較大限制。因為人可以考慮的方面,以及現在能夠分析的次元複雜度,與今天快速增長的高維生物資料比起來實際上非常有限。用人工智能方法就可以把更加複雜的資料綜合考慮,能夠看到更高次元的資訊。

基于此,百圖生科也希望能夠發揮 AI 模型和計算資源優勢,結合自産的實驗資料和醫學、制藥等的專業領域知識,發現新的藥物靶點。在與藥企合作層面,也可以結合制藥企業未被充分挖掘的某些專業資料,發現資料之間的更多關聯,進而聯合進行靶點發現和管線開發,成為傳統藥企非常有力的合作夥伴。未來,我們希望利用 AI 挖掘更多藥物資訊,也包括通過開放自有免疫圖譜查詢,為這方面的專家、生态企業提供更多有價值的工具。

繼續閱讀