天天看點

靜5青年講座回顧 | 唐建教授介紹用于藥物研發的幾何深度學習

作者:北京大學前沿計算研究

編者按

2022年10月19日,加拿大蒙特利爾學習算法研究所(Mila-Quebec AI Institute)副教授唐建博士受邀于北京大學前沿計算研究中心做題為“Geometric Deep Learning for Drug Discovery”的報告。報告由計算機學院張銘教授和中心助理教授王鶴博士聯合主持,相關内容通過騰訊會議、Bilibili同步直播,線上數百人觀看。

靜5青年講座回顧 | 唐建教授介紹用于藥物研發的幾何深度學習
靜5青年講座回顧 | 唐建教授介紹用于藥物研發的幾何深度學習

唐建教授報告現場

講座開始,唐建教授首先介紹了目前藥物研發面臨的挑戰。藥物研發是一個非常漫長且昂貴的過程,開發一款新藥一般要花10年時間和25億美元的資金,這也導緻了目前市場上藥價居高不下。具體來說,藥物研發一般需要經曆三個流程,首先确定藥物的靶點,然後設計能夠結合靶點的分子,最後是動物實驗和三期臨床實驗。目前的情況是,設計分子的環節失敗率很高,基本上隻有10%的分子能夠進入臨床實驗。

靜5青年講座回顧 | 唐建教授介紹用于藥物研發的幾何深度學習

好消息是,近年來,醫療領域已經積累了大量的研究文獻和大規模的資料集,這為訓練高品質的分析和預測藥物分子的 AI 奠定了基礎。這之中有大量的資料以圖的形式存在。例如,對于小分子,其中的原子可以表示為點,原子間互相作用(化學鍵等)可以表示為邊;對于蛋白質,氨基酸殘基可以表示為點,殘基間的互相作用可以表示為邊;對于醫療知識圖譜,點表示醫療領域的各種概念(例如基因、疾病、藥物),邊則刻畫了這些概念之間的聯系(例如什麼基因可能導緻什麼病,什麼藥可以治什麼病)。

靜5青年講座回顧 | 唐建教授介紹用于藥物研發的幾何深度學習

接下來,唐建教授介紹了他和他帶領的研究小組近期的工作。這些工作主要分為三類。第一類是分子和蛋白質的模組化,又可以細分為早期的聚焦于圖表示學習的工作和近期在此基礎上引入 3D 結構資訊(即幾何深度學習)的工作。第二類是醫療知識圖譜上的學習和推理。第三類是開源的藥物研發的機器學習架構,包括 TorchDrug 和 TorchProtein。

靜5青年講座回顧 | 唐建教授介紹用于藥物研發的幾何深度學習

在分子的模組化上,一個典型的工作是 GeoDiff,發表于 ICLR 2022 Oral。這是第一個将擴散(diffusion)模型用于生成 3D 分子構象(conformation)的工作。與經典的擴散模型一緻,GeoDiff 在前向過程中不斷地添加噪聲,在反向生成時引入可學習的參數。然而幾何結構的資料對模型提出了新的挑戰:旋轉、平移等變性(SE(3)-invariant)。如果我們把輸入的幾何結構在 3D 空間中平移并旋轉一個角度,幾何結構本身并不會發生改變。是以我們不希望模型局限于 3D 空間中坐标的具體數值,而是能對旋轉、平移前後的同一幾何結構學到相同的表示。GeoDiff 一方面要求了前向過程中的噪聲分布旋轉平移不變,另一方面用特殊設計的圖神經網絡確定了反向生成的過程旋轉平移等價,并在數學上給出了模型滿足旋轉、平移等變性的嚴格證明。實驗結果表明 GeoDiff 的效果顯著優于之前的所有模型,在比較大的分子上表現更加突出。值得一提的是,GeoDiff 能夠生成同一分子不同的合法構象,這是 AlphaFold2 做不到的。

靜5青年講座回顧 | 唐建教授介紹用于藥物研發的幾何深度學習

在蛋白質的模組化中,唐建教授及其團隊同樣引入了幾何結構資訊和旋轉、平移等變性,在蛋白質表示的預訓練、蛋白質大分子和藥物小分子的對接(docking)等任務上取得了突破。他們還整理了比較重要的蛋白質表示學習的任務以及相應的資料集和模型,做成基準(benchmark),相關工作将見于 NeurIPS 2022。

靜5青年講座回顧 | 唐建教授介紹用于藥物研發的幾何深度學習

在醫療知識圖譜領域,唐建教授及其團隊專攻知識圖譜的表示學習和推理。表示學習的著名工作 RotatE 是第一個可以同時模組化知識圖譜中對稱關系、不對稱關系、逆關系和合成關系的模型,2019年發表在 ICLR 至今已經有一千餘次的引用。另一項在知識圖譜上結合了深度學習和符号推理的工作 RNNLogic 則是得到了圖靈獎得主 Yoshua Bengio 的認可。

靜5青年講座回顧 | 唐建教授介紹用于藥物研發的幾何深度學習

最後,唐建教授簡單介紹了近年來他帶領團隊打造的用于藥物研發的開源機器學習平台 TorchDrug 和 TorchProtein。平台上實作了相關領域目前來看最重要的任務及其對應的模型和資料集。平台的搭建聯合了 IBM、Intel、NVIDIA 等知名公司。有志于探索機器學習在藥物研發領域的應用的同學不妨可以關注。

靜5青年講座回顧 | 唐建教授介紹用于藥物研發的幾何深度學習
靜5青年講座回顧 | 唐建教授介紹用于藥物研發的幾何深度學習
靜5青年講座回顧 | 唐建教授介紹用于藥物研發的幾何深度學習

圖文 | 詹緻豪

繼續閱讀