天天看點

多模态學習加持,蛋白質預訓練模型S2F準确預測PPI

蛋白質-蛋白質互相作用(PPI)在許多生物過程中都有着重要作用。在這些過程中,兩個或多個蛋白質實體地結合在一起以實作其功能。建立準确的 PPI 預測模型在許多生物醫學應用中都有十分重要的意義,例如疫苗設計、大分子以及多肽類藥物發現等問題中都涉及蛋白質互相作用。

預訓練蛋白質模型來學習有效的表征對預測 PPI 來說至關重要,目前大多數的蛋白預訓練模型是基于序列的,采用自然語言進行中使用的語言模型來處理氨基酸序列。

PPI 問題和蛋白的結構與功能密切相關。然而,單獨使用蛋白質序列很難描述蛋白質的結構和功能。這從蛋白質折疊這個問題的難度就可以看出,即使 DeepMind 提出的 AlphaFold 也需要借助多序列比對(MSA)的資訊才能取得比較好的結果。

為了解決這個問題,百度借鑒自然語言處理和計算機視覺中的多模态學習,提出了一個包含三個模态:序列(Sequence)、結構(Structure)和功能(Function)的蛋白質多模态預訓練模型 S2F。他們使用重原子點雲的拓撲複合物來編碼結構特征,這使得模型不僅可以學習骨架的結構資訊,還可以學習側鍊的結構資訊。此外,此模型還結合了從文獻或人工注釋中提取的蛋白質功能描述的知識。

實驗表明,S2F 學習的蛋白質嵌入在各種 PPI 任務中取得了良好的表現,包括跨物種 PPI、抗體-抗原親和力預測、SARS-CoV-2 的抗體中和預測以及突變驅動的蛋白結合親和力變化預測。

該工作即将在 PaddleHelix 開源,供大家使用。

項目連結:https://github.com/PaddlePaddle/PaddleHelix。

論文連結:https://arxiv.org/abs/2112.04814

12月28日19:00-20:00,機器之心最新一期線上分享邀請到百度自然語言處理部資深研發工程師紫荊帶來這一工作的詳細解讀。

分享主題:多模态蛋白預訓練模型S2F,及其在基于序列的蛋白質互相作用預測中的應用

分享摘要:

蛋白質互相作用簡介

蛋白質互相作用預測和挑戰

蛋白質多模态機器學習:多模态蛋白預訓練模型S2F

S2F用于蛋白質互相作用預測的實驗效果

分享嘉賓:紫荊,大學畢業于清華大學,曾就讀于英國帝國理工學院,任瑪麗居裡研究員并獲得博士學位。現任百度自然語言處理部資深研發工程師,螺旋槳PaddleHelix核心研發,專注于AI和藥物研發領域,研究方向包括虛拟篩選,蛋白質互相作用,蛋白質結構預測等。

分享時間:中原標準時間12月28日19:00-20:00

直播間:關注機動組視訊号,中原標準時間12月28日開播。

交流群:本次直播設有 QA 環節,歡迎加入本次直播交流群探讨交流。

如群已超出人數限制,請添加機器之心小助手:syncedai2、syncedai3、syncedai4 或 syncedai5,備注「S2F」即可加入。

機器之心 · 機動組

機動組是機器之心發起的人工智能技術社群,聚焦于學術研究與技術實踐主題内容,為社群使用者帶來技術線上公開課、學術分享、技術實踐、走近頂尖實驗室等系列内容。機動組也将不定期舉辦線下學術交流會與組織人才服務、産業技術對接等活動,歡迎所有 AI 領域技術從業者加入。

繼續閱讀