天天看點

恭喜張老師|張貴軍課題組:蛋白質結構預測的最新進展與挑戰

作者:生信寶典

2023年12月18日,張貴軍課題組在Journal of Chemical Information and Modeling發表針對蛋白質結構預測的綜述Recent Advances and Challenges in Protein Structure Prediction,主要讨論了在AlphaFold2出現後的一些主流方法。

恭喜張老師|張貴軍課題組:蛋白質結構預測的最新進展與挑戰

1 背景介紹

截至2023年6月,已有超過2.4億個氨基酸序列被存入UniProt資料庫,而隻有大約20萬個實驗确定的蛋白質結構被存入蛋白質資料庫(PDB),占總序列的不到0.1%。為了彌補這一差距,并探索未知蛋白質的潛在價值,科學家們已經轉向了計算方法來預測蛋白質的三維結構。DeepMind和 EMBL’s European Bioinformatics Institute (EMBL-EBI)

建構了AlphaFold蛋白結構資料庫(AlphaFold DB)。AlphaFold

DB已經釋出了超過2億個蛋白質結構結構,這些結構可以向全球科學界免費和開放。

近年來,人工智能在蛋白質結構預測領域取得了重大進展。特别是,DeepMind的端到端模型,AlphaFold2,已經證明了預測許多未知蛋白質的三維結構的能力,其精度水準可與那些實驗方法相媲美。這一突破為了解蛋白質的結構和功能,以及加速藥物的發現和其他在生物學和醫學領域的應用開辟了新的可能性。盡管人工智能在該領域取得了顯著的成就,但仍存在一些挑戰和局限性。本文就蛋白質結構預測的研究進展和一些挑戰進行了綜述。這些挑戰包括預測多結構域的蛋白質結構、蛋白質複合物結構、蛋白質的多種構象狀态和蛋白質折疊途徑。此外,還強調了可以進行進一步改進的方向。圖1顯示了過去幾年來的一些蛋白質結構預測方法。

恭喜張老師|張貴軍課題組:蛋白質結構預測的最新進展與挑戰

圖1. 使用一些主要的蛋白質結構預測方法的時間線。不同顔色的方框表示方法的類别

在CASP14之前,蛋白質結構預測方法主要分為兩大類:template-based modeling(TBM)和free modeling (FM)。在過去的兩年裡,這兩種方法的分類标準變得越來越模糊。随着深度學習技術的快速發展和應用,特别是随着端到端預測方法的出現,蛋白質結構預測方法往往結合各種方法的優勢,産生與實驗結構相媲美的蛋白質三維原子結構。在AlphaFold2出現的兩年内,AlphaFold2在生物學和醫學上的許多成功應用已經被報道,顯示了其巨大的影響和革命性的潛力。這些研究進一步強調了開發高精度的蛋白質結構預測方法的重要性和必要性。得益于AlphaFold2的突破,許多研究小組在CASP15中以各種方式适應或整合了AlphaFold2。

簡而言之,有幾個主要方法來提高标準AlphaFold2,如使用不同的政策或擴大資料庫産生更豐富的多序列比對(MSA)資訊,更有效地使用模闆,修改AlphaFold2使用更多的模型,或結合距離和限制從AlphFold2模型到其他方法,這進一步提高了對單個蛋白質和結構域結構的預測。

如圖2A所示,伺服器組中所有CASP14的最佳模型的平均GDT_TS為67.94,而CASP15的最佳模型的平均GDT_TS為85.34,比CASP14增加了25.6%。此外,在CASP15中,來自伺服器組的最佳模型的平均GDT_TS接近于人類組,甚至超過了FM的人類組,如圖2C所示。這也表明,這些人工智能模型和計算方法在一定程度上學習到人類的知識。

恭喜張老師|張貴軍課題組:蛋白質結構預測的最新進展與挑戰

圖2. CASP14和CASP15的結構預測結果總結。(A−C)分别對所有類型、TBM和FM的結果。橫軸代表不同的組,縱軸代表每個類型的最佳模型。這裡提供的資料來自于CASP的官方網站

2 蛋白質結構預測方法的研究進展

有些方法使用深度學習技術來推斷蛋白質結構的空間限制,如接觸、距離、方向和殘基之間的氫鍵。這些推斷出的限制條件與基于知識或實體的力場相結合。最後,采用優化方法,如基于蒙特卡羅的和基于梯度下降的折疊引擎,對能量最低的構象進行采樣。接觸/距離輔助幾何優化蛋白質結構預測方法的流程圖如圖3所示。表1列出了上面讨論的帶有深度學習預測限制的幾何優化模組化方法的連結,允許讀者輕松地通路這些資源。

恭喜張老師|張貴軍課題組:蛋白質結構預測的最新進展與挑戰

圖3. 接觸/距離輔助幾何優化蛋白質結構預測方法的總體流程圖

表1. 綜述中讨論的人工智能接觸距離結構預測幾何優化模組化方法清單

恭喜張老師|張貴軍課題組:蛋白質結構預測的最新進展與挑戰

端到端蛋白質結構預測方法利用深度學習技術直接從氨基酸序列預測三維結構。端到端網絡模型主要關注輸入序列和輸出結構之間的關系。穆罕默德·阿爾拉提出的蛋白質結構預測的端到端深度學習結構的開創性嘗試之一是循環幾何網絡(RGN)。RGN是一個端到端可微分模型,它通過微分原語優化輸入到輸出。神經能量模組化和優化(NEMO)是由John Ingraham等人與RGN同時提出的端到端可微模型。NEMO可以預測蛋白質的空間特征,然後利用Langevin動力學和基于這些特征的原子推斷網絡來推斷輸入序列的原子坐标。最初,端到端方法的預測精度并沒有明顯高于使用AI接觸-距離-結構預測模型的幾何優化模組化。然而,CASP14取得了突破。當時AlphaFold2利用端到端深度學習體系結構實作了高精度的蛋白質結構預測。這證明了使用端到端深度學習架構進行蛋白質結構預測的可行性,并使這些方法在該領域崛起。端到端蛋白質結構預測方法的一般流程圖如圖4所示。表2列出了這些方法的連結,是以讀者可以通路這些有用的資源。

恭喜張老師|張貴軍課題組:蛋白質結構預測的最新進展與挑戰

圖4.端到端蛋白質結構預測方法的總體流程圖。

表2.讨論的端到端蛋白質結構預測方法一覽表

恭喜張老師|張貴軍課題組:蛋白質結構預測的最新進展與挑戰

3 蛋白質結構預測方法的挑戰

CASP14和CASP15的實驗結果表明,在某些情況下,目前的蛋白質結構預測方法可以産生可與實驗解析的結構相媲美的結構。在CASP14中,AlphaFold2以絕對領先的預測精度登頂,但在CASP15中,至少有40支隊伍的預測精度超過了AlphaFold2。在排名最高的團隊中,各種預測方法都不同程度地涉及到AlphaFold2,突出了AlphaFold2對蛋白質結構預測領域的顯著影響。總的來說,AlphaFold2仍然是最先進的方法之一。

然而,AlphaFold2也有一些局限性。如所報道的,AlphaFold2的置信度得分與目标結構在PDB中是否具有同源物密切相關。其對孤兒蛋白的預測精度仍然有限。CASP主要通過結構域來評估蛋白質,并更多地關注蛋白質結構域的模組化準确性。然而,蛋白質通常作為一個完整的單鍊結構來執行其功能。與單結構域蛋白結構相比,多結構域蛋白的模組化似乎長期以來一直被該領域所忽視。為了引起人們對這個問題的關注,CASP在CASP14之後增加了域間預測評估。AlphaFold2對多結構域蛋白的預測精度不如對單個結構域的預測精度好。域間取向的預測是一個更具挑戰性的問題。蛋白質在執行其功能時經常發生結構變化,特别是對于結構域之間經常互相作用以執行更複雜功能的多結構域蛋白質。蛋白質以多種構象存在,所有這些構象都與其功能作用和生物學影響有關。要實作對蛋白質功能的全面了解,就需要了解它們的各種結構狀态和蛋白質折疊途徑。然而,對蛋白質的所有構象狀态進行模組化仍然具有挑戰性。此外,蛋白質單體可以與其他蛋白質形成複合物,導緻結構變化,使蛋白質複合物的預測更具挑戰性。除上述問題之外,蛋白質結構預測還存在許多未得到解決的核心挑戰和困難。在這裡,本文主要讨論了多結構域蛋白、蛋白−蛋白複合物、多構象狀态和折疊途徑這四個挑戰。作者對這些方向進行了一些初步的探索,并對這些領域有了一些我們自己的見解。在接下來的章節中,作者将讨論目前的方法如何将蛋白質結構預測的這些方面結合起來,确定它們的局限性,并基于他們的見解提出潛在的解決方案。

統計資料顯示,超過80%的真核蛋白和67%的原核蛋白是多結構域蛋白。大多數人類蛋白由一個以上的結構域組成。然而,PDB中隻有大約三分之二的蛋白質結構是單結構域蛋白,可能是由于與多結構域蛋白相比,單結構域蛋白結構的實驗測定更容易确定。結構域之間的互相作用在許多多結構域蛋白的進階功能中起着至關重要的作用,這可能不能通過單個結構域結構充分反映出來。是以,準确預測結構域−結構域的互相作用對于全面了解蛋白質功能和設計調節這些功能的新藥至關重要。

主流的蛋白質結構預測方法往往忽略了多結構域蛋白質的全鍊結構模組化和結構域取向預測。在CASP14之後,CASP引入了域間預測類别,值得注意的是,CASP的域間預測類别更關注域對,而忽略了具有弱接口的域對。在多結構域蛋白質中,如果對某些結構域間界面的預測錯誤,就會阻礙其他結構域形成正确的結構域間界面,進而導緻無法形成正确的全鍊結構。正确預測多結構域蛋白質的全鍊模型更具挑戰性,特别是對于結構域間互相作用較弱的蛋白質。即使是像AlphaFold2這樣的先進方法在預測整個多結構域蛋白質方面也不如單個結構域的準确。如圖5所示,AlphaFold2準确地預測了CASP15靶點T1120的2個結構域(T1120-D1和T1120-D2)的單個結構域結構,tm得分分别為0.90和0.87。然而,AlphaFold2直接預測的T1120全鍊構象的TM得分顯著降低,且AlphaFold2直接預測的所有構象在三維結構上都相似。與單結構域蛋白相比,多結構域蛋白的MSA和同源物較少,PDB中用于訓練(或學習)的多結構域蛋白資料也少得多,使得目前先進的預測方法(如AlphaFold2)傾向于單結構域結構預測。是以,開發有效的預測多結構域蛋白質結構和結構域間互相作用的方法是計算生物學中一項具有挑戰性和重要的任務。表3列出了相關的方法。

恭喜張老師|張貴軍課題組:蛋白質結構預測的最新進展與挑戰

圖5 CASP215多結構域蛋白靶标(T1120)上的AlphaFold2結構和蛋白結構域組裝方法結構。

表3.本綜述中讨論的多結構域蛋白質結構組裝或預測方法一覽表

恭喜張老師|張貴軍課題組:蛋白質結構預測的最新進展與挑戰

準确預測蛋白互相作用對于了解蛋白質功能和促進藥物設計至關重要。蛋白−蛋白互相作用靶點是當今化學生物學和藥物發現的主要挑戰之一。自2002.124以來,CASP(capri)一直在衡量相關計算方法的準确性。同時,CASP在蛋白質結構預測領域取得了很大的進展。從2014年開始,CAPRI與CASP合作組織了聯合比賽,突破了蛋白質複雜結構預測領域的極限。在CASP13-CAPRI實驗中,與排名最高的對接解決方案相比,人類群體預測獲得了50%的成功率。CASP14包含了幾個具有挑戰性的大而異構的蛋白,無法用經典的組裝預測方法來解決。一些小組已經開始通過在其裝配模組化中實作深度學習預測限制來解決這些挑戰。BAKER實驗小組通過使用一種将經典技術(基于模闆的模組化、蛋白質對接)與基于深度學習的接觸預測和折疊-對接方法相結合的方法,取得了最高的性能。此外,在AlphaFold2的深度學習革命之後,蛋白質複合物的模組化已經成為當今結構生物學領域的一個突出的研究熱點。

然而,目前在這一領域面臨的挑戰是雙重的。首先,預測含有大量氨基酸的複合物,特别是那些高達3000個氨基酸的複合物,需要大量的計算資源。此外,由于記憶體使用量随着氨基酸數量(如AF_Multimer)的增長大緻呈二次增長,這使得未來任何潛在的硬體進步都可能産生有限的影響。是以,迫切需要提供一種輕量級的方法來應對大規模複雜模組化的挑戰。其次,目前複雜的預測技術往往嚴重依賴于鍊間的協同進化信号。當成對的MSA較淺時,預測往往不令人滿意,需要有效的政策來處理鍊間共同進化資訊不足的情況,這是另一個重要的問題.對于蛋白質複合物的紊亂預測和宿主−病原體互相作用的預測也是目前該領域面臨的挑戰,主要原因是前者缺乏關于功能蛋白紊亂的資料,而後者缺乏共同進化資訊。此外,在CASP15中,表現最好的組在不同類型中的預測精度不同,這可能是由于他們采用的模組化政策不同。是以,為不同類型的複合物設計不同的模組化政策也可能是一個值得注意的方向。

許多蛋白質以不同構象狀态的系綜存在。例如,轉運體、152G蛋白偶聯受體(GPCRs)和酶在從一種穩定狀态到另一種穩定狀态的功能轉變過程中,它們的結構發生了微妙或顯著的變化。闡明這些狀态的結構對于闡明其功能機制和生物過程至關重要。例如,轉運體通過打開和關閉細胞外和細胞内的門的運動來介導底物的載體易位。此外,在藥物發現中,某些藥物分子可能隻能與蛋白質的特定狀态結合。然而,目前大多數的蛋白質結構預測算法隻專注于預測特定的蛋白質結構,而忽略了蛋白質不同狀态的結構。即使使用了最先進的蛋白質結構預測方法,AlphaFold,預測的蛋白質結構模型在大多數情況下也基本相似。一個具有代表性的結構可能不能完全描述一種蛋白質及其生物學功能。

最近,一些研究試圖預測蛋白質的多種構象狀态的結構。在不同的構象态之間存在着能量勢壘,可以通過某些方法來克服,如離子結合和夥伴分子。分子動力學模拟可以用于研究蛋白質動力學和不同構象态之間的轉變。然而,使用分子動力學來模拟構象态之間的過渡軌迹可能需要巨大的計算成本,這對大型蛋白質來說是一個挑戰。Jens Meiler等人提出,通過随機子抽樣減少輸入MSA的深度可以使AlphaFold2能夠用于樣本多個替代結構。雖然他們提出的方法尚未應用于大量的蛋白質,但正如他們所發現的那樣,使用不同的MSA來産生不同的構象,可能是一種很有前途的多重構象狀态模組化政策。一定程度上,所有這些方法都通過使用和産生不同的空間限制來建構不同狀态的結構,但也有必要開發新的深度學習方法來預測蛋白質的相關狀态結構集合。作者設想了預測具有多個分布的距離圖和不同分布之間的采樣構象轉換的可能性。然而,由于PDB中缺乏蛋白質的多種狀态結構資訊,阻礙了深度學習方法的學習或訓練,這就提出了一個挑戰。一個更具挑戰性的任務是捕獲由外部因素引起的構象變化,因為它們的共同進化信号很弱。此外,開發能夠有效評價一個內建中多個狀态結構的準确性和穩定性的模型品質評估方法是至關重要的。這些方法對于從集合中選擇穩定的/備選的構象态和指導蛋白質構象變化的探索是必不可少的。

蛋白質折疊途徑不僅影響蛋白質的功能,而且還影響其穩定性。許多疾病,如帕金森病和阿爾茨海默病是由折疊過程中蛋白質錯誤折疊引起的。了解蛋白質折疊的機制和途徑對于促進藥物的開發是必要的。本質上,蛋白質折疊是實體化學,序列本身決定了結構。然而,折疊機制相當複雜,蛋白質折疊也是一個開放的問題。目前,蛋白質折疊預測通常分為蛋白質結構預測和蛋白質途徑預測。蛋白質結構預測問題的目的是基于氨基酸序列預測蛋白質的三維結構,而折疊路徑預測的重點是細胞内蛋白質的折疊過程。随着蛋白質結構預測技術的突破,對蛋白質折疊途徑的探索和預測引起了計算結構生物學界的廣泛關注。人們提出了各種方法,包括模拟從自然狀态到展開狀态的逆折疊路徑,使用機器學習預測早期折疊殘基,以及基于模闆預測蛋白質折疊中間體。雖然這些方法在一定程度上顯示出了良好的結果,但準确預測蛋白質折疊途徑仍然是一個挑戰。其中一個主要的挑戰是缺乏足夠的資料來進行驗證,這使得評估許多計算方法和應用許多機器學習方法變得困難。此外,蛋白質折疊途徑也受到細胞環境中許多因素的影響,這使得其計算或模拟方法更加複雜。是以,整合先進的蛋白質結構預測方法,促進跨學科的溝通和協作,是推進蛋白質折疊途徑預測的關鍵步驟。例如,我們能否預測蛋白質序列中殘基互相作用的強度,并對互相作用強烈的殘基進行局部結構預測?如果是這樣,我們能否在序列中逐個添加互相作用較差的殘基,并使用EMBER3D進行實時預測?此外,評估中間結構的置信度對折疊路徑的研究也非常重要,這可能有助于我們選擇合理的折疊路徑或中間體。

4 總結

蛋白質是生命活動的主要載體,其3D的三維結構對于了解其生物學功能、設計藥物和維持生命健康至關重要。安芬森證明了一個蛋白質的氨基酸序列包含了其三維結構的所有資訊。自20世紀60年代以來,蛋白質結構預測一直是生物資訊學中的一個熱點和難題。學術界和工業界的努力,特别是在CASP系列事件中,已經導緻了21世紀蛋白質結構預測的重大進步。AlphaFold2的出現将蛋白質結構預測問題帶到了另一個層次,使預測的結構模型可以與實驗求解的結構相媲美。CASP15的研究結果也證明了蛋白質結構預測方法的穩步發展和蓬勃發展。單結構域蛋白質結構預測的突破有望推動多結構域蛋白質預測的進展,進一步促進蛋白質複雜結構預測的發展。這些進展将對免疫學研究産生巨大的影響和益處。此外,焦點是從靜态結構轉移到動态結構。人工智能模型在資料有限的情況下模組化動态結構可能存在困難,這意味着基于實體的模型與人工智能的結合也值得關注。

本文綜述了近年來在蛋白質結構預測方面的研究進展,包括使用蛋白質語言模型直接從孤兒蛋白序列中學習結構資訊或新的蛋白質預測。此外,本文還綜述了高精度蛋白質結構預測方法的一些新應用。更重要的是,回顧總結了一些挑戰,仍然存在的蛋白質結構預測和報告的一些方法正在開發來解決這些挑戰,如多域蛋白質結構預測、蛋白質複雜結構預測,蛋白質多個構象結構預測/內建預測,和蛋白質折疊路徑預測。此外,作者還結合了一些例子來說明這些問題的可行解決方案。綜上所述,我們相信随着蛋白質結構預測方法的不斷進步,它們将在生物學和醫學中發揮越來越重要的作用。

參考資料:

https://pubs.acs.org/doi/epdf/10.1021/acs.jcim.3c01324

本文轉載自【DrugPython】公衆号

繼續閱讀