天天看點

Nat.Commun. | DeepAccNet:基于深度學習的準确性估計改善蛋白質結構優化

Nat.Commun. | DeepAccNet:基于深度學習的準确性估計改善蛋白質結構優化

今天給大家介紹的是華盛頓大學蛋白質設計研究所所長,著名的蛋白質設計天才科學家David Baker課題組發表在Nature Communications上的一項工作。在這項工作中,作者提出了一個深度學習架構DeepAccNet,用于估計蛋白質模型中每個殘基的準确性和殘基-殘基距離中的符号錯誤,并使用這些預測來指導Rosetta蛋白質結構優化。在Rosetta改進方案的多個階段中,加入準确性預測,可以大大提高所得蛋白質結構模型的準确性,說明深度學習可以改善對生物分子整體能量最小值的搜尋。

介紹

基于氨基酸共同進化資料的距離預測可以顯著促進蛋白質結構預測,但是在大多數情況下,預測結構仍然與實際結構有很大差異。蛋白質結構改進的挑戰是提高此類起始模型的準确性,迄今為止,最成功的方法是基于實體的方法,該方法涉及大規模搜尋低能結構。同時,也有很多基于深度學習和非深度學習的方法,但它們着重于預測每個殘基的準确性,而無法預測應如何移動,是以效果都不明顯或用處不大。在這項工作中,作者開發了一個基于深度學習的架構——DeepAccNet,該架構可估計每個殘基-殘基距離中的符号錯誤以及局部殘基接觸誤差,并使用此估計值來指導基于Rosetta的蛋白質結構優化。

方法

DeepAccNet結構如圖1所示,可在蛋白質結構模型的基礎上進行三種類型的預測:每個殘基的Cβ局部距離差異測試(Cβ1-DDT)分數,門檻值為15Å的局部Cβ接觸圖,以及來自相應自然結構的有符号Cβ–Cβ距離誤差的每個殘基對分布。作者指出,DeepAccNet不是預測每對位置的單個誤內插補點,而是預測誤差的直方圖,該直方圖提供有關可能結構分布的更詳細資訊,并更好地表示誤差預測所固有的不确定性。

DeepAccNet整合了1D,2D和3D特征,首先在以每個殘基為中心的坐标框中對局部原子網格執行一系列3D卷積操作,這些卷積生成描述蛋白質中N個殘基中每個殘基的局部3D環境特征。這些3D特征以及附加的殘基水準一維輸入特征通過平鋪與2D殘基-殘基輸入特征結合在一起,然後使用ResNet架構将生成的組合2D特征描述輸入到一系列2D卷積層中。

Nat.Commun. | DeepAccNet:基于深度學習的準确性估計改善蛋白質結構優化

圖1 Approach overview

結果

圖2顯示了對于三個靶蛋白(3lhnA,4gmqA和3hixA),在兩個随機選擇的誘餌結構上沒有MSA或Bert嵌入的DeepAccNet預測。在每種情況下,網絡都會為兩個誘餌生成不同的有符号殘基-殘基距離誤差圖,這些圖在品質上類似于結構誤差的實際模式。網絡還可以準确預測不同誘餌的每個殘基模型準确性(Cβ1-DDT分數)的變化, 總體而言,詳細的預測提供了有關結構的哪些部分需要移動以及以何種方式指導優化的大量資訊。

Nat.Commun. | DeepAccNet:基于深度學習的準确性估計改善蛋白質結構優化

圖2 examples of DeepAccNet prediction

為了研究每種特征對網絡性能的貢獻,作者在訓練過程中一次将每種功能與距離圖結合在一起,并通過交叉熵損失和測試集上的Cβ1-DDT得分均方誤差來評估性能(圖3a)。除了MSA特征外,最大的貢獻來自基于3D卷積特征和Bert嵌入。作者調查了網絡在X射線晶體學,核磁共振波譜(NMR)和電子顯微鏡(EM)所确定的實驗結構上的性能,對于高分辨率晶體結構,DeepAccNet變體的預測Cβl-DDT值接近1.0,而對于較低分辨率的結構,Cβ1-DDT值則有所降低(圖3c), 核磁共振結構的預測準确度低于高分辨率晶體結構(圖3d)。作者将DeepAccNet變體與其他精度估算器進行了比較(圖3b),從最近的CASP實驗中可以明顯看出,從多個序列比對中得到的協同進化資訊提供了詳細的結構資訊。DeepAccNet-Bert包含Bert嵌入,這些嵌入是由單個序列生成的,沒有任何進化比對,在沒有同源序列資訊的蛋白質上,它在EMA任務上的表現優于DeepAccNet-MSA,當有多個序列比對資訊時,DeepAccNet-MSA将是一個更可靠的選擇,顯示了最先進的性能。

Nat.Commun. | DeepAccNet:基于深度學習的準确性估計改善蛋白質結構優化

圖3 DeepAccNet performance.

作者發現,基于網絡的準确性預測會不斷提高基準示例的準确性。通過更新的方案,無論蛋白質大小如何,在起始模型上均觀察到一緻的改善(圖4a), 對每個殘基模型品質的更詳細預測也與實際值非常吻合(圖4e)。作者還評估了準确度預測對改進模型品質的實際影響(圖4c), 從DeepAccNet 柱狀圖預測得出的殘基對限制對于成功提煉至關重要(圖4d)。如圖4f所示,改進包括在整體結構正确時識别和修改錯誤區域,精度預測網絡通過兩種方式促進了這一總體改進:它提供了對不可靠的距離對和區域的更準确的估計;其次,它提供了一種有效地估計距離的方法。

Nat.Commun. | DeepAccNet:基于深度學習的準确性估計改善蛋白質結構優化

圖4 Guiding search in protein structure refinement using the accuracy predictors.

總結

這項工作中,作者提出了DeepAccNet,DeepAccNet對以殘基為中心的原子坐标進行3D卷積,将詳細的殘基資訊與其他單獨的殘基以及殘基-殘基水準的資訊內建在一起。實驗結果表明,DeepAccNet可以提供最先進的蛋白質模型精度預測,并且可以将它們進一步用于預測帶符号的距離誤差,以進行蛋白質結構優化。

繼續閱讀