天天看點

Nat. Methods | 基于幾何深度學習解密蛋白分子表面的互相作用指紋

2019年12月,洛桑聯邦理工學院和瑞士生物資訊研究所的研究者在nature methods上提出使用分子表面的化學和幾何指紋,來預測蛋白質和其他分子間的互相作用。

Nat. Methods | 基于幾何深度學習解密蛋白分子表面的互相作用指紋

1

介紹

蛋白質與其他生物分子之間的互相作用是大多數生物過程中蛋白質功能的基礎。僅從結構預測這些互相作用仍然是結構生物學中最重要的挑戰之一。許多程式通過利用蛋白質序列和結構中的進化特征有效地預測了這些互相作用,但是這些方法需要了解同源蛋白質。分子表面是蛋白質結構的進階表征,将蛋白質模組化為具有幾何和化學特征的連續形狀。研究者提出分子表面具有化學和幾何特征的指紋,以揭示有關蛋白質與其他生物分子互相作用的資訊。研究者的中心假設是,沒有序列同源性且經曆相似的生物分子互相作用的蛋白質可能顯示相似的模式,這很難通過視覺分析來掌握,但可以從大規模資料集中學習。在這裡,研究者介紹了MaSIF(molecular surface interaction fingerprinting)一種通用的幾何深度學習方法,可以識别和破譯蛋白質表面上的圖案,而無需明确考慮潛在的蛋白質序列或結構折疊。

描述蛋白質結構的分子表面表征(圖1a)已用于涉及蛋白質互相作用的許多任務,且已成為研究蛋白質與溶劑靜電互相作用的首選結構描述。最近,幾種方法已經捕獲了具有功能相關性的分子表面圖案,例如三維Zernike描述符和幾何不變指紋(GIF, geometric invariant fingerprint)。這些方法提出了“人工”描述符,即描述蛋白質表面特征的人工優化載體。因為很難先驗地确定給定預測任務的正确特征集,是以這些方法的範圍受到限制。

幾何深度學習是一個新興領域,其成功的将基于圖像的深度神經網絡架構(CNN)擴充到幾何資料(例如曲面),這些技術已顯示出優于人工特征提取的能力。MaSIF利用幾何深度學習來學習蛋白質分子表面中的互相作用指紋。分子表面資料是在測地空間中描述的,這意味着兩點之間的距離對應于沿着表面的兩點之間的“行走”距離。在高度不規則的蛋白質表面(例如口袋),測地距離可能遠大于歐幾裡得距離。首先,MaSIF将表面分解為具有固定測地半徑的重疊徑向小塊(圖1a,b)。小塊中的每個點都配置設定有一系列幾何和化學輸入特征(圖1b)。無法了解輸入特征(化學和幾何形狀),它們是從分子表面預先計算的特性。然後,MaSIF學習将表面小塊的輸入特征嵌入為數字矢量描述符(圖1d)。每個描述符都由應用程式的神經網絡層進一步處理。網絡是端到端訓練的,意味着小塊的描述符不是通用的,而是針對特定任務優化的。

Nat. Methods | 基于幾何深度學習解密蛋白分子表面的互相作用指紋

圖1

此項研究工作展示了MaSIF的三個概念驗證應用程式(圖1e):(1)MaSIF-ligand:配體口袋相似性比較;(2)MaSIF-site:蛋白質表面中的蛋白質-蛋白質互相作用(PPI)部位預測 (3)MaSIF-search:超快速表面掃描,利用表面指紋預測蛋白質-蛋白質複合物的構型。MaSIF架構對于沒有共同進化祖先的蛋白質之間尋找相似互相作用指紋的生物學家很有用。MaSIF代表了對歐幾裡得結構表示學習的偏離,并使人們認識到蛋白質功能和設計的重要結構特征。

2

MaSIF:學習蛋白質表面指紋的通用架構

研究者從蛋白質結構中計算出離散的分子表面(不包括溶劑表面),并将幾何和化學特征配置設定給網格中的每個頂點(圖1a,b)。圍繞網格的每個頂點,提取測地半徑r = 9Å或r = 12Å的小塊(圖1b)。小塊半徑的選擇取決于應用程式,在具有多個測地卷積層的體系結構中,由于記憶體限制,研究者使用較小的小塊。對于小塊中的每個頂點,計算兩個幾何特征(形狀指數和與距離相關的曲率)和三個化學特征(親水指數、連續性靜電以及自由電子和質子供體的位置)。為小塊内的頂點配置設定了測地極坐标(圖1c)、徑向坐标(代表到小塊中心的測地距離)和角坐标(相對于從小塊中心的随機方向計算)。通過幾何特征(形狀指數和與距離相關的曲率)和測地極坐标隐式描述了表面的幾何結構(例如表面凹穴的“深度”)。

MaSIF使用極坐标對輸入特征應用幾何深度神經網絡,以在空間上定位特征。神經網絡由順序應用的一層或多層組成。該體系結構的關鍵元件是測地卷積,将經典卷積推廣到曲面并實作為對局部面的操作。在極坐标中,研究者構造了一個在局部測地極坐标系統中定義的高斯核系統,且參數是可學習的。可學習高斯核心局部平均頂點方向的小塊特征并産生固定尺寸的輸出,該輸出與一組可學習的過濾相關。研究者将此可學習的高斯核族稱為學習的軟極坐标網格。

然後将具有一組過濾的卷積層應用于軟極坐标網格層的輸出。由于角坐标是相對于随機方向計算的,是以必須計算對于不同方向不變的資訊。為此,研究者對小塊執行K旋轉,并計算所有旋轉的最大值,進而生成小塊位置的測地卷積輸出。對不同小塊位置重複此過程,類似于在圖像上進行滑動視窗操作,以矢量的形式在每個點生成表面指紋描述符,該矢量嵌入有關中心點及其鄰域的表面圖案資訊。學習過程包括就特定于應用程式的訓練資料和代價函數,最小化局部核心的參數集和過濾器權重。是以,參數集特定于此處介紹的每個應用程式。

通過此架構,研究者為表面的小塊建立了描述符,可以在神經網絡體系結構中對其進一步處理。接下來介紹各種方法來利用它們識别蛋白質表面上的互相作用指紋。

3

方法

3.1 分子表面計算

資料集中的所有蛋白質均使用Reduce質子化,并使用MSMS程式進行三角剖分。然後對蛋白質網格進行下采樣,并使用peshesh将其分辨率調整為1Å。幾何和化學特征直接在蛋白質網格上進行計算,但距離相關的曲率除外,後者是根據每個小塊中頂點的表面法線在每個小塊上計算。

3.2蛋白質分解為重疊的放射狀小塊和特征計算

對于離散化蛋白質表面網格中的每個點,提取了一個測地半徑為9或12Å的徑向小塊,以對小塊的表面特征進行分析。半徑的選擇是經驗性的,主要由性能和記憶體限制決定。對于MaSIF-search選擇12Å,因為研究人員發現這對于覆寫許多PPI的掩埋表面積是一個不錯的選擇,此小塊大小已重新用于MaSIF-ligand。為MaSIF-site選擇了9Å的小塊,因為較小的小塊使研究人員可以在可用的記憶體資源中進行多個卷積層,這對于該應用程式至關重要。在沒有記憶體限制的情況下,大于12Å的小塊将是理想的,因為MaSIF的幾何深度學習體系結構能夠為不同的測地群集核心配置設定不同的權重。

3.2.1形狀索引

形狀索引描述相對于局部曲率表面上每個點周圍的形狀。值的範圍是-1到+1。關于曲率κ1,κ2,κ1≥κ2定義為:

Nat. Methods | 基于幾何深度學習解密蛋白分子表面的互相作用指紋

3.2.2距離相關曲率

對于提取的小塊中的每個頂點,距離相關曲率的計算範圍為[-0.7,0.7],該值描述了到中心的距離與每個點和中心點的表面法線之間的關系。雖然主要曲率分量描述了完整蛋白質中每個頂點周圍的形狀,但研究者發現使用小塊的中心作為參考來計算每個小塊内的曲率也是有益的。

3.2.3Poisson-Boltzmann連續靜電

PDB2PQR用于蛋白質的靜電計算,而APBS用于計算每種蛋白質的Poisson-Boltzmann靜電。使用APBS提供的Multivalue配置設定了網格化曲面的每個頂點處的相應電荷。高于+30和低于-30的電荷值被限制,然後将值歸一化為-1和1之間。

3.2.4自由電子和質子供體

使用氫鍵電勢作為參考來計算分子表面中自由電子和氫鍵供體的位置。分子表面中最接近原子的是極性氫,氮或氧的頂點被認為是氫鍵的潛在供體或受體。然後,根據重原子之間的方向,将高斯分布的值配置設定給每個頂點。這些值的範圍是從-1(氫鍵受體的最佳位置)到+1(氫鍵供體的最佳位置)。

3.2.5親水性

根據最接近該頂點的原子的氨基酸身份的Kyte和Doolittle标度,為每個頂點配置設定親水性标量值。這些值的原始範圍為-4.5(親水)至+4.5(最疏水),然後将其标準化為-1到1。

3.3測地極坐标計算

從蛋白質提表面取小塊後,MaSIF将使用測地極坐标系來映射頂點在徑向(即距中心的測地距離)和角坐标(即相對于随機方向的角度)中的位置。相對于小塊中心(圖1c),這些坐标将有關特征之間的空間關系的資訊添加到學習方法中。

3.3.1測地距離

在連續的表面上,測地線是在表面上“行走”時連接配接兩個點的最短路徑(曲線)。兩點之間的測地線距離是兩點之間的測地線長度。在網格上,測地線是兩個頂點之間最短的多段線。在圖上,測地線是連接配接兩個頂點的相鄰圖邊的集合。網格上測地線的計算可以使用快速前進方法精确地或近似地計算。為了提高計算效率,研究者使用帶測邊的圖測地線作為真實測地線的近似值。

3.3.2徑向坐标

描述點到小塊中心的測地距離。由于速度快,研究者使用了在MATLAB中實作的Dijkstra算法來計算真實測地距離的近似值。是以,現實中測地線距離是連接配接表面網格圖上定義的節點的邊長之和。

3.3.3角坐标

使用在MATLAB中實作的經典多元比例縮放算法,根據Dijkstra逼近所有頂點之間的成對測地距離,将小塊展平到平面中。由于分子表面小塊沒有規範取向,是以選擇計算平面中的随機方向作為參考,并将每個頂點與平面中該參考的角度設定為角坐标。

3.4基于學習軟極網格進行幾何深度學習

幾何深度學習能夠将基于圖像的深度神經網絡架構應用于幾何資料。可以将圖像分析中使用的傳統CNN視為在圖像中滑動視窗。在視窗的每個位置,都會提取像素塊。然後,将每個像素乘以相應的可學習過濾值,然後将結果相加。蛋白質分子表面上沒有規則的網格,是以将其替換為在局部測地極坐标系中定義為“軟像素”的高斯核系統。高斯的參數是可以自己學習的。是以,将此高斯核系統稱為學習型軟極網格。

3.4.1旋轉不變性

通過執行輸入小塊的θ旋轉并在輸出上執行最大池操作,可以在神經網絡中處理旋轉不變性。

3.5 MaSIF-ligand: 配體位點預測和分類

資料集

從PDB下載下傳了與所選輔因子(ADP,COA,FAD,HEM,NAD,NAP或SAM )結合的蛋白,并使用SBI建構了它們的生物分子組裝體。

神經網絡架構、代價函數和訓練優化

從一個結合口袋中随機采樣32個小塊。每個小塊都用作網絡中的輸入,并映射到具有16個角形倉和五個徑向形倉的學習型軟網格。每種特征類型都通過單獨的神經網絡通道運作,在此通道中,學習型軟網格層後面是帶過濾的卷積層,具有16個旋轉角的最大池化層,整流線性和完全連接配接層。然後,一個完全連接配接層将每個通道的輸出合并,并輸出到80維指紋。将所得的32個指紋相乘生成80×80協方差矩陣。将協方差矩陣展平并首先饋入經過整流線性激活的64個單元的全連接配接層,然後饋送到具有線性激活的7個單元的全連接配接層,其次是softmax交叉熵損失。使用Adam優化器對網絡進行了20,000次疊代訓練,學習速率為1×10-4。每個時期評估驗證錯誤,并根據該值選擇最佳網絡。出于以下三個原因,最初選擇随機采樣32個小塊:(1)每個小塊覆寫12Å半徑,是以,有32個小塊很可能覆寫整個凹坑的表面;(2)數量足夠少,以至于所有配體類型都至少與許多小塊中心接觸;(3)由于記憶體限制,因為大量小塊超出了研究人員圖形處理單元(GPU)的存儲能力。為了獲得更穩定的預測,對每個樣腔進行了100次采樣,并将得到的100個預測取平均值,以獲得最終預測。

3.6 MaSIF位點-蛋白質互相作用位點預測

PPI對取自PRISM非備援蛋白清單,ZDock基準,PDBBind和SabDab。使用CD-HIT進行序列分離,并使用TM-align進行結構分離。

蛋白質表面中界面點的定義

将蛋白質表面中界面定義為在複合物形成中溶劑分子無法進入的表面區域。通過計算複合物和未結合的夥伴的表面來完成的。然後将各個配偶中在結合複合物中沒有對應表面的表面區域定義為接觸點。在複合物形成過程中無法到達溶劑的表面區域被定義為界面點。

具有三個卷積層的神經網絡用于此應用程式。網絡将輸入的完整蛋白質分解為半徑9Å的重疊表面小塊作為輸入。選擇較小的小塊半徑是因為減少了記憶體需求,進而允許更多的卷積層。将小塊映射到具有三個徑向單元和四個角單元的學習網格上。網絡的輸出是每個小塊中心點在0到1之間的接觸得分。在訓練過程中,批次大小由單個蛋白質組成,并且使用Adam優化器對S型交叉熵損失函數進行了網絡優化。由于非界面點的數量通常比界面點的數量大得多,是以選擇了一個非界面點的随機子集來訓練相等數量的正樣本和負樣本。隻要驗證集的ROC AUC比以前的模型有所改善,就會儲存最佳模型。

3.7 MaSIF-search:基于表面指紋的PPI預測

從PRISM資料庫擷取了共結晶顯示參與PPI的蛋白質對資料集。另外,與進行界面位點預測一樣,擷取了3536個非專性(瞬态)PPI,形成了6001個PPI集合。從天然複合物中提取PPI結構界面,并計算所有界面的成對TM-align得分矩陣。然後,使用scikit-learn的層次聚類根據TM-align分數對結構進行層次聚類。總共将資料集分為4944個訓練PPI對和957個測試PPI。

互相作用和非互相作用小塊的選擇

對于每個PPI,都應進一步考慮屬于不同蛋白質且之間在1.0Å之内的所有表面小塊中心。計算該對的徑向形狀互補性得分如下:(1)計算小塊中每個點與相鄰小塊的形狀互補性;(2)将中心12Å之内的點分成10個同心徑向倉,增量為1.2Å;倉的形狀互補性計算為倉中點的第25個百分位;(3)小塊的徑向形狀互補性S計算為所有倉中的中位數。通過将一個真正互相作用的小塊與該集中任何其他蛋白質中随機選擇的一個配對,來選擇非互相作用對。

MaSIFsearch神經網絡接收一個小塊的特征作為輸入,然後輸出矢量化描述符。在訓練和測試期間,将綁定、靶标和随機小塊輸入到網絡中,進而使綁定和靶标是已知的互動對,并假定靶标和随機小塊不互動。除了親水指數以外,靶标的特征都被反轉(乘以-1)。總共選擇了85652個真實互相作用對和85652個非互相作用對進行訓練/驗證,同時選擇了12678個真實互相作用對和12678個非互相作用對進行測試。每個小塊都輸入到網絡中,并映射到具有16個角度和五個徑向分箱的學習軟網格中。每種特征類型都通過單獨的神經網絡通道運作,在該通道中,學習型軟網格層之後是具有80個過濾的卷積層,具有16個旋轉角的最大池化層和一個整流線性單元。然後,一個完全連接配接層将每個通道的輸出合并,并輸出一個80維指紋。使用Adam優化器進行訓練過程中的優化包括最小化d-素數代價函數:

Nat. Methods | 基于幾何深度學習解密蛋白分子表面的互相作用指紋

其中μt和μf分别是真實和非互相作用對的中值距離,而σt和σf是真實和錯誤互相作用對的标準差。用八種結合,八種靶标和八種随機小塊組成的批次對神經網絡進行訓練。在每批中,随機選擇真正的互相作用對和随機小塊。

結構對齊和重打分

第二階段的對齊和評分方法基于所識别的指紋生成複合物。指紋描述符到靶标小塊的距離最短的頂部誘餌小塊被選為潛在結合伴侶的候選。然後使用Open3D中實作的RANSAC算法對比每個結合小塊。簡而言之,RANSAC從結合小塊中選擇三個随機點,然後使用計算出的描述符按描述符距離在靶标小塊中找到最接近的點。使用這三個新發現的對應關系,RANSAC嘗試将源小塊與靶标小塊對齊。RANSAC疊代2,000次,并選擇結合物和靶标之間的最大點數在1Å之内的轉換。在RANSAC之後,Open3D中實作了另一種算法,即疊代最近點算法,優化了對齊方式。RANSAC完成後,将使用單獨的神經網絡對轉換進行重新打分。為了優化速度,将提取的小塊減小至9Å。

用于對對齊的小塊進行評分的神經網絡

為了區分真實的比對,研究者訓練了一個單獨的神經網絡,以在比對步驟完成後對結合小塊進行評分。一旦進行了小塊對齊,就搜尋3D空間中結合距靶标中每個點最近的鄰居,以建立對應關系。然後,神經網絡的輸入是3D歐式距離,MaSIF搜尋指紋距離以及對應關系之間的法線乘積。輸出是比對的預測分數。為了訓練該神經網絡,研究者在MaSIF搜尋訓練集中生成了數千個正确和錯誤的比對。對于每個靶标結構,使用一個真實比對和200個錯誤比對。iRMSD定義為與靶标的任何Cα原子相距小于10Å的Cα原子的RMSD。對于對齊小塊中的每個點,在靶标小塊上找到了最近的鄰居。對于每對點測量了MaSIFsearch指紋描述符的距離;3D空間中的歐幾裡得距離及其法線之間的點積。研究者網絡的輸入特征是:1 /(描述符距離)、1 /(歐幾裡德距離)和法線的點積。每個對齊的小塊限制為200個點,如果對齊小塊的大小大于200個點,則将其随機采樣;如果小于200個點,則将其補零。是以,網絡的輸入是大小為200,3的矩陣。使用Adam優化器的學習率為1×10-4。從訓練集中,将10%的比對用作驗證集,對網絡進行了50個時期的訓練,批處理大小為32。基于最小的驗證損失選擇了最佳模型。

PPI搜尋對接基準

從測試集中選擇了N = 100個共晶結構複合物。選擇兩種蛋白之一作為靶蛋白;對于每種靶蛋白,選擇與共晶體結構中與結合蛋白小塊具有最高徑向互補性的小塊作為靶位點。基準測試包括在100個排名最高的結果的簡短清單中恢複結合的構象。第二個基準測試是在載脂蛋白狀态下與結合的複合物對齊的N = 40個複合物進行的。載脂蛋白的基準以與共晶結構相同的方式進行,但放寬了成功标準,以恢複前1000個結果中的結合構象。對于所有基準測試方法,在進行任何比對之前,将結合随機旋轉。

與GIF描述符的比較

根據Yin 等的描述,盡最大努力實作幾何不變指紋(GIF)描述符。為了測試描述符,在計算GIF描述符之前将靶标的特征反轉。在PPI搜尋基準中,GIF與第二階段對齊和評分方法結合在一起。

與PatchDock的比較

PatchDock使用預設設定,将最接近靶标位點的殘基指定為活性位點殘基。在所有比對之後,将針對所有N種蛋白質的PatchDock轉換合并,并根據PatchDock的預設幾何分數進行評分。

PDL1基準

3.8軟體工具

MaSIF依賴于外部軟體或庫來處理蛋白質資料檔案和表面檔案,計算化學、幾何特征和坐标以及執行神經網絡計算。以下是所需的庫和程式的清單,以及對其進行測試的版本。

Python (2.7)

reduce (3.23):蛋白質添加質子

MSMS (2.6.1):計算蛋白質表面

BioPython (1.66):解析PDB檔案

PyMesh (0.1.14):處理層曲面、屬性和規範化網格

pyflann (1.6.14):執行頂點的最近鄰居搜尋

PDB2PQR (2.1.1):計算靜電電荷所必需

open3D (0.5.0.0):主要用于RANSAC對齊

matlab (R2018a):用于計算一些幾何特征和角度/徑向坐标

Python bindings for matlab:Python内部調用matlab函數

Tensorflow (1.9):用于模組化、訓練和評估神經網絡

SBI:用于解析PDB檔案并為MaSIF-配體生成生物裝配

Dask (2.2.0):多個線程上運作函數調用

Pymol:可視化

4

結果

4.1基于分子表面指紋對配體結合袋進行分類

蛋白質和代謝物之間的互相作用在細胞穩态中起着基本作用,但是對這些互相作用的了解卻極為有限。研究者建議以蛋白質表面的互相作用指紋為資訊,破譯蛋白質口袋的代謝物結合偏好。為了檢驗該假設,開發了MaSIF-ligand,該分類器可根據表面特征預測口袋的代謝物結合偏好(圖2a)。

研究者在大量輔助因子結合蛋白上訓練了MaSIF-ligand,其中将序列聚類以從訓練和測試集中消除備援。獨立測試的平衡精度用于衡量MaSIF-ligand的分類能力。在這種情況下,如果使用7個輔助因子,則随機分類器的預期平衡精度為0.14。首先訓練了具有所有特征(幾何和化學)的MaSIF-ligand,獲得了0.78的準确度和0.73的平衡準确度。為了研究特征的重要性,将特征集限制為幾何或化學特征,這将平衡精度分别降低到0.55和0.65(圖2c)。

Nat. Methods | 基于幾何深度學習解密蛋白分子表面的互相作用指紋

圖2

接下來,将MaSIF-ligand與其他三個程式(ProBiS,KRIPO和SiteEngine)進行了比較,它們利用結構特征進行口袋分類,并在最近的綜合基準測試中顯示了好的性能。

為了詳細分析MaSIF-ligand的預測,研究者生成了具有所有特征的混淆矩陣。觀察到跨配體的可變性能,考慮到與其他輔因子的化學差異,更具挑戰性的是相似配體之間的差別,即在分析兩個高度相似的輔助因子(SAM與ADP和NADP與NAD)之間的混淆資料。在兩種情況下,幾何特征都不足夠,主要是有助于正确預測的化學特征。MaSIF-ligand将特征與非常相似的輔因子區分開的能力非常顯著。

盡管在測試和訓練集中缺少口袋的全局序列同源性和結構相似性,但是MaSIF-ligand可以破譯表面互相作用指紋圖譜以确定每個口袋的結合偏好,而無需明确考慮潛在的氨基酸或基于序列的特征。

總體而言,蛋白質表面的互相作用指紋可能是生物學家可以用來推斷重要的蛋白質-配體互相作用的其他資訊來源。

4.2基于互相作用指紋預測蛋白質結合位點

受先前關于PPI預測的工作啟發,研究者開發了MaSIF-site,該分類器接收蛋白質表面作為輸入,并輸出每個表面頂點參與PPI可能性的預測得分(圖3a)。

Nat. Methods | 基于幾何深度學習解密蛋白分子表面的互相作用指紋

圖3

MaSIF-site在蛋白質結構的大型資料集上進行了訓練和測試,這些蛋白質結構在整體狀态下的共結晶分離為單體亞基。訓練和測試集根據序列和結構進行劃分。該任務極大地利用了深度學習方法的潛力,因為多層可以産生更好的預測(圖3b)。使用測地卷積層MaSIF-site的ROC AUC達到0.77,而三層将ROC AUC提升到0.86。

可以根據生物實體和結構/化學性質對參與PPI的表面進行分類,MaSIF-site是否對特定類型的表面具有偏向的性能(圖3e)。

盡管進化資訊對預測蛋白質互相作用位點至關重要,但在某些情況下,這種進化史很少或完全沒有。這些極端情況包括計算設計的PPI,其界面在蛋白質骨架中得到了合理設計。研究人員使用MaSIF-site來預測已認證實驗驗證的三個設計界面:流感抑制劑、同型寡聚籠蛋白和用作免疫原的表位骨架。設計基于沒有結合活性的野生型蛋白,每種情況下将其界面得分與非互相作用野生型的界面得分進行了比較。

Nat. Methods | 基于幾何深度學習解密蛋白分子表面的互相作用指紋

圖4

對MaSIF站點進行了一系列PPI的從頭計算設計的蛋白質的測試,其中可以将設計結合物的預測與相應的天然蛋白質進行比較。

4.3 基于互相作用指紋的超快速掃描預測蛋白-蛋白複合物

研究者展示了将指紋嵌入為向量化描述符以預測蛋白質之間的特定互相作用。這種嵌入是受GIF描述符早期工作的啟發,因為一旦對描述符進行了預先計算,最近鄰技術便可以每秒掃描數十億個描述符。引入了MaSIF-search一種基于表面指紋快速搜尋蛋白質結合伴侶的方法。然後,MaSIF-search通過表面對齊和重新排序階進行補充,以生成品質提高的對接複合物。

MaSIF-search學會識别兩個表面小塊互相作用的圖案。假設蛋白質通過具有互補幾何和化學特征(互補指紋)的表面小塊互相作用。為了驗證假設,将一個蛋白質伴侶的數值特征反轉(乘以-1)。最終目标是MaSIF-search将為成對的互動小塊生成相似的描述符,為非互動的小塊生成不同的描述符(圖5a)。是以,識别潛在的結合伴侶簡化為數值向量的比較。

Nat. Methods | 基于幾何深度學習解密蛋白分子表面的互相作用指紋

圖5

将具有标簽、結合、靶标和随機小塊的三組蛋白質表面小塊送入MaSIF-search網絡。神經網絡訓練的同時,盡量減少指紋描述符之間的歐幾裡得距離,同時最大限度地提高靶标和随機對象之間的不同之處。

測試集上的性能表明,用于互動表面小塊的描述符歐幾裡德距離遠低于非互動小塊的歐幾裡得距離。MaSIF-search在形狀互補性PPI上具有優異的性能,因為對具有較低形狀互補性的互相作用小塊進行訓練/測試會導緻較低的性能。

接下來,使用MaSIF-search通過表面指紋搜尋,然後進行表面小塊的結構比對,來預測已知蛋白-蛋白複合物的結構。簡而言之,MaSIF-search工作流程包括兩個階段:I)掃描大型的潛在結合物描述符資料庫,并通過描述符相似度選擇前K個PPI;II)利用周圍點的指紋描述符對複合物進行排列,然後根據指紋描述符對預測值進行重新排序。

總之,MaSIF-search能夠解密驅動蛋白質與蛋白質互相作用的模式,并在适合進行快速搜尋的空間中對它們進行編碼。是以,MaSIF-search提供了一種在龐大的蛋白質資料庫中搜尋特定互相作用指紋的替代方法。

5

讨論

分子表面表征描述了與其他生物分子接觸的蛋白質的特征,同時抽象了潛在的蛋白質序列。這種抽象使MaSIF可以學習獨立于蛋白質進化史的模式。學習表面指紋的一般方法可能使人們對蛋白質功能有更完整的了解。研究者預見,MaSIF對于從頭蛋白質設計應用将尤其重要,在該應用中,盡管取得了顯着進步,但新的生物分子互相作用的設計仍是一個根本未解決的問題。将來諸如Osprey和Rosetta之類的蛋白質設計程式可能會識别指紋,進而優化從頭設計的蛋白質序列,以顯示執行功能任務所需的分子表面圖案。

這裡展示的概念驗證應用程式旨在展示MaSIF的通用性和從表面特征中學習的概念。盡管這些方法處于早期開發階段,但它們對于了解結構與功能關系還是有用的。此類應用可能需要表征大規模的配體-蛋白質互相作用網絡,識别“表面熱點”,而這些表面熱點可能更容易針對設計用于治療目的的新生物制劑。MaSIF-search可以與鑒定蛋白質結合伴侶的實驗方法結合使用,也可以用于尋找潛在的參與伴侶以用作蛋白質設計的起點。而且,所有這些方法都可以受益于序列進化資料來提高其預測能力。

研究着共同提出了一個概念架構,利用蛋白質分子表面的表征,結合強大的資料驅動學習技術,來解密互相作用指紋。資料和代碼的可用性将使研究人員可以将架構應用于新問題。目前的應用顯示出技術優勢,且具有巨大的潛力,可以進一步開發,并且對蛋白質結構和功能的基礎研究以及新蛋白質和基于蛋白質的療法的設計産生重大影響。