天天看點

大規模蛋白質翻譯後修飾提取模型BioBERT,具有遠端監督和置信度校準

編輯 | 蘿蔔皮

蛋白質-蛋白質互相作用(PPI)對正常的細胞功能至關重要,并且與許多疾病途徑有關。一系列蛋白質功能由蛋白質互相作用通過翻譯後修飾(PTM)介導和調節。

然而,在 IntAct 等生物知識資料庫中,隻有 4% 的 PPI 使用 PTM 進行注釋,主要通過人工管理進行,既不省時也不劃算。研究人員的目标是通過使用深度學習的遠端監督訓練資料來幫助人類管理,從文獻中提取 PPI 及其成對 PTM 來促進注釋。

墨爾本大學的研究人員使用 IntAct PPI 資料庫建立一個遠端監督資料集,該資料集标注了互相作用的蛋白質對、它們相應的 PTM 類型以及來自 PubMed 資料庫的相關摘要。

他們訓練了一組 BioBERT 模型(稱為 PPI-BioBERT-x10)以提高置信度校準;擴充了具有置信度變化的整體平均置信度方法的使用,以抵消類不平衡的影響,以提取高置信度預測。

在測試集上評估的 PPI-BioBERT-x10 模型産生了适中的 F1-micro 41.3(P = 58.1,R = 32.1)。然而,通過結合高置信度和低變化來識别高品質的預測,調整預測的精度,研究人員以 100% 的精度保留了 19% 的測試預測。

他們在 1800 萬份 PubMed 摘要上評估了 PPI-BioBERT-x10,提取了 160 萬個PTM-PPI 預測,并過濾了大約 5700 個高置信度預測。在 5700 個中,對一個小的随機抽樣子集的人工評估表明,盡管進行了置信度校準,但精度仍下降到 33.7%,并且即使進行了置信度校準,也凸顯了超出測試集的通用性挑戰。

研究人員通過隻包括與多篇論文相關的預測來規避這個問題,将精度提高到 58.8%。在這項工作中,他們強調了基于深度學習的文本挖掘在實踐中的好處和挑戰,以及需要更加強調置信度校準以促進人工管理工作。

該研究以「Large-scale protein-protein post-translational modification extraction with distant supervision and confidence calibrated BioBERT」為題,于 2022 年 1 月 4 日釋出在《BMC Bioinformatics》。

大規模蛋白質翻譯後修飾提取模型BioBERT,具有遠端監督和置信度校準

關鍵的生物過程,例如信号級聯和新陳代謝,受到蛋白質-蛋白質互相作用(PPI)的調節,這些互相作用通過修飾其他蛋白質以通過翻譯後修飾(PTM)調節它們的穩定性或活性。PPI 在大型線上存儲庫(例如 IntAct 和 HPRD)中進行管理。

然而,大多數 PPI 沒有用函數注釋,例如,IntAct 資料庫有超過 100,000 個人類 PPI,但其中不到 4000 個用 PTM 注釋,如磷酸化、乙酰化或甲基化。了解互相作用的蛋白質對之間 PTM 的性質對于研究人員确定網絡擾動和下遊生物學後果的影響至關重要。

生物資料庫中的 PPI 和 PTM 通常是手動管理的,這需要訓練有素的管理人員,同時也很耗時。科學家還強調了維護手動管理資料庫、確定它們是最新的以及手動管理的經濟方面的其他挑戰。是以,采用自動策展方法對于這項工作的可持續性至關重要。

研究人員通過文本挖掘 PubMed 摘要來提取 PTM,提取蛋白質對及其相應的 PTM。給定輸入期刊摘要,輸出是 形式的三元組,其中 Protein1 和 Protein2 是蛋白質的 Uniprot 辨別符。由于他們的訓練資料源不包含蛋白質之間關系的方向,是以不考慮 Protein1 和 Protein2 之間的關系方向,即 等價于 。

研究人員還旨在幫助 PTM-PPI 的人工管理,是以他們通過将機器學習模型應用于 1800 萬個 PubMed 摘要以提取 PTM-PPI 三元組來評估機器學習模型的泛化程度。在這裡,研究人員使用置信度校準作為一種機制來了解通用性,以了解預測何時可以提取高品質的預測。該團隊相信他們是第一個研究使用具有深度學習和遠端監督的 NLP 進行大規模 PTM-PPI 提取的實際适用性和挑戰的團隊。

研究人員專注于提取 PTM,包括磷酸化、去磷酸化、甲基化、泛素化、去泛素化和乙酰化(這些 PTM 是根據訓練資料的可用性選擇的)。他們使用遠端監督方法建立一個訓練資料集,使用 IntAct 作為源知識庫從 PubMed 摘要中提取 PTM-PPI 三元組。

他們訓練了一組 BioBERT 模型來改進神經置信度校準。然後,将經過訓練的模型應用于 1800 萬份 PubMed 摘要,以提取 PPI 對及其相應的 PTM 函數;并嘗試使用神經置信度校準技術來確定高品質的預測,以增強和促進人類管理工作。

通過深度學習提取蛋白質互相作用的相關工作

用于評估文本挖掘方法的 PPI 提取資料集(例如 AIMed 和 BioInfer)在十多年來(自 2007 年以來)一直保持不變,并且專注于提取蛋白質互相作用,而不是它們之間 PTM 互相作用的性質。這些資料集還被用于評估最新的機器學習方法,包括蛋白質對提取中的深度學習。

然而,在使用 AIMed 和 BioInfer 資料集的基準測試方法的有限背景下,最新的深度學習趨勢似乎在 PPI 管理中并不廣泛流行。使用文本挖掘和基于規則的方法的自動 PPI 管理嘗試似乎更普遍。

大規模蛋白質翻譯後修飾提取模型BioBERT,具有遠端監督和置信度校準

PPI-BioBERT-x10 上測試和驗證集的混淆矩陣。

STRING v11 是最受歡迎的 PPI 資料庫之一,它使用文本挖掘作為策展方法。自 STRING v9.1 以來,他們的文本挖掘管道基本保持不變。STRING v9.1 使用基于權重 PPI 共現規則的方法,其中權重取決于蛋白質對是否一起出現在同一文檔、同一段落或同一句子中。即使訓練資料有限,基于規則的方法也可能非常有效,具體取決于任務。

将 STRING v11 資料庫中的互動單元定義為「功能關聯,即兩種蛋白質之間的聯系,它們共同促成特定的生物學功能」。這個定義允許基于共現規則的方法非常有效,即如果一個蛋白質對經常在文本中同時出現,那麼這對很可能是相關的。

大規模蛋白質翻譯後修飾提取模型BioBERT,具有遠端監督和置信度校準

測試和大規模摘要與訓練集的 PTM 餘弦相似性。

iPTMnet 從各種手動管理的資料庫(例如 HPRD 和 PhosphoSitePlus 以及文本挖掘資源)中整合有關 PPI 和 PTM 的資訊。對于文本挖掘,iPTMnet 使用 RLIMS-P 和 eFIP 來自動管理酶-底物-位點關系。這些工具使用基于規則的方法,使用文本模式來提取 PTM 中涉及的蛋白質。

2019 年 11 月的 iPTMnet 統計資料表明,使用 RLIMS-P 策劃的酶-底物對總數少于 1,000 對。這個适度的數字突出了使用文本模式的主要挑戰:雖然它們可以以相當高的精度提取關系,但它們對于如何在文本中描述 PPI 關系的變化并不穩健。是以,研究人員探索了基于機器學習的方法,這些方法能夠提取更多的關系。

使用深度學習自動提取 PPI 可能是有益的,因為它有可能從各種文本中提取 PPI,其中 PPI 關系的描述方式無法通過手動制作的基于規則的系統輕松捕獲。

大規模蛋白質翻譯後修飾提取模型BioBERT,具有遠端監督和置信度校準

訓練、測試、大規模預測中的 PTM 常用詞。

然而,深度學習需要大量的訓練資料。確定預測品質的模型的通用性是其廣泛采用從文本中自動提取 PPI 關系的關鍵。大規模提高預測品質需要專注于減少誤報,以最大限度地減少對現有知識庫條目的破壞,是以,減少低品質預測的置信度校準方法成為大規模文本挖掘的關鍵步驟。

置信度校準是預測代表真實正确性的機率估計的問題,在這裡,研究人員使用置信度校準來了解預測何時可能正确,并将其用作改進泛化的機制。通用性的方面在很大程度上僅限于對測試集的評估,而使用測試集性能作為現實世界性能的代理的局限性在以前的研究中受到了挑戰。

建立具有細粒度注釋的黃金标準訓練資料,是一項手動的勞動密集型任務,并且是将機器學習應用于新領域或任務的限制因素。能夠利用一個或多個現有資料源是在新領域或新任務中使用機器學習的關鍵。遠端監督利用現有的知識庫,例如 IntAct,而不是注釋新資料集。

然而,使用遠端監督資料集有兩個主要限制:(a)噪聲标簽需要降噪技術來提高标簽品質(b)它們需要生成負樣本,因為資料庫通常隻包含關系的正樣本。

BiLSTM 和 BioBERT 等深度學習架構以前已用于使用自然語言處理(NLP)和 AIMed 資料集對蛋白質關系提取方法進行基準測試。

然而,這些工作并沒有衡量這些模型校準置信度分數的能力。研究人員選擇了最先進的深度學習方法 BioBERT,訓練一個內建來增強置信度校準,并使用置信度變化來抵消置信度校準期間類不平衡的影響。

人工智能×[ 生物 神經科學 數學 實體 材料 ]

「ScienceAI」關注人工智能與其他前沿技術及基礎科學的交叉研究與融合發展。

歡迎關注标星,并點選右下角點贊和在看。