天天看點

Nature Comm.綜述:為什麼深度學習可以在生命科學領域大放異彩

編輯 | 蘿蔔皮

深度學習 (DL) 最近在計算生物學的一項重大挑戰中取得了前所未有的進展:半個世紀以來的蛋白質結構預測問題。

在這篇綜述中,萊斯大學(Rice University)的研究人員讨論了深度學習在五個廣泛領域的最新進展、局限性和未來前景:蛋白質結構預測、蛋白質功能預測、基因組工程、系統生物學和資料內建以及系統發育推斷。

他們讨論了每個應用領域并涵蓋了 DL 方法的主要瓶頸,例如訓練資料、問題範圍以及在新環境中利用現有 DL 架構的能力。最後,總結了 DL 在整個生物科學領域面臨的特定主題和一般挑戰。

該綜述以「Current progress and open challenges for applying deep learning across the biosciences」為題,于 2022 年 4 月 1 日釋出在《Nature Communications》。

Nature Comm.綜述:為什麼深度學習可以在生命科學領域大放異彩

AlphaFold2 最近在從蛋白質序列中預測蛋白質的 3D 結構方面取得了成功,這突出了迄今為止深度學習在計算生物學中最有效的應用之一。深度學習(DL)允許使用由多層非線性計算單元組成的複雜模型來查找具有多層抽象的資料表示(圖 1)。通過深度學習在廣泛的應用領域中的成功觀察到,使用深度學習的功效取決于開發專門的神經網絡架構,該架構可以捕獲資料的重要屬性,例如空間局部性(卷積神經網絡 - CNN)、序列性質 (循環神經網絡 – RNN)、上下文依賴(Transformers)和資料分布(自動編碼器 – AE)。

圖 1 展示了在計算生物學領域中應用最多的六種深度學習架構。該綜述的着力點主要是在計算生物學應用方面;如果希望了解更多對 DL 方法和架構的完整評論,研究人員建議讀者閱讀 LeCun 團隊的論文。

LeCun 團隊論文:https://www.nature.com/articles/nature14539

這些 DL 模型徹底改變了語音識别、視覺對象識别和對象檢測,并且最近在解決計算生物學中的重要問題方面發揮了關鍵作用。深度學習在計算生物學的其他領域(例如功能生物學)的應用正在增長,而其他領域(例如系統發育學)則處于起步階段。

鑒于計算生物學不同領域 DL 的接受度之間存在巨大差異,一些關鍵問題仍未得到解答:

(1)是什麼讓一個領域成為 DL 方法的首選?

(2)DL 在計算生物學應用中的潛在局限性是什麼?

(3)哪種 DL 模型最适合計算生物學的特定應用領域?

Nature Comm.綜述:為什麼深度學習可以在生命科學領域大放異彩
Nature Comm.綜述:為什麼深度學習可以在生命科學領域大放異彩

圖 1:機器學習場景和常用 DL 架構的概述。

該綜述中,研究人員旨在從計算生物學的角度解決這些基本問題。然而,答案是高度特定于任務的,隻能在相應應用程式的上下文中解決。Whalen 團隊已經讨論了在基因組學中應用機器學習(ML)的缺陷,但該綜述的目标是提供關于 DL 在五個不同領域的影響的觀點。雖然 DL 在生物科學領域取得了顯着的成功(例如 DeepVariant、DeepArg、宏基因組分箱和原産地歸屬實驗室),但該綜述的目标是隻關注一些多樣化和廣泛的子主題。

研究人員評估了 DL 在計算生物學中對經典 ML 技術的改進,迄今為止取得了不同程度的成功(圖 2)。

對于每個領域,探讨了目前方法的局限性和改進機會,并包括實用技巧。他們圍繞計算生物學中五個廣泛而不同的領域展開讨論:蛋白質結構預測、蛋白質功能預測、基因組工程、系統生物學和資料內建以及系統發育推斷(表 1)。

這些領域提供了一系列影響水準,從主要範式轉變(AlphaFold2)到處于起步階段的 DL 應用(系統發育推斷);總體來說,它們提供了足夠豐富的技術多樣性來解決從這個角度提出的問題。

研究人員主要回顧了四個計算生物學主題的進展,

(i)範式轉換(其中 DL 明顯優于其他 ML 和經典方法,并提供了廣泛的影響)排序;

(ii)重大成功(DL性能通常高于其他ML和經典方法);

(iii)中度成功(DL性能通常與其他ML和經典方法相當);

(iv)輕微成功(DL方法未被廣泛采用或與其他ML和經典方法相比表現不佳);

最後,讨論了生物科學中DL面臨的常見挑戰。

Nature Comm.綜述:為什麼深度學習可以在生命科學領域大放異彩

圖 2:主要标記和未标記資料集的摘要視圖,以及計算生物學深度學習方法中使用的架構。

DL 的範式轉變成功

蛋白質結構預測

蛋白質結構預測可以說是深度學習在計算生物學中最成功的應用之一;這種成功就是範式轉變。衆所周知,蛋白質的氨基酸序列決定了其 3D 結構,而這又與其功能直接相關(例如化學反應催化、信号轉導、支架等)。

蛋白質結構預測問題的曆史可以追溯到 1950 年代 John Kendrew 對肌紅蛋白 3D 結構的測定,這是生物化學和結構生物學的裡程碑。從那時起,X 射線晶體學已成為蛋白質結構測定的金标準實驗方法,以及驗證蛋白質結構預測計算模型的參考。

考慮到 X 射線晶體學的高成本和技術限制,以及人類基因組計劃之後對生物序列的日益普及,從蛋白質序列預測蛋白質的 3D 結構成為計算生物學中的珠穆朗瑪峰;一個被廣泛稱為「蛋白質折疊問題」的挑戰。最初的努力集中在使用生物實體精确的能量函數和基于知識的統計推理,但最近取得了更快的進展,更加關注深度學習。

DL 最近在該領域取得成功的關鍵原因之一,是多序列比對 (MSA) 形式的大量無監督資料,這使得學習蛋白質的非線性進化資訊表示成為可能。

AlphaFold2 對結構生物學領域的影響是不可否認的;它成功地展示了使用基于 DL 的實作來進行高精度蛋白質結構預測。正如大量早期引用所強調的那樣,這一成就已經在推動和加速該領域的進一步發展。

此外,DeepMind 還與歐洲分子生物學實驗室(EMBL)合作建立了一個以 AlphaFold2 為模型的開放式蛋白質結構資料庫。該資料庫已經涵蓋了 98.5% 的人類蛋白質,其中至少 36% 的氨基酸殘基被高可信度預測。

最後,基于 DL 的方法不會淘汰實驗方法,而是可以提高實驗方法的準确性和範圍,如初步應用通過 X 射線晶體學和冷凍電鏡資料解決具有挑戰性的結構所證明的那樣。然而,許多警告、限制和懸而未決的問題仍然存在。特别是,雖然 AlphaFold2 成功地預測了蛋白質的靜态結構,但有關蛋白質生物學功能的許多關鍵見解都來自其動态構象。此外,多種蛋白質互相作用的動力學仍然在該領域提出了開放的挑戰。展望未來,監測深度學習在這些後續研究領域的應用将很重要。

DL的主要成就

蛋白質功能預測

預測蛋白質功能是蛋白質結構預測之後自然而然的下一步。蛋白質功能預測涉及将目标蛋白質映射到策劃的本體,例如基因本體(GO)術語、生物過程(BP)、分子功能(MF)和細胞成分(CC)。

蛋白質結構可以傳達很多關于這些本體的資訊,但是,兩者之間沒有直接的映射關系,而且映射通常非常複雜。

盡管 UniProtKB 資料庫中可用的蛋白質序列大幅增長,但絕大多數蛋白質的功能注釋仍然部分或完全未知。有限且不平衡的訓練示例、可能函數的大輸出空間以及 GO 标簽的層次性是與蛋白質功能注釋相關的一些主要瓶頸。

為了克服一些問題,最近的研究方法利用了來自不同來源的特征,包括序列、結構、互動網絡、科學文獻、同源性、領域資訊,甚至結合了一種或多種 DL 架構來處理不同階段的預測任務(例如特征表示、特征選擇和分類)。

作為解決該問題的最成功的深度學習方法之一,DeepGO 結合了 CNN 來學習序列級嵌入,并将其與從蛋白質-蛋白質互相作用(PPI)網絡中獲得的每種蛋白質的知識圖嵌入相結合。DeepGO 是首批基于 DL 的模型之一,在三個 GO 類别的功能注釋任務上表現優于 BLAST 和以前的方法。

與 CAFA3 挑戰賽中三個 GO 類别的其他工具相比,DeepGOPlus 是該工具的改進版本,成為表現最好的工具之一。DeepGOPlus 使用不同大小的卷積濾波器和單獨的最大池來學習嵌入在 one-hot 編碼方案中的蛋白質序列的密集特征表示。研究表明,将 CNN 的輸出與 DIAMOND 的基于同源性的預測相結合可以提高預測準确性。

諸如 DAE 之類的無監督方法也有助于學習蛋白質的密集、穩健和低維表示。Chicco 團隊開發了一個 DAE 來表示用于配置設定缺失 GO 注釋的蛋白質,并且與非 DL 方法相比,在六個不同的 GO 資料集上顯示了 6% 到 36% 的改進。Miranda 和 Hu 團隊引入了 Stacked Denoising Autoencoders (sdAE) 來學習更穩健的蛋白質表示。Gilgorijevic 團隊介紹了使用多模态 DAE (MDA) 從多個異構互動網絡中提取特征的 deepNF,其性能優于基于矩陣分解和線性回歸的方法。學習蛋白質低維嵌入的方法不斷發展。

除了預測基因本體标簽外,研究還集中在其他幾個特定于任務的功能類别,例如識别特定的酶功能和潛在的翻譯後修飾位點。這些研究是朝着開發具有特殊功能的新型蛋白質或修改現有蛋白質的功效邁出的基本步驟,如 DL 在酶工程中的最新進展所示。展望未來,深度學習在針對特定功能定制的工程蛋白質中的應用可以幫助提高候選蛋白質在其他領域的藥物應用的吞吐量。

除了這些規範的體系結構之外,還有其他方法使用了上述方法的組合進行功能分類。總體而言,先前的結果表明,內建多模态資料類型特征的模型更有可能勝過依賴單一資料類型的模型。

來自文獻的趨勢表明,依賴特定于任務的架構可以幫助極大地增強各自資料類型的特征表示。在這個方向上的未來工作可能集中在将 DAE 和 RNN 結合起來用于基于序列的表示,以及将圖卷積網絡(GCN)用于基于結構和基于 PPI 的資訊。将這些表示在分層分類器(例如多任務 DNN)中與生物學相關的正則化方法相結合,可以為蛋白質功能預測提供可解釋且計算上可行的 DL 架構。

基因組工程

生物醫學工程,特别是基因組工程,是生物學中的一個重要領域,其中 DL 模型已被越來越多地采用。

DL 的未來面向新的編輯技術,例如 CRISPR-Cas12a(cpf1)、堿基編輯器和主編輯器。雖然這些方法沒有引入 DSB,但它們的效率仍在提高;事實上,DL 已經在預測人類細胞中腺嘌呤堿基編輯器(ABE)和胞嘧啶堿基編輯器(CBE)以及主要編輯器 2(PE2)活動的效率方面顯示出了希望。

然而,未來的挑戰在于了解這些模型。CRISPRLand 是一個最近的架構,它在高階互動方面向 DL 模型的解釋和可視化邁出了第一步。除了可解釋性之外,研究人員推測能夠對預測結果進行不确定性估計的方法在基因組編輯中變得更加普遍。

此外,由于細胞類型對 CRISPR 實驗效率的顯着影響,了解在基因組工程中部署 DL 模型的分布變化至關重要。整合域适應方法以限制這種分布變化的影響是其他重要的未來方向之一。

深度學習的中等成功

系統生物學和資料內建

系統生物學從整體角度對複雜的生物過程進行模組化,以最終解開基因型和表型之間的聯系。不同組學資料的整合是彌合這一差距的核心,可實作強大的預測模型,這些模型已導緻最近的幾項突破,從基礎生物學到精準醫學。

DL 的小成功

系統發育學

系統發育是一棵進化樹,它模拟了一組分類群的進化曆史。系統發育推斷問題涉及從正在研究的分類群中獲得的資料(通常是分子序列)建構系統發育。

Nature Comm.綜述:為什麼深度學習可以在生命科學領域大放異彩

圖 3:系統發育推斷的标準和深度學習方法。

目前 DL 在系統發育樹方面取得的成功令人印象深刻,但考慮到各種挑戰,很難設想一個端到端的深度學習模型在不久的将來從原始資料直接估計系統發育樹。如果要開發一個,考慮到它依賴(可能是模拟的)訓練資料,在取代傳統的系統發育方法之前,它對實際生物序列的适用性需要仔細驗證。

DL 在生物科學中的一般挑戰

并非深度學習的所有應用在計算生物學中都同樣成功。雖然在蛋白質結構預測和基因組編輯等某些領域,DL 取得了重大成功,但在系統發育推斷等其他領域,DL 面臨着重大障礙。DL 方法面臨的最常見問題源于缺少注釋資料、非模拟資料集固有的缺乏基本事實、訓練資料分布和真實測試資料分布之間的嚴重差異、結果基準和解釋中的潛在困難,以及最終克服資料集和模型中的偏見和道德問題。此外,随着資料和深度學習模型的增長,訓練效率已成為進步的主要瓶頸。

具體來說,DL 在計算生物學不同子領域的成功高度依賴于标準化監督和非監督資料集的可用性和多樣性、具有明顯生物學影響的 ML 基準、問題的計算性質以及訓練 DL 模型的軟體工程基礎設施 。DL 在計算生物學中的剩餘挑戰與提高模型可解釋性、提取可操作和人類可了解的見解、提高效率和限制教育訓練成本以及最終緩解 DL 模型日益嚴重的倫理問題有關;深度學習和計算生物學社群正在出現創新的解決方案。

表:使用 DL 時通常面臨計算生物學和潛在解決方案方面的挑戰。

Nature Comm.綜述:為什麼深度學習可以在生命科學領域大放異彩

綜述主要回顧了兩個需要改進的關鍵領域:(i)可解釋性和(ii)訓練效率。

結論

總而言之,雖然 DL 在蛋白質結構預測等領域的成功正在發生範式轉變,但與傳統方法相比,功能預測、基因組工程和多組學等其他領域的性能也在快速提升。對于系統發育學等其他領域,經典計算方法似乎在這些領域占據上風。特定于 DL 的其他進展應用于生物科學的挑戰,将進一步應用特定領域的生物學知識,同時努力提高可解釋性和提高效率。

人工智能×[ 生物 神經科學 數學 實體 材料 ]

「ScienceAI」關注人工智能與其他前沿技術及基礎科學的交叉研究與融合發展。

歡迎關注标星,并點選右下角點贊和在看。

繼續閱讀