
今天給大家介紹賓夕法尼亞大學佩雷爾曼醫學院Cesar de la Fuente-Nunez團隊發表在Nature communications biology上的文章。該文章主要介紹表示學習,性質預測和生成模型等人工智能方法在小分子抗生素和抗菌肽發現中的應用。此外,作者還分析了該領域目前的開源問題和可複現問題,讨論了未來的研究趨勢和可研究方向。
1
背景
通過有效地針對入侵的生物體,抗生素參與到宿主-病原體進化軍備競賽的古老鬥争中。然而,細菌因自然選擇而進化出的耐藥性正在削弱現有抗生素的療效。根據美國疾病控制和預防中心估計,美國每年有280萬例感染是由耐藥細菌引起的,其中有3.5萬人死于這種無法治療的感染。目前處于臨床試驗中的抗生素大多與已經出現耐藥機制的現有藥物類似,這進一步強調了發現全新抗生素的必要性。
然而,抗生素研發是一個緩慢、昂貴且容易失敗的過程,這一過程可能持續數十年,花費數億美元。從2014年至2019年,隻有14種新的抗生素成功研發并通過審批。在一項對超過21000種化合物的近186000項臨床試驗的調查中,研發的新藥能夠成功治療傳染病的可能性僅為25.2%。
這一挑戰催生了一系列基于啟發式和人工智能算法的抗生素發現方法。可用的公開資料集(表1)、計算機技術的進展以及開源機器學習庫的激增極大地促進了人工智能在藥物發現和抗生素發現中的應用。在這篇綜述中,作者着重介紹人工智能應用于小分子抗生素和抗菌肽發現的方法。
表1 抗生素發現的資料集
2
化合物表示學習
表示學習是計算藥物發現流程(圖1)的一個重要組成部分。為了避免浪費大量時間和金錢用于合成非活性化合物和進行實驗,研究人員利用表示學習來表征候選藥物并據此預測藥物的性質。分子的各種性質和實驗可以産生大量的資訊,例如,為了描述簡單的氨基酸殘基,線上資料庫中已經有400多個不同的測量方法;對于小分子藥物,有計算和壓縮量子力學推導出的描述符來表示拓撲性質的方法。然而,測量得到的資料不一定能準确地表示分子。這催生了一系列研究,将實驗資料組合成簡單的描述符,以盡可能少的次元來描述盡可能多的資訊。
文章提到的一個典型的例子是使用圖卷積網絡,其利用分子的幾何形狀和連通性将分子轉化為圖,利用神經網絡從化學結構中學習分子的特征。類似的,也有工作使用圖神經網絡的方法來表示和預測蛋白質結構。
遞歸神經網絡(RNNs)在信号處理和自然語言處理(NLP)領域很常見,且現在已經被用于處理分子的SMILES表示。有研究人員使用長短期記憶單元(LSTM)從已知藥物的SMILES學習分子特征并生成新的化合物。另外,RNN也可與強化學習結合,根據藥物的SMILES生成藥物的embedding特征。RNN還用于抗菌肽的表示,有研究人員利用基于ONE-HOT編碼的LSTM自編碼器和LSTM神經網絡來學習和生成抗菌肽序列的表示,其可以用于推導蛋白質的二級結構、熱穩定性、殘基突變類型,甚至是突變帶來的功能性影響。
圖1 計算抗生素發現流程
3
性質預測
抗菌小分子活性預測是機器學習運用于抗生素發現中的核心,推動了近幾十年來在QSAR問題的研究并提供新的解決方案(表2)。例如,有研究人員使用邏輯回歸對訓練集中的分子片段進行分類。這一方法構造了一個基于分子片段的活性“詞彙表”,可以将這些分子片段拼接起來作為針對革蘭氏陰性菌銅綠假單胞菌有活性的新抗生素。最近也有研究人員試圖尋找現有的藥物作為抗生素,其利用神經網絡來學習化合物的表示,然後評估其抗菌潛力。該工作還利用了內建學習,其結合模型的多個副本(具有不同的權重),并考慮了每個模型的權重投票來實作最終的預測。文章中還提到了基于支援向量機預測分子的抗菌活性;基于深度神經網絡預測多肽對銅綠假單胞菌的活性;基于RNN的回歸模型挑選具有抗菌活性的抗菌肽等方法。
抗菌肽被認為是解決微生物耐藥性進化的新抗生素的主要來源。抗菌肽限制耐藥性進化的能力與其不同的生理作用機制有關,這使得研究人員專注于多肽的分類和發現新的作用機制。例如,有研究人員提出利用DBSCAN聚類并預測抗菌肽對革蘭氏陰性菌的活性,并在體外合成了有效的候選抗菌肽。此外,還有研究人員基于已知抗生素的活性和一系列同源序列訓練一個廣義線性模型來生成對大腸杆菌抗菌活性增加160倍的新抗菌肽。由于廣義線性模型所發現的模式可以通過分析模型的權重來直接解釋,是以可以直接将模型轉化為抗菌肽設計的指導資訊。
近幾十年來,藥物類藥性(drug-likeness)的預測方法不斷發展,其感興趣的特征包括吸收、分布、代謝、排洩和毒性(ADMET)。基于機器學習的結合親和力預測也可以通過确定具有更有利的藥物-靶點互相作用的候選藥物來加速高通量篩選和基于結構的藥物先導物優化。文章提到有一系列工作分别利用神經網絡、分類樹、梯度增強分類器和共識模型預測抗菌肽和類抗菌肽藥物的溶血活性。也有一系列研究利用随機森林、深度神經網絡和深度泰勒分解用于預測候選藥物的細胞毒性。
開發基于抗菌肽的抗生素的還必須考慮肽的溶解性和穩定性。已有相關工作利用神經網絡、梯度增強模型、邏輯回歸分類器、支援向量機和随機森林預測蛋白質溶解度。在評估抗菌肽的穩定性時,蛋白水解酶的降解作用也是一個重要因素。如果能識别抗菌肽的水解酶結合位點,那将有利于先導抗菌肽的挑選和穩定性優化。現有一系列工作利用SVM、卷積神經網絡、條件随機機場分類器和邏輯回歸模型,來預測水解位點。類似的,有工作利用基于注意力的圖神經網絡和樸素貝葉斯分類器來預測類藥化合物的穩定性。
與大多數治療方法不同,抗生素設計的目标是殺死具有耐藥性進化能力的細菌。是以,抗生素藥物設計需要考慮細菌耐藥性進化的不可避免性。雖然目前已有基于機器學習的耐藥性預測方法在臨床上預測抗生素配方的耐藥性,作者更希望在藥物開發的實驗中使用耐藥性預測。作者預計流行病學和醫學中的基于耐藥性基因組學的機器學習方法将越來越多地專門用于藥物開發,例如利用機器學習對先導化合物的耐藥性實驗進行預測。目前基于機器學習的抗藥性預測都是基于細菌的基因組特征,而不是藥物或分子靶點特征。例如,已有工作基于病原體基因組資料訓練了能夠預測細菌對抗生素的敏感性和耐藥性表型的機器學習模型,包括肺炎克雷伯菌、大腸杆菌、P.銅綠假單胞菌、結核分枝杆菌和金黃色葡萄球菌。也有工作利用SVM預測外排介導的耐藥性。
雖然“黑盒”方法可能限制機器學習用于減少耐藥風險,但可解釋性機器模型可以使模型能夠在機體和種群規模上找出耐藥性的進化原因。有研究人員結合機器學習與基因-蛋白結構圖譜,以研究結核分枝杆菌耐藥性進化的驅動因素,其假設賦予細菌耐藥性的基因之間的互相作用表現為它們在SVM超平面的權重和符号的相關性。還有工作開發出開源軟體用于基于蛋白質同源性的基因變異定位的可解釋耐藥性預測。
表2 用于抗生素發現的機器學習模型
4
基于深度生成模型的抗生素發現
生成式深度學習可以通過多種方式來輔助抗生素的發現。作者着重介紹從頭分子設計,其通常使用生成對抗網絡(GANs),變分自動編碼器(VAEs)相關的架構。GAN由生成模型和判别模型組成,其推斷訓練資料的機率分布,以便從這個分布構造新的樣本。在一個極大極小博弈中,兩個模型都被訓練以優化判别器的錯誤率:生成器被訓練以最小化判别器正确區分真實資料和合成資料的可能性,判别器被訓練以最大化這種可能性。與經典的自編碼器一樣,VAEs将輸入編碼到隐層表示中,然後解碼重構,學習能夠描述訓練資料的隐層變量。然而,VAEs是一種定向的機率模型,通過變分貝葉斯方法學習連續的潛在變量。本節介紹這兩種模型應用于藥物發現的幾種變體。
深度生成模型已經被用于化學工程和蛋白質工程,包括無機物的逆向設計和基于圖的神經網絡模型蛋白質折疊生成。已有工作分别利用了結合深度強化學習的生成網絡,深度生成對抗自動編碼器,可微分強化學習和對抗訓練神經網絡,結合蒙特卡羅樹搜尋的深度神經網絡,結合随機和目标指引分子設計的自動編碼器GAN用于從頭藥物設計。鑒于對序列資料的适用性,也有工作利用接受SMILES輸入的RNN模型進行藥物設計。
在化學工程、蛋白質工程和整體藥物開發中,人們對深度生成模型的興趣日益濃厚,類似的技術可能會越來越多地應用于抗菌肽和小分子抗生素設計。到目前為止,GAN已被用于生成一個對大腸杆菌的最低抑制濃度明顯低于氨苄青黴素的抗菌肽。基于遷移學習的LSTM生成模型表明,在對較小資料集的目标特異性生物活性分子進行微調後,可以成功生成已知的靶向金黃色葡萄球菌的分子。此外,有研究者在一個基于單向LSTM的抗菌肽設計中,觀察到82%的生成肽是潛在的抗菌肽,而訓練資料的氨基酸分布中隻有65%的随機排列被預測為抗菌素。
5
開源和可複現性
一個確定計算可重複性的開放科學機制保證了公衆可以免費通路文章(1)源代碼、(2) 訓練和測試資料以及(3)發表的研究結果,這有利于加速基于機器學習的抗生素發現。然而, 對400篇人工智能會議論文的分析顯示,隻有6%釋出了代碼,54%釋出了僞代碼,30%的釋出了測試資料。在生命科學和醫學的機器學習中,最近的一項綜述發現,300份出版物中有50%釋出了軟體,而64%釋出了資料。一項對511項研究的綜述發現,在可複現性等多個名額上,将機器學習應用于生命健康科學領域的可複現性名額相比自然語言處理、計算機視覺和一般ML的論文表現不佳。是以,作者呼籲提高基于機器學習的抗生素發現的開源。
6
趨勢和未來研究方向
為了評估機器學習對抗生素發現的發表狀況,作者研究了PubMed論文的趨勢。結果表明,在21世紀的頭二十年裡,機器學習在抗生素和癌症藥物領域的應用落後于廣泛藥物開發領域的應用近十年。令人驚訝的是,心血管藥物領域的機器學習論文數更低。不過,廣泛藥物開發的大量應用預計随着時間的推移将對特異性疾病群體研究産生促進影響。在21世紀的第三個十年裡,機器學習促進的抗生素發現的前景将部分取決于資料的改進。随着更大資料集的公開,可以更嚴格地重新審視曾經遇到的問題。聯邦學習可能會促進在各研究機構資料閉源的情況下擴充經驗資料集。
最近的一篇綜述觀察到,以計算機科學、生物學和醫學合作為特色的生物醫學出版物具有更大的技術正确性,這表明抗生素發現可能從綜合專業知識中獲益。推動機器學習與體外和體内實驗的結合,甚至是額外的計算方法,如分子動力學模拟,将有助于確定模型的可靠性。對于機器學習模型内部決策中普遍存在的“黑箱”問題,可解釋性機器學習是生物醫學計算中一個日益擴大的焦點,其被用于闡明抗生素的作用機制。