天天看點

Nat Biotechnol|通過機器學習發現抗生素

2022年5月6日,Nat Biotechnol發表文章,評述了3月份發表在該期刊上的來自中國科學院微生物研究所王軍和陳義華等人的研究工作。

Nat Biotechnol|通過機器學習發現抗生素

人工智能在人類腸道微生物組中發現了候選肽類抗生素。

抗生素耐藥性是人類面臨的十大公共衛生威脅之一。抗菌肽 (AMPs) 是通常長度為8-50個氨基酸的小蛋白質,可提供對病原體的防禦作用,是傳統抗生素的替代品,因為它們不太可能引起耐藥性。然而,這些分子中隻有少數用于臨床,有幾十個正在進行臨床試驗和臨床前研究。使用微生物組資料的高通量方法擴大了對有希望的AMPs的搜尋範圍。

王軍和陳義華等人描述了一種确定新的抗生素的巧妙的人工智能政策。該研究采用自然語言處理工具有效地挖掘大型腸道微生物組資料集,以尋找具有抗菌特性的肽 (圖1)。該方法有助于新興的研究,使抗生素發現領域超越了依賴艱苦的試錯實驗的傳統方法,進入了一個可以通過計算機快速發現分子的新時代。

Nat Biotechnol|通過機器學習發現抗生素

圖1:人工智能使腸道微生物組中的抗生素發現成為可能

一個由自然語言處理和深度學習組成的計算平台被用來探索人類腸道微生物組資料集,尋找新型肽類抗生素。

此前,一些研究小組正在使用機器學習來發現新的抗生素,其方法包括預測性模型和生成性模型。例如,生成模型已被用于設計在動物身上具有療效并顯示低毒性的新型AMPs。深度學習和其他計算方法已經成功地重新利用了以前未被認識到的具有抗生素活性的分子,并發現了在人體中具有抗微生物特性的肽類。最後,研究人員已開發出令人興奮的比較基因組學管道,嘗試讓人類微生物組作為生物活性肽和微生物蛋白的來源。

這項工作将計算工具與體外和相關動物模型中的廣泛實驗驗證相結合。作者通過大規模的元基因組學資料搜尋,确定與已知AMPs相似的序列。為了設計一個識别AMP的管道,作者結合了幾個基于深度學習的自然語言處理模型 (例如,循環和注意神經網絡),他們優化了這些模型的性能。作為訓練資料,作者使用了來自蛋白質序列資料庫UniProt的大量非AMP資料集,增加了模型訓練的資料集,同時最大限度地減少了假陰性的可能性。

研究共搜尋了4409個合格的代表基因組,并從長度為6至50個氨基酸的表達蛋白中選出了2349個候選AMPs。接下來,作者調查了基因表達資料、相對豐度和與標明的細菌類群的關聯,以删除不可能的AMPs,這一步驟确定了241個肽序列。一旦确定了這些候選的肽,作者就用化學方法合成了這些肽,并在體外評估了它們的抗菌活性。

Nat Biotechnol|通過機器學習發現抗生素

研究工作流程示意圖

在這項研究中,我們從收集序列開始建構訓練和測試集,然後建構和優化神經網絡模型以形成AMP 預測管道 (左)。然後,我們挖掘了潛在AMP的宏基因組和宏蛋白質組學資料,使用候選AMP和細菌之間的相關網絡分析進一步過濾,産生用于化學合成和體外驗證的候選AMP (中)。從初步篩選中選出有希望的候選AMP,并進一步進行針對MDR細菌的功效測試、細菌性肺部感染動物模型的體内實驗和機制分析 (右)。

在這241條肽中,作者總共化學合成了216個新肽,其中至少181個被證明具有抗菌活性 (83.8%)。然後,作者評估了這181條肽與訓練集中已知的AMP序列的相似性,發現最高的相似性隻有61.4%,大多數序列的相似性低于40%。這一分析表明,他們發現的肽具有與傳統AMP不相關的序列。

這種方法和其他計算方法的一個潛在局限性是它們有偏向的傾向。例如,UniProt資料庫中大量的肽序列以蛋氨酸開始,由起始密碼子AUG指定,可能與生物活性無關,這可能使訓練出現偏差,因為機器學習方法在考慮到蛋氨酸的情況下會建立高準确性的預測器。額外的偏差可能會進一步限制旨在發現藥物的機器學習工作。然而,作者合成并通過實驗驗證了多肽的抗菌活性,表明盡管存在潛在的偏差,他們的機器學習模型仍然能夠有效地發現AMPs。未來的工作應着重于生成強大的訓練集和最佳模型,并對所有或大多數在計算機上預測和生成的序列進行實驗驗證。

作者選擇了對耐藥性細菌 (包括ESKAPE病原體) 具有最強抗菌活性的11個AMPs進行深入的特征分析。在這11個序列中,有7個來自于人類腸道微生物組中的一個主要菌屬,這表明該菌屬可能是AMPs的一個優秀來源。Peptide c_AMP1043顯示出最強的抗菌活性,對所有測試的臨床分離物的最小抑制濃度<10μM,證明是後續研究中最令人興奮的主要候選物。對這11種肽的作用機制研究表明,該研究開發的管道可能能夠捕獲具有不同作用機制的AMPs,盡管這不是所用算法的輸入特征。這些結果表明,所使用的計算方法可能揭示出資料集中有趣的隐藏特征。

開發新藥時的一個關鍵要求是目标細菌物種不對藥物産生耐藥性。為了評估細菌對c_AMP1043的潛在耐藥性,作者将大腸杆菌菌株DH5α連續暴露于該肽30天,但沒有檢測到明顯的耐藥性。

總的來說,作者展示了三種優選的肽在細胞毒性和溶血試驗中的低毒性,并驗證了這些藥物在小鼠模型中對肺炎克雷伯氏菌肺部感染的抗感染效力,顯示肽治療在體内可将細菌載量減少10倍以上。

作者提出了一種基于自然語言處理和深度學習的人工智能方法,探索複雜的元基因組資訊,這些資訊可以作為新型肽類抗生素的來源。像這裡描述的平台可能會改變抗菌研究,使之有可能在創紀錄的時間内發現更多種類的潛在抗生素。

正如這項研究所表明的,人工智能方法為發現急需的抗菌藥物帶來了希望,這可以幫助補充我們枯竭的武器庫。

參考資料

de la Fuente-Nunez, C. Antibiotic discovery with machine learning. Nat Biotechnol (2022). https://doi.org/10.1038/s41587-022-01327-w

Ma, Y., Guo, Z., Xia, B. et al. Identification of antimicrobial peptides from the human gut microbiome using deep learning. Nat Biotechnol (2022). https://doi.org/10.1038/s41587-022-01226-0

--------- End ---------