天天看點

Nat. Mach. Intell. | 基于神經網絡的遷移學習用于單細胞RNA-seq分析中的聚類和細胞類型分類...

今天給大家介紹由美國賓夕法尼亞大學佩雷爾曼醫學院生物統計學,流行病學和資訊學系Jian Hu等人在《Nature Machine Intelligence》上發表了一篇名為“Iterative transfer learning with neural network for clustering and cell type classification in single-cell RNA-seq analysis”的文章。文中提出了一種遷移學習算法ItClust,這是一種監督的機器學習方法,該方法借鑒了現有的受監督細胞類型分類算法的思想,利用了從源資料中學到的特定細胞類型的基因表達資訊,來幫助對新生成的目标資料進行聚類和細胞類型分類。通過使用不同的scRNA-seq資料進行全面的評估,發現ItClust能夠顯著的提高聚類和細胞類型分類的準确性。随着scRNA-seq在生物醫學研究中的日益普及,未來希望ItClust将更好地利用大量現有的經過良好注釋的scRNA-seq資料集,并使研究人員能夠準确地對研究中的細胞進行聚類和注釋。

Nat. Mach. Intell. | 基于神經網絡的遷移學習用于單細胞RNA-seq分析中的聚類和細胞類型分類...

1

背景

随着單細胞RNA測序(scRNA-seq)技術日漸成熟。新興的scRNA-seq研究改變了我們對細胞生物學和人類疾病的了解。scRNA-seq分析中的重要步驟是通過聚類識别細胞群體或類型。有關細胞類型的知識可以揭示跨組織,發育階段和生物的細胞異質性,并增進我們對健康和疾病中細胞和基因功能的了解。盡管scRNA-seq具有空前的強大功能,但高維性和高水準技術噪音仍然是鑒定細胞類型的主要障礙。目前流行的scRNA-seq聚類方法對于細胞類型密切相關或測序深度較低的資料效果表現不佳。盡管諸如SAVER和DCA之類的去噪方法可以提供更準确的基因表達估計并有助于聚類,但是這些方法不受監督,并且無法利用特定于細胞類型的基因表達資訊。由于已經有大量注釋良好的scRNA-seq資料集,許多最新方法開始利用這些注釋良好的資料集中的資訊來幫助識别新資料中的細胞類型。

源資料和目标資料提供不同數量的特定于細胞類型的基因表達資訊,是以希望使用資料驅動的方法來确定每種資料類型在分析中的作用。遷移學習是一種機器學習方法,它專注于存儲在解決一個問題時獲得的知識并将其應用于其他但相關的問題,非常适合此目的。借這個想法,研究者開發了監督的聚類算法ItClust,它利用了從源資料中學到的特定細胞類型的基因表達資訊,來幫助對新生成的目标資料進行聚類和細胞類型分類。實作自動确定目标資料集中的聚類數量,分離源資料中缺少的單元格類型。

2

模型

ItClust模型如下圖所示, ItClust需要兩個輸入資料集,一個源資料集,其中包含帶有标注良好的單元格類型标簽的單元格,一個目标資料集,其中包含需要進行聚類和注釋的單元格。ItClust從建構源網絡開始,以從源資料中提取特定細胞類型的基因表達特征。該步驟使得能夠使用從源網絡估計的參數來初始化第二個網絡,即目标網絡。然後,使用目标資料中的單元格進一步訓練初始化的目标網絡,以微調參數,以便捕獲目标資料中特定于細胞類型的基因表達特征。一旦微調完成後,目标網絡将傳回目标資料中的群集單元格。

Nat. Mach. Intell. | 基于神經網絡的遷移學習用于單細胞RNA-seq分析中的聚類和細胞類型分類...

3

結果

為了顯示從标記良好的源資料中合并細胞類型特異性基因表達資訊有助于在目标資料中進行聚類,作者在四個公開的人類胰島資料集上将ItClust與兩種無監督聚類算法(Louvain和DESC)以及SAVER-X(一種基于神經網絡的方法)進行了比較。圖2a顯示了在所有四個單獨的目标資料集上,Louvin,DESC和SAVER-X的ARI随着分辨率參數的變化而顯着變化。相反,ItClust不需要分辨率參數的規範,即使與Louvain,DESC或SAVER-X使用的性能最佳的分辨率進行比較,也始終具有最高或接近最高的ARI。對于合并的資料集,Louvin,DESC和SAVER-X的ARI大幅下降,因為它們傾向于将來自相同細胞類型但不同資料集的細胞聚類到不同的聚類中,而ItClust保持較高的聚類準确性,并且在存在批處理時具有魯棒性目标資料中的效果(圖2b)。

Nat. Mach. Intell. | 基于神經網絡的遷移學習用于單細胞RNA-seq分析中的聚類和細胞類型分類...
Nat. Mach. Intell. | 基于神經網絡的遷移學習用于單細胞RNA-seq分析中的聚類和細胞類型分類...

接下來,作者将ItClust與監督型細胞類型分類方法進行了比較。除聚類外,ItClust還為每個聚類提供一個置信度分數,它表示目标資料中聚類與源資料中帶注釋的單元格類型的相似度。可以基于源資料中的相應注釋,為具有高置信度得分的聚類配置設定單元類型名稱。對于置信度得分較低的群集,它們可能代表源資料中不存在的單元類型。為了評估ItClust進行細胞類型分類的性能,首先,作者考慮了源資料和目标資料來自同一物種的情況。使用先前分析的相同的四個人類胰島資料集作為目标資料,并使用Baron人類資料作為源資料。當分别考慮四個目标資料集的每一個時,ItClust通常獲得最佳性能,産生最高或接近最高的分類準确度(圖3a)。當将四個目标資料集合并為一個目标資料集時,ItClust仍達到0.95的高精度,每個簇對應一種細胞類型(圖3b),這表明其對目标資料中批處理效果的魯棒性。

Nat. Mach. Intell. | 基于神經網絡的遷移學習用于單細胞RNA-seq分析中的聚類和細胞類型分類...

最後,作者考慮了更具挑戰性的情況,目标是将從一個物種學到的細胞類型知識轉移到在另一個物種中生成的目标資料集。設計了一個實驗,将資訊從小鼠腎髒轉移到人類腎髒。如圖4a所示,ItClust實作了最高的細胞類型分類準确度(0.87),遠高于第二好的方法Seurat 3.0(0.69)。Moana和scmap使任務失敗,分别産生了0.20和0.19的低精度。值得注意的是,Seurat 3.0将超過一半的巨噬細胞(3,566個中的2408個;67.5%)錯誤地分類為成纖維細胞,而ItClust正确地标記了94.6%的巨噬細胞(圖4b)。為了進一步驗證這些結果,我們為巨噬細胞和成纖維細胞選擇了标記基因,并分别為真實細胞類型和ItClust和Seurat 3.0預測的細胞類型生成了基因表達點圖(圖4c)。對于ItClust預測的巨噬細胞簇,表達了已知的巨噬細胞标記基因,而成纖維細胞的那些标記基因則表達較低或沒有表達。相反,已知的巨噬細胞标記基因在Seurat 3.0預測的成纖維細胞中具有高表達。

Nat. Mach. Intell. | 基于神經網絡的遷移學習用于單細胞RNA-seq分析中的聚類和細胞類型分類...
Nat. Mach. Intell. | 基于神經網絡的遷移學習用于單細胞RNA-seq分析中的聚類和細胞類型分類...

4

總結

總之,本研究提出了一種采用遷移學習架構的監督性聚類算法ItClust。ItClust不僅借鑒了現有的監督單元類型分類算法的思想,而且也利用目标資料中的資訊來減少對源資料品質的依賴。研究中使用來自不同物種的資料叢集組織對ItClust進行了廣泛的測試表明:相比其他流行的RNA-seq聚類算法,ItClust能夠顯著底提高聚類和細胞類型分類的準确性。

繼續閱讀