天天看點

華人團隊多模态資料分析及生成方法大幅提升細胞類型功能預測能力

作者:新智元

編輯:好困

【新智元導讀】最近,來自美國威斯康辛大學王岱峰研究團隊,提出了一種全新的多模态資料處理方法JAMIE,可用于單細胞多模态資料分析,如資料對齊、嵌入和添補。

近年來,随着單細胞技術的迅速發展,我們得以測量了單個細胞的各種特征進而擷取單細胞多模态資料(比如scRNA-seq,scATAC-seq,Patch-seq)。

這些資料有助于我們深入了解細胞功能和分子機制。比如研究人員近來多通過機器學習方法來分析單細胞多模态資料間的關系,進而了解細胞類型和疾病所涉及的生物學機制。

但是單細胞多模态資料的擷取常常成本高昂,并且模态缺失時有發生。而現有的機器學習方法通常需要完全比對的多模态資料才能進行資料填補和嵌入,不适用于模态缺失的情形。

為了解決這個問題,美國威斯康辛大學麥迪遜分校王岱峰實驗室開發了一種基于聯合變分自動編碼器的開源機器學習方法——Joint Variational Autoencoders for Multimodal Imputation and Embedding(JAMIE)。

JAMIE可用于單細胞多模态資料整合分析,如資料對齊、嵌入,和對丢失資料進行添補,進而更好的預測細胞類型及功能。

此工作于近日發表于《自然–機器智能》(Nature Machine Intelligence)。

華人團隊多模态資料分析及生成方法大幅提升細胞類型功能預測能力

論文位址:https://www.nature.com/articles/s42256-023-00663-z

項目位址:https://github.com/daifengwanglab/JAMIE

JAMIE方法介紹

JAMIE訓練了一種可重複使用的聯合變分自編碼器模型,将可用的多模态資料分别投影到相似的潛空間中,進而增強了單模态模式的推斷能力。

如圖1所示,為了執行跨模态填補,JAMIE将資料饋入編碼器,然後将潛空間結果通過相反的解碼器進行處理。

JAMIE将自編碼器的可重複使用和靈活的潛空間生成與對齊方法的自動對應估計相結合,進而能夠處理不完全對應的多模态資料。

華人團隊多模态資料分析及生成方法大幅提升細胞類型功能預測能力

圖1. JAMIE方法總覽

具體而言,JAMIE可以分為以下兩步:

  1. 輸入資料預處理。以雙模态為例,假設模态對應資料矩陣分别為和。注意這裡特征次元和可以不同,樣本數目和也可以不同。預處理對每個矩陣的每一行都歸一化成均值0和方差1。如果有對應資料,使用者可以提供模态相關矩陣來改進性能,其中 表示模态中的第個樣本和模态中的第個樣本完全對應,表示沒有已知的對應關系,表示有部分的對應關系。
  2. 利用聯合變分自編碼器學習每個模态的相似潛空間: 和 ,其中(預設,使用者可調節)是潛空間次元。訓練過程中,JAMIE最小化如下損失函數:
華人團隊多模态資料分析及生成方法大幅提升細胞類型功能預測能力

總損失函數包含四項。

其中第一項計算變分自編碼器推斷出的分布與多元标準正态分布之間的Kullback-Leibler (KL)散度,有助于保持潛空間的連續性;第二項強制對應樣本的相似性;第三項是重構資料矩陣和原始資料矩陣之間的平均平方誤差和;第四項利用推斷的跨模态對應關系來調整生成的潛空間。

各項的具體表達方式見論文原文。第二、三、四項的相對第一項的權重可由使用者自行調節,JAMIE也提供了可适用于常用情況的預設權重。

下述表格展示了JAMIE與目前最先進方法的模型和适用範圍的對比。JAMIE将幾種不同的整合和插補方法的特征統一到一個單一的架構中,是以能夠進行缺失模态插值,進而具有非組學資料相容性、且能處理隻有部分對應關系的多模态資料的優點。

華人團隊多模态資料分析及生成方法大幅提升細胞類型功能預測能力

表1. 各種多模态整合和缺失模态填補方法的比較。JAMIE在一個單一的架構中統一了來自多種不同整合和插補方法的特征。NLMA:非線性流形對齊[15],UnionCom[7],CCA:典型相關分析[15, 16],BABEL[5]。

JAMIE的主要應用

多模态資料的整合和表型預測

對多模态資料的整合可以改進分類性能、增進對表型知識和複雜生物機制的了解。

給定兩個資料集、和對應關系,JAMIE可以根據訓練好的編碼器和生成潛空間資料、,并基于、進行聚類或者分類。

基于潛空間資料的聚類具有幾個優勢,如将兩種模态都納入到特征生成。然後,JAMIE可以預測樣本對應關系,并如細胞類型預測。

對于部分标注的資料集,同一聚類的細胞們應該具有相似的類型。

JAMIE在生成潛空間資料的過程中就進行了分離了不同類型資料的特征,是以通常不需要複雜的聚類或分類算法就可以達到較好的效果。

對于高維資料,JAMIE使用UMAP[32]進行細胞類型聚類可視化。

跨模态資料填補

目前跨模态填補的很多方法不能展示它們學習到了用于填補目的的潛在生物機制。

對比于前饋網絡或線性回歸方法,JAMIE能基于更嚴格的數學基礎更好的學習到潛在的生物機制來預測缺失資料。

圖2展示了JAMIE用于跨模态資料填補的流程。JAMIE先是針對訓練資料訓練編碼和解碼模型。

對于新資料 ,JAMIE首先利用資料學習到的編碼器将其投影到潛空間得到 ,然後通過聚合潛空間特征的方法得到 ,最後通過對應的解碼器将解碼成缺失模式的資料。

JAMIE使用潛空間預測細胞的對應關系,這可能有助于了解資料特征和表型之間的關系。

華人團隊多模态資料分析及生成方法大幅提升細胞類型功能預測能力

圖2. JAMIE跨模态插補

潛空間特征和填補特征的解釋

為了解釋訓練的模型,JAMIE采用了SHAP(SHapley Additive exPlanations)[18]。

SHAP通過對模型生成的個體預測進行樣本調制來評估各個輸入特征的重要性。這可以用于各種有趣的應用。

如果目标變量可以通過表型輕松分離,SHAP可以确定進一步研究的相關特征。此外,如果我們進行填補,SHAP可以揭示模型學到的跨模态聯系。

給定模型和樣本,學習到SHAP值,使得,其中是背景特征向量。

如果,則SHAP值的總和和背景輸出将等于,其中每個與對模型輸出的影響成比例。

另一種有用的技術是選擇一個關鍵名額用于分類(例如,LTA[7,19])或填補(例如,填補特征與測量特征之間的對應關系),并在模型中逐個移除(用背景值替代)每個特征來評估該名額。

然後,如果關鍵名額變得更糟,這表明被移除的特征對于模型的結果更為重要。

實驗結果

JAMIE采用了四個常用的單細胞多模态資料集進行驗證。

(1)來自MMD-MA的分支流形的高斯分布采樣生成的模拟多模态資料(300個樣本,3個細胞類型);

(2)來自小鼠視覺皮層(3,654個樣本,6個細胞類型)和小鼠運動皮層(1,208個樣本,9個細胞類型)的單個神經元細胞的Patch-seq基因表達和電生理特征特征資料;

(3)來自人類發育中的大腦(21個孕周,覆寫人類大腦皮層的7種主要細胞類型)中8,981個樣本的10x單細胞多組學基因表達和染色質可及性資料;

(4)來自COLO-320DM結腸腺癌細胞系的4,301個細胞的scRNA-seq基因表達和scATAC-seq染色質可及性資料。

評估發現,JAMIE明顯優于其他方法(如圖三的MMD-MA的分支流形模拟資料結果比較,和圖四小鼠視覺皮層資料結果比較)并優先考慮了多模态填補的重要特征,同時在細胞分辨率層面上提供了潛在的新機制洞見。

華人團隊多模态資料分析及生成方法大幅提升細胞類型功能預測能力

圖3. 模拟多模态資料結果比較:a、原始空間的UMAP,按細胞類型上色。b、JAMIE潛在空間的UMAP。c、JAMIE和現有技術(CCA[15,16],LMA[15],MMD-MA[8],NLMA[15]和UnionCom[7])在使用所有可用的對應資訊進行細胞類型分離時的比較。x軸為更接近真實均值的樣本比例,y軸為LTA[7,19]值。d、模态1中測量值和插補值之間相似性(1-JS距離)的累積分布。黑線對應不同細胞類型的平均相似性,而每個彩線分别對應一個細胞類型的相似性。

華人團隊多模态資料分析及生成方法大幅提升細胞類型功能預測能力

圖4. 在小鼠視皮層中的基因表達和電生理特征結果比較:a、原始空間的UMAP,按細胞類型上色。b、JAMIE潛在空間的UMAP。c、JAMIE和現有技術(CCA[15,16],LMA[15],MMD-MA[8],NLMA[15]和UnionCom[7])在使用所有可用的對應資訊進行細胞類型分離時的比較。x軸為更接近真實均值的樣本比例,y軸為LTA[7,19]值。d、模态1中測量值和插補值之間相似性(1-JS距離)的累積分布。黑線對應不同細胞類型的平均相似性,而每個彩線分别對應一個細胞類型的相似性。

總結

總而言之,JAMIE 是一種用于單細胞多模态資料整合預測的新型深度神經網絡模型。

它适用于複雜、混合或部分對應的多模态資料,通過一種依賴于聯合變分自編碼器(VAE)結構的新穎潛在嵌入聚合方法來實作。除了上述的優越性能外,JAMIE 還具有高效的計算能力和較低的記憶體使用需求。此外,預訓練模型以及學習到的跨模态潛在嵌入可以在下遊分析中進行重複使用。

當然對于較大的資料集,訓練變分自編碼器(VAEs)需要耗費大量時間。是以,JAMIE 中的自動 PCA 等先前特征選擇方法有助于減輕時間要求。由于VAE使用重建損失,資料預處理也至關重要,以避免大量或重複的特征對低維嵌入特征産生不成比例的影響。對于特定的跨模态插補,必須仔細考慮訓練資料集的多樣性,以避免對最終模型産生偏差并對其泛化能力産生負面影響。JAMIE 還可以潛在地擴充到對來自不同來源而不是不同模态的資料集進行對齊,例如在不同條件下的基因表達資料。

作者介紹

論文作者Noah Cohen Kalafut(計算機系博士生),黃翔(進階研究員),王岱峰(PI)隸屬于威斯康辛大學麥迪遜分校生物統計和醫學資訊學系、計算機科學系和威斯曼研究中心。通訊作者為王岱峰教授。

成立于1973年的威斯曼中心半世紀以來一直緻力于推進人類發育,神經發育障礙和神經退行性疾病方面的研究。

參考資料:

https://www.biorxiv.org/content/10.1101/2022.10.15.512388v2

https://github.com/daifengwanglab/JAMIE

繼續閱讀