天天看點

中科院團隊新研究:人工智能有助于從空間分辨轉錄組學中識别組織亞結構

編輯 | 蘿蔔皮

空間分辨轉錄組學的最新進展使得能夠全面測量基因表達模式,同時保留組織微環境的空間背景。破譯組織中斑點的空間背景需要仔細使用它們的空間資訊。

為此,中國科學院的研究人員開發了一個圖注意自動編碼器架構STAGATE,通過內建空間資訊和基因表達輪廓,來學習低維潛嵌件,進而準确地識别空間域。為了更好地表征空間域的邊界處的空間相似性,通過對基因表達的預聚類來自适應地學習相鄰點的相似性,采用注意機制來自适應地學習相同的細胞類型感覺子產品。

研究人員驗證了不同平台生成的不同空間分辨率生成的不同空間轉錄組資料集的STAGATE。STAGATE可以大大提高空間域的識别準确性,并在保持空間表達式模式的同時去噪。重要的是,STAGATE 可以擴充到多個連續的部分,以減少部分之間的批次效應并有效地從重建的 3D 組織中提取三維(3D)表達域。

該研究以「Deciphering spatial domains from spatially resolved transcriptomics with an adaptive graph attention auto-encoder」為題,于 2022 年 4 月 1 日釋出在《Nature Communications》。

複雜組織的功能從根本上與不同細胞類型的空間背景有關。組織中轉錄表達的相對位置對于了解其生物學功能和描述互動式生物網絡至關重要。空間分辨轉錄組學(STs)的突破性技術,如 10x Visium、Slide-seq、Stereo-seq 和 PIXEL-seq,已經能夠以多個細胞甚至亞細胞水準的分辨率對捕獲位置的基因表達進行全基因組分析。

破譯空間域(即具有相似空間表達模式的區域)是 ST 面臨的巨大挑戰之一。例如,人類大腦皮層的層狀組織與其生物學功能特别相關,其中位于不同皮層的細胞在表達、形态和生理方面往往不同。大多數現有的聚類方法都沒有有效地使用可用的空間資訊。

這些非空間方法大緻可以分為兩類。第一類使用傳統的聚類方法,如 k-means 和 Louvain 算法。這些方法根據 ST 技術的不同分辨率僅限于斑點數量少或稀疏的情況,并且在組織切片中聚類結果可能是不連續的。第二類别利用單細胞 RNA-SEQ 定義的細胞型簽名來解構斑點。它們不适用于細胞或亞細胞分辨率水準的 ST 資料。

近期有些新算法通過考慮相鄰斑點之間的相似性來調整聚類方法,以更好地占基因表達的空間依賴性。這些方法顯示出鑒定腦和癌組織部分的空間域的顯着改善。例如,Bayesspace 是一種貝葉斯統計方法,通過将空間鄰居結構引入之前,鼓勵鄰近的斑點屬于同一群集。Giotto 通過先前通過使用空間鄰居實作隐藏的 Markov 随機字段(HMRF)模型來識别空間域。STLEarn 基于從組織學圖像提取的特征來定義形态距離,并利用這種距離以及空間鄰居結構以平滑基因表達。SEDR 采用深度自動編碼器網絡,用于學習基因表示,并使用變形圖自動編碼器來同時嵌入空間資訊。

Spagcn 還應用圖形卷積網絡,以內建基因表達和空間位置,并與自我監控子產品相結合以識别域。此外,最近的開發方法命名為 repept 利用監督的圖像分割方法來執行組織結構識别。雖然這些方法考慮STS的空間結構,但是在訓練之前預先定義了它們的相鄰點的相似性,并且不能自适應地學習。

此外,這些方法不再考慮空間域邊界的斑點的空間相似性,并且不再整合空間資訊以賦予和脫卵基因表達。更重要的是,這些方法不能應用于多個連續部分來重建三維 (3D) ST 模型并提取 3D 表達域。

圖示:STAGATE 概述。(來源:論文)

在這裡,研究人員開發了一種快速和使用者友好的空間域識别方法 STAGATE,它可以通過将 Scanpy 包的「AnnData」對象作為輸入來無縫地內建到标準分析工作流程中。STAGATE 将空間位置資訊轉換為 SNN,并進一步采用圖注意力自動編碼器來內建 SNN 和表達式配置檔案。

圖示:STAGATE 改進了人類背外側前額葉皮層 (DLPFC) 組織中層結構的識别。(來源:論文)

研究人員在不同空間分辨率的不同平台生成的各種 ST 資料上測試了 STAGATE 的性能。他們發現,精确揭示了人類背外側前額葉皮層(DLPFC)和小鼠嗅燈泡的層流組織。此外,STAGATE 鑒定了海馬的已知組織結構,清楚地覆寫了它的空間域。另外還證明了通過與 ISH 圖像進行比較來表達表達脫落的能力。最後,他們說明了STAGATE 在僞 3D ST 模型中的連續部分和提取 3D 表達域之間緩解批量效應的能力。

圖示:STAGATE改善了小鼠海馬組織中已知組織結構的鑒定。

STAGATE 的成功主要歸功于使用圖注意力機制來考慮空間鄰居資訊。然而,目前的 STAGATE 側重于表達譜和空間資訊的整合,并沒有利用組織學圖像。現有方法采用組織學圖像作為輸入,如STLEARN,在比較中沒有達到良好的性能。STLEarn采用預先訓練的神經網絡來提取圖像的特征,進一步通過餘弦距離計算形态距離。研究人員認為,這種預定義的方法不利用深度學習的靈活性,并且可以擴充注意機制以友善地整合組織學圖像特征。

在該研究中,研究人員主要關注基于測序的 ST 資料,這些資料沒有以單細胞分辨率進行表征。他們進一步将 STAGATE 應用于由 STARMAP 技術生成的單細胞分辨率的基于圖像的 ST 資料集,其中包括 1207 細胞上 1020 個基因的表達。将專家注釋結構作為黃金标準,與其他五種方法相比,STAGATE 的聚類精度最高(ARI = 0.544),而 SpaGCN 排名第二(ARI = 0.484)。

此外,鑒于空間域識别與基于圖像的 ST 資料的單細胞分割之間的聯系,研究人員期望 STAGATE 的思想可以在不久的将來擴充到正在進行的亞細胞分辨率技術的單細胞分割任務中。還希望通過使用新技術生成的資料集來提高其适用性。

圖示:STAGATE增強了DLPFC資料集中層标記基因的空間模式。(來源:論文)

STARGATE 可以處理不同空間分辨率的 SET 資料。通常,由于相鄰點之間的高度相似性,STARGATE 對細胞或亞細胞分辨率的 ST 資料表現更好。對于空間分辨率相對較低的技術,該團隊引入了細胞類型感覺子產品來描述異構空間相似性。然而,STAGATE 的一個潛在限制是它将來自一個部分的相鄰點與屬于不同部分的相鄰點相同。未來的工作可能會采用異構網絡來更好地描繪 3D 組織模型。

随着空間分辨率和資料規模的增加,計算方法應滿足效率和可擴充性的基本要求。他們記錄了 STAGATE 在真實資料集上花費的運作時間。在處理具有超過 50k 個點的最大真實資料集時,STAGATE 隻需大約 40 min。研究人員還在不同規模的模拟資料集上對 STAGATE 的運作時間和記憶體使用情況進行了基準測試,這些資料集根據 10x Visium 晶片的位置排列。

數值實驗表明,STAGATE 速度很快,隻用了不到 40 分鐘,使用大約 4GB 的 GPU 記憶體來處理具有 50k 個點的資料集。然而,GPU 記憶體使用與點數幾乎呈線性相關,并且可能成為限制 STAGATE 應用于海量資料集的瓶頸。未來的工作有望通過引入基于子圖的訓練政策來提高 STAGATE 的可擴充性。

圖示:STAGATE 可以通過合并 3D 空間網絡來減輕連續部分之間的批處理效應。(來源:論文)

此外,STAGATE 能夠檢測空間域内的空間可變基因。現有的空間可變基因識别算法如 SPARK-X 不考慮空間域資訊,這使得難以識别小組織結構内空間特異性表達的基因。為了說明這一點,研究人員在來自小鼠嗅球組織的 Slide-seq V2 資料集上比較了 STARGATE 空間域的差異表達基因與 SPARK-X 的差異表達基因。

具體而言,STAGATE 鑒定了 959 個域特異性基因,SPARK-X 搜尋了 2479 個 FDR

這兩種方法識别的基因集有很大的重疊,但SPARK-X忽略了一些小組織結構的特定基因。例如,二尖瓣細胞标記物 Gabra1 在 MCL 結構域中顯示出顯着的富集,但 SPARK-X 未識别其空間模式。此外,Nefh 基因在 MCL 結構域中也顯示出強表達。研究人員期望 STAGATE 可以促進組織組織的識别和相應基因标記的發現。

論文作者表示:「随着空間組學技術的快速發展和資料的不斷積累,這種新模型STAGATE可以促進對大規模空間轉錄組資料的精确分析,促進我們對組織亞結構的了解。」

STAGATE 開源連結:

https://github.com/zhanglabtools/STAGATE

https://doi.org/10.5281/zenodo.6330702

相關報道:https://medicalxpress.com/news/2022-04-artificial-intelligence-tissue-substructure-identification.html

人工智能×[ 生物 神經科學 數學 實體 材料 ]

「ScienceAI」關注人工智能與其他前沿技術及基礎科學的交叉研究與融合發展。

歡迎關注标星,并點選右下角點贊和在看。

繼續閱讀