單細胞生物學基礎大型語言模型更新版，在超3300萬個細胞上預訓練

編輯 | 紫羅

就在前不久，多倫多大學研究團隊釋出首個單細胞生物學基礎大型語言模型：scGPT，其在超 1000 萬個細胞上進行預訓練。

現在，該研究團隊首次嘗試對超過 3300 萬個細胞進行生成預訓練來更新 scGPT。

論文的通訊作者、多倫多大學助理教授 Bo Wang 在推特激動發文：「令人興奮的 scGPT 更新：自 4 月份釋出以來，受到社群的極大關注，我們很高興地宣布單細胞多組學資料的基礎模型 scGPT 的首次重大更新。」

更新後的研究以「scGPT: Towards Building a Foundation Model for Single-Cell Multi-omics Using Generative AI」為題，于 2023 年 7 月 2 日釋出在 bioRxiv 預印平台上。

論文位址：https://biorxiv.org/content/10.1101/2023.04.30.538439

開源代碼和模型：https://github.com/bowang-lab/scGPT

詳細教程：https://scgpt.readthedocs.io/en/latest/

scGPT 更新的幾個亮點

此次更新的亮點包括：

推出第一個針對單細胞多組學資料的 GPT 式基礎模型，該模型在超過 3300 萬個人類細胞圖譜資料上進行了預訓練。
其通才方法使一種模型能夠完成單細胞分析中的多項任務，包括多組學綜合分析和擾動預測。
使用學習的注意力權重和基因嵌入發現特定于各種條件的基因間互相作用。
揭示了随着資料量的增加，模型性能持續增強的 scaling 定律。
scGPT model Zoo（參見 github）現在提供多種針對各種實體器官的預訓練基礎模型和全面的泛癌模型。使用最合适的基礎模型開始探索你的資料。

有推特網友評論：「絕對驚人的……好東西！」

怎麼做到的呢？

在此，研究人員首次嘗試通過對超過 3300 萬個細胞進行生成預訓練來建構單細胞基礎模型 scGPT。研究人員引入新技術來解決大規模單細胞組學資料預訓練的方法和工程挑戰。

此次更新的 scGPT 模型是在超過 3300 萬個細胞進行生成預訓練的，而上一次是「超 1000 萬個細胞」。

那是怎麼做到的呢？

為了處理大規模資料，研究人員使用記憶體資料結構，可以快速通路存儲數百個資料集。專門針對非序列組學資料建立了統一的生成預訓練工作流程，并調整 Transformer 架構以同時學習細胞和基因表示。此外，還提供具有特定任務目标的通用管道，用于模型微調，旨在促進預訓練模型在一系列下遊任務中的應用。

此次更新整合了社群回報并利用了 CELLxGENE 最新釋出的資料。更新的 scGPT 擁有更大的預訓練資料和更穩健的模型，并擴充了應用任務的範圍。

研究人員從 CELLxGENE 網站檢索了超過 1030 萬個人類 PBMC scRNA-seq 樣本，用于基礎模型預訓練。通過對生物體（即智人）、組織（即血液、骨髓）和疾病進行過濾，從 CELLxGENE 中收集了總共 65 個資料集。

資料位址：https://cellxgene.cziscience.com/

更新的 scGPT 通過三個關鍵方面展示了單細胞基礎模型的變革潛力。

首先，scGPT 代表了第一個大規模生成基礎模型，可實作跨各種下遊任務的遷移學習。通過在細胞類型注釋、遺傳擾動預測、batch 校正和多組學整合方面實作最先進的性能，展示了「普遍預訓練，按需微調」作為單細胞組學計算應用的通用解決方案。值得注意的是，scGPT 是唯一可以整合包括 scATAC-seq 資料在内的多個單細胞組學的基礎模型。
其次，通過比較微調模型和原始預訓練模型之間的基因嵌入和注意力權重，scGPT 揭示了針對特定于各種條件（例如細胞類型和擾動狀态）的基因-基因互相作用的有價值的生物學見解。
第三，我們的觀察揭示了一個 scaling 定律：較大的預訓練資料量可以産生優異的預訓練嵌入，并進一步提高下遊任務的性能。這一發現突顯了基礎模型可以随着研究界可用測序資料的擴充而不斷改進的令人興奮的前景。

基于這些發現，采用預先訓練的基礎模型将極大地擴充研究者對細胞生物學的了解，并為未來的發現奠定堅實的基礎。scGPT 模型和工作流程的釋出旨在增強和加速這些領域及其他領域的研究。

更新版 scGPT：在超 3300 萬個細胞上進行預訓練

scGPT 作為單細胞領域的第一個基礎模型，采用生成預訓練方法。核心模型包含具有多頭注意力的堆疊 Tansformer 層，可同時生成細胞和基因嵌入。scGPT 包含兩個階段：對大型細胞圖集進行初始通用預訓練，以及針對特定應用對較小資料集進行後續微調（圖 1A-C）。

在預訓練階段，引入了專門設計的注意力掩模和生成訓練管道，以自監督的方式訓練 scGPT，以共同優化細胞和基因表示。這項創新技術成功解決了基因表達的非序列性質，以适應序列預測的 NLG 架構。

在訓練過程中，模型逐漸學習根據細胞狀态或基因表達線索生成細胞的基因表達。

在微調階段，預訓練模型可以适應新的資料集和特定任務。研究人員提供靈活的微調流程，适用于單細胞研究中的各種重要下遊任務。

圖 1：scGPT 模型概述。（來源：論文）

為了收集多樣化和廣泛的測序資料以用于 scGPT 的自監督預訓練，研究人員收集了通過 CELLxGENE 集合獲得的 3300 萬條正常（非疾病）條件下人類細胞的 scRNA-seq 資料（圖 1D）。這個全面資料集涵蓋了來自 51 個器官/組織和 441 項研究的多種細胞類型，提供了整個人體細胞異質性的豐富表現。

預訓練後，使用 UMAP 可視化技術将 3300 萬個資料中 10% 的人類細胞上的 scGPT 細胞嵌入可視化（圖 1E）。由此産生的 UMAP 圖表現出很好的清晰度，局部區域和簇的細胞類型通過不同的顔色準确表示。鑒于資料集中包含 400 多項研究，這證明了預訓練在減輕技術批次效應方面的卓越能力。

研究結果表明，scGPT 可以有效地提煉有關基因和細胞的關鍵生物學見解。通過進一步适應遷移學習，可以優化 scGPT，以以在各種下遊任務中實作最先進的性能，包括 multi-batch 整合、多組學整合、細胞類型注釋、遺傳擾動預測和基因網絡推斷。

對于未來，研究人員計劃在更大規模、更多樣化的資料集上進行預訓練。

參考内容：https://twitter.com/BoWang87/status/1676056025072320512

單細胞生物學基礎大型語言模型更新版，在超3300萬個細胞上預訓練

繼續閱讀

Llama 3：開源大語言模型的下一個前沿

大語言模型的應用秘訣：如何通過高效的提示詞掌控AI？

蘋果又被曝大動作，自研裝置端大語言模型，AI才是“重振雄風”新出路？

難怪之前傳iPhone16系列國行版本AI功能将由百度提供，原來百度在中國人工智能發明專利企業排名中還是靠前的。排名前十

蘋果釋出OpenELM，基于開源訓練和推理架構的高效語言模型

所羅門諾夫：大語言模型的先知

大語言模型部署：vLLM 與量化技術

蘋果發高效語言模型 OpenELM；小米策劃 15 萬元新車；AI 成功改寫人類 DNA|極客早知道

深度學習與化學語言模型結合，用于藥物從頭設計，登Nature子刊

屬于各大科技公司的風口又來了！這次大語言模型引領“新工業革命

大語言模型落地為什麼第一步是做客服

OpenAI推出全新大語言模型GPT-4o；蘋果将在中國開售Vision Pro；軟銀幾乎全部出售阿裡股份

探索大語言模型：了解Self Attention| 京東物流技術團隊

知識圖與大型語言模型的協同作用

多功能RNA分析，百度團隊的RNA語言模型登Nature子刊

參數少量提升，性能指數爆發！谷歌：大語言模型暗藏神秘技能