天天看點

專訪騰訊AI Lab姚建華、楊帆:騰訊 AI Lab 為何瞄準單細胞蛋白質組學?

作者:雷峰網

在生物醫學研究的前沿領域,“單細胞蛋白質組學”是怎樣的存在?

用一個比喻來說,它就像一把鑰匙,能夠開啟細胞内部世界的大門,讓我們得以窺見細胞如何通過蛋白質的互相作用來執行生命活動。

這一研究領域的突破,不僅能夠推動科學界對生命過程的了解,也為精準醫療的實作奠定了基礎。

近期,騰訊的 AI Lab,無疑成為了這一前沿研究領域率先“揭開英雄榜 ”的那個研究機構。

3月20日,騰訊 AI Lab 的 3 篇蛋白質組論文正式入選國際頂級學術期刊。論文分别在資料庫、AI 模組化、AI 輔助臨床三個角度提出了全新的研究方案,為人類從根本上闡釋生命提供了重要技術參考。

《SPDB: a comprehensive resource and knowledgebase for proteomic data at the single-cell resolution》,被生物資訊學領域資料庫方面的的權威期刊 Nucleic Acids Research收錄。

《 scPROTEIN: a versatile deep graph contrastive learning framework for single-cell proteomics embedding》,被Nature旗下的方法學期刊Nature Methods收錄。

《Deep domain adversarial neural network for the deconvolution of cell type mixtures in tissue proteome profiling》,被Nature旗下機器學習專業期刊 Nature Machine Intelligence 所收錄。

借此契機,雷峰網近期對話騰訊 AI Lab 科學家姚建華和研究員楊帆,他們是三篇論文的共同作者。在訪談中,他們深入闡述了這些論文背後的技術突破、應用價值和未來的研究規劃。

他們解釋道,這三篇論文的創新之處在于,它們首次為單細胞蛋白質組提供了全面的資料知識庫和系統的AI分析方法。

論文一中建立的 SPDB 資料庫,通過标準化處理不同來源的單細胞蛋白質組學資料,使得資料易于比較和分析,是目前全球資料量最大、覆寫技術和資料集最為廣泛的單細胞蛋白質資料庫。

論文二中的 scPROTEIN 架構,針對單細胞蛋白組資料的特殊性提出了解決方案,能夠處理資料中的不确定性、缺失值、批次效應和噪聲問題。為基于單細胞蛋白質組的惡性良性腫瘤發生發展機制研究、藥物靶點發現和惡性良性腫瘤早篩和微環境研究提供重要的AI輔助作用。

第三篇論文中提出的 scpDeconv 方法,是一種全新的反卷積方法,能夠從“組織蛋白質組”資料中挖掘出特定細胞類型比例,為惡性良性腫瘤輔診和預後分析提供了新的視角,是三篇論文中與臨床應用最為貼近的一項成果。

姚建華,作為騰訊 AI Lab 的 AI 醫療首席科學家,補充道:

“AlphaFold 在蛋白質結構領域取得了令人矚目的成就,它主要關注單個蛋白質的結構和功能,或幾個蛋白質之間的互相作用。

而我們的研究則聚焦于細胞内所有蛋白質的表達模式,這些資訊反映了整個細胞的狀态和微環境,使我們的工作更加貼近臨床應用和疾病機制的探索。”

值得一提的是,當我們在讨論論文成果的同時,一個更深遠的議題逐漸浮現:成立于2016年的騰訊 AI Lab,是否有能力在接下來的五年中,引領生命科學領域的未來發展?

這個問題不僅考驗着實驗室的科研實力,也反映出科技公司在生物醫學領域的影響力和責任。如今的騰訊 AI Lab,走的每一步都比以往更受關注。

以下為對話(經編輯):

資料、模組化、應用,「三管齊下」

雷峰網:首先請兩位介紹下,三篇論文的創新點,簡要介紹技術實作形式,應用價值,以及對單細胞蛋白質組學這一研究領域的貢獻(比如最适合哪些人/機構使用)。

楊帆:單細胞測序技術已經取得了飛速發展,盡管單細胞轉錄組相關的測序技術和計算方法已經相當成熟,但轉錄水準與蛋白質水準的相關性通常低于 50% 。在單細胞層面,這種相關性更低。

是以,隻有通過研究蛋白質組,我們才能深入了解生命活動和疾病的本質。

單細胞蛋白質組測序技術也在不斷進步,技術革新層出不窮,并受到了國際頂級期刊如 Nature Methods 的關注和報道。特别是以 SCOPE-MS(Single-Cell Proteomics by Mass Spectrometry)、nanoPOTS (nanodroplet processing in one pot for trace samples) 為代表的基于質譜的蛋白質測序技術,能夠檢測到單細胞中數千種蛋白質的存在。這比以往基于抗體的單細胞蛋白質組測序技術有了顯著的提升。

然而,這些資料的複雜性,使得專門針對單細胞蛋白質組資料的AI計算方法相對缺乏。

正是基于這一背景,我們的三篇論文圍繞單細胞蛋白質組資料分析進行了深入研究。我們首次為單細胞蛋白質組提供了一套系統的 AI 分析方法和資料知識庫。

其中,第一篇論文收集了目前世界上最全面的、不同來源、不同測序技術、不同物種的單細胞蛋白質組資料,并進行了标準化處理和系統性評估。

第二篇論文基于遷移學習技術,從單細胞蛋白質組資料中推斷組織蛋白質組中的細胞比例;

第三篇論文則采用對比學習方法對單細胞蛋白質組進行表征;

我們的計算方法通過實驗驗證,明顯優于直接應用單細胞轉錄組的方法。這些方法已經開源,并配備了詳盡的使用說明,可供全球範圍内的研究人員使用。

我們的算法特别适合那些從事單細胞蛋白質組資料生成的團隊,他們可以直接應用我們的技術進行細胞級别的資料分析和下遊應用。

對于臨床醫學專家而言,他們可以利用我們的反卷積算法分析公開的TCGA或CPTAC等蛋白質組資料庫,或者基于自己收集的臨床組織樣本,以深入了解惡性良性腫瘤微環境,輔助疾病機制的研究和診斷預測。

此外,我們的資料庫允許生物學家和醫學工作者線上探索他們感興趣的蛋白質或細胞類型,觀察這些蛋白質在不同細胞類型中的變化規律,進而支援他們在特定蛋白質研究方向上的研究。

雷峰網:因為三篇論文成果都是集中在單細胞蛋白質組學領域,探讨了如何通過不同的計算方法和資料庫資源來分析和了解單細胞水準上的蛋白質表達資料。那麼,在此之前你們做了哪些工作?在三篇論文成果出來後,緊接着有哪些研究計劃?

楊帆:在此之前,我們團隊已經進行了大量工作,包括醫學多模态資料分析、疾病預測以及精準醫療等領域的研究。同時,我們也在單細胞轉錄組和空間組學等生命科學基礎計算領域進行了深入探索,并在多個AI頂級會議和期刊上發表了相關論文。

是以,我們在醫學、生命科學、精準醫療和資料分析等領域積累了豐富的經驗。

舉個例子:

我們在預訓練語言模型尚未廣泛應用于單細胞資料分析領域時,就意識到預訓練模型在自然語言處理(NLP)領域已經取得了巨大成功。當時,單細胞資料分析主要依賴于簡單的機器學習方法,并且常常需要針對每個資料集進行手工處理,這限制了模型的泛化能力。

針對這一問題,我們在 2021 年啟動了一個項目,設計了一種基于單細胞資料的大規模預訓練語言模型,名為scBERT。我們根據單細胞資料的特性,開發了基因嵌入(gene embedding)和表達嵌入(expression embedding),使得這些資料能夠被 Transformer 這種先進的計算模型處理和識别。

我們首次引入了 BERT 這種預訓練和微調的範式,進而充分利用了當時尚未充分利用的大規模單細胞資料進行預訓練,顯著提升了模型的泛化性和處理跨批次、跨資料集資料的能力。

這一成果發表在了 Nature Machine Intelligence上,開啟了單細胞大模型研究的新篇章。

在這三篇論文發表之後,我們計劃更加聚焦于重大科學問題的研究,并注重其臨床應用和轉化。我們将進一步整合多組學資料和蛋白質大模型,賦能更多的應用場景。

姚建華:我可以補充一些背景資訊。

衆所周知,生物體内的核心法則是中心法則,即 DNA、RNA 和蛋白質之間的關系。

DNA 攜帶遺傳資訊,通過轉錄成為 RNA,形成轉錄組。

而RNA進一步翻譯成蛋白質,即蛋白質組。

我們的研究工作正是基于這一原理。基因測序技術的發展曆程顯示,DNA 測序是相對容易的部分,而 RNA 和蛋白質的測序難度逐漸增加,因為它們需要更複雜的擴增和測量技術。

從上個世紀 70 年代開始,人類基因組測序技術已經經曆了幾代的發展。

最初,人類主要關注 DNA 資訊的測序。大約 10 年前,單細胞技術開始興起,最初主要集中在 RNA 資訊的測序。而單細胞蛋白質組學則是最近五六年才開始發展的新興技術。

我們的研究工作也是沿着這一脈絡逐漸推進的,從較簡單的資料開始,逐漸過渡到更複雜的資料分析。

例如,我們之前的工作 scBERT 主要針對轉錄組資料進行分析。而現在,我們進一步研究蛋白質組資料,這是一個更為複雜和具有挑戰性的領域。随着資料難度的增加,對算法和計算能力的要求也越來越高。我們的研究正是在這一背景下不斷進步和發展的。

雷峰網:總體從技術層面來說,論文一提供了一個資料資源庫,論文二和論文三則分别提出了新的深度學習架構來處理不同類型的資料分析問題。論文二側重于通過圖學習處理單細胞蛋白質組資料,而論文三側重于使用域對抗神經網絡進行細胞類型比例的解卷積。

不知道我這樣了解是否正确,請兩位再介紹下三篇論文的聯系與差別。以及,全球範圍内,還有哪些課題組或企業在做類似的工作?

楊帆:您的了解非常準确。

資料資源庫是算法研究的基石,我們深知AI算法的發展離不開資料的支撐。在單細胞蛋白組學領域,資料的準确表征是進行下遊應用的關鍵。

掌握了單細胞蛋白組資料後,我們能夠詳細了解每種細胞類型在細胞内蛋白質表達的模式。

基于這些資料,結合AI算法,我們可以進一步推斷組織蛋白組中細胞類型的比例,這對于了解惡性良性腫瘤微環境至關重要。

目前,臨床上已有大量基于組織蛋白組的資料,這些資料通常來源于惡性良性腫瘤患者癌組織及其周圍正常組織的樣本,通過質譜技術獲得的是多種細胞類型混合後的蛋白質表達平均水準。

我們的反卷積算法能夠精确推斷出不同細胞類型的比例,使全球研究者能夠從公開資料集中挖掘出有關細胞比例的資訊,進而更好地了解惡性良性腫瘤微環境。

此外,即使在無法進行單細胞蛋白組測序的臨床情況下,我們的算法也能提供一種解決方案,幫助了解細胞微環境,進而輔助臨床進行疾病預後和預測。

這三篇論文可以視為一個整體,其中資料資源庫為基底,上面有兩個不同角度的AI應用,如同一棵大樹上結出的兩個果實。

據我們所知,目前全球範圍内尚無其他團隊或企業開展與我們完全相同的工作。其他機構主要在進行單細胞轉錄組或蛋白質結構的研究,這些研究當然也很重要,但我們的工作填補了單細胞蛋白組學領域的一個空白,具有創新性和前瞻性,未來必将吸引更多研究聚焦于此領域。

姚建華:正如楊帆所提到的,蛋白質結構在AI領域中,尤其是 AlphaFold 這樣的技術最為人所熟知。

AlphaFold 主要分析的是單個蛋白質的結構,例如蛋白質的折疊方式或幾個蛋白質之間的互相作用,它關注的是單個蛋白質的三維結構,以及其功能和對人體細胞的作用。

而我們的研究則是從另一個角度出發,分析細胞内所有蛋白質的表達模式。

我們知道,人體有數以億計的蛋白質,即使是單個細胞内也有成千上萬的蛋白質。我們的目标是分析這些蛋白質之間的互相作用和表達模式,這些資訊反映了整個細胞的狀态和微環境。

通過蛋白質組或轉錄組等組學資料,我們可以更全面地了解細胞的微環境和疾病産生的原因,這對于臨床治療和疾病機制的研究具有重要意義。

與 AlphaFold 等關注單個蛋白質結構的技術相比,我們的研究更側重于整個細胞和微環境的系統性分析,這使得我們的工作更接近臨床應用和疾病機制的探索。

雷峰網:雖然是三個論文成果,但其實是在一個研究項目之中的嗎(因為研究是順着資料庫、AI模組化、AI輔助臨床三個層面逐一展開)?三篇論文的作者團隊在專業背景上有何區分?整體來說,從立項到出論文成果,持續時間多久?

楊帆:這三篇論文是在同一個大的研究方向下自然展開的。主要作者包括我和姚老師。

此外,我們的團隊還包括來自不同領域的合作者,如生物資訊學和 AI 機器學習領域的專家,以及校企聯合培養的學生。

騰訊 AI Lab 作為一個跨學科的平台,為跨學科AI應用提供了豐富的土壤。實驗室彙集了 數百位頂尖科學家,這為我們的研究提供了強大的支援。

在 AI Lab,我們有來自生物資訊學領域的研究員,他們從生物醫學問題出發,收集資料并定義研究問題。

在模型研發階段,尤其是面對原創性研究中的新問題和挑戰時,我們需要AI技術的創新。在這方面,我們有AI領域世界頂級的科學家與我們合作,共同應對圖模型、可信 AI 以及遷移學習等領域的挑戰。

正是在 AI Lab 這樣一個充滿世界級專家、緊密交流和跨學科合作的環境中,我們才能夠激發出創新的火花,并推動一系列跨學科AI應用研究的發展。

我們的實驗室主任張正友老師和AI醫療首席科學家姚建華博士,分别是 IEEE Fellow 和 AIMBE Fellow,ACM fellow,是世界知名的學術領袖。在他們的指導和把關下,我們的研究員在進行科研和創新時更加自信和從容。

一般來說,我們的項目從啟動到成果發表大約需要一年到一年半的時間。

雷峰網:楊帆博士,您的背景和經曆是怎樣的?同時請問姚建華老師,如今騰訊 AI lab 的工作者在專業背景上有何共性?

楊帆:我是清華大學的博士畢業生,在博士期間主要從事臨床組學分析的研究。自2016年起,我開始接觸人工智能領域。博士畢業後,我加入了騰訊随後在 AI Lab 做研究,至今已近六年。在這裡,我相當于又完成了一個 AI 領域的博士學位,進行了廣泛的AI研究。

我感覺自己的知識結構像是“T”字型。

一方面,在組學生物資料分析領域有深入的研究和超過十年的經驗;

另一方面,在AI領域,包括多模态研究、醫學影像、臨床文本資料處理、圖模型、深度學習等多個方面都有所涉獵,并發表了相關論文。

這種“一專多能”的背景使我在跨學科領域,如 AI for Science ,能夠提出獨特的見解和研究方向。

姚建華:我們團隊确實需要這樣的跨學科人才。正如楊帆所提到的,AI Lab 涵蓋了人工智能、機器學習、語音識别、多模态等多個研究方向。我們特别注重生命科學領域的人工智能應用,是以團隊中的許多研究員都具備 AI 和生物學的雙重背景。

隻有通過這樣的交叉合作,才能真正推動這一領域的發展。我們也經常與其他專注于人工智能的團隊進行技術上的交流和探讨,共同促進科學的進步。

三篇論文逐一追問:好在哪、不足在哪、給誰用

|論文一:《SPDB: a comprehensive resource and knowledgebase for proteomic data at the single-cell resolution》

連結:https://academic.oup.com/nar/article/52/D1/D562/7416372

專訪騰訊AI Lab姚建華、楊帆:騰訊 AI Lab 為何瞄準單細胞蛋白質組學?

該論文已入選生物資訊學領域資料庫方面專業期刊 Nucleic Acids Research

雷峰網:SPDB 如何整合不同來源和技術的單細胞蛋白質組學資料?團隊在資料庫設計和實施過程中遇到的主要挑戰及解決方案。還有哪些研究不足和優化計劃?

楊帆:SPDB旨在為不同技術類型的單細胞蛋白組學資料提供一個專門的資料處理架構。

我們通過在統一的環境中對來自不同基礎來源的資料進行标準化處理和分析,使得使用者能夠在一個平台上對比和探索不同技術來源的資料。

為了確定資料集的獨立性和可靠性,SPDB 并沒有直接整合不同來源的資料集,而是提供了對單個資料集的獨立探索功能,以及對同一蛋白質在不同資料集中的對比探索。

在SPDB資料庫建設的初期,我們面臨的一大挑戰是:如何處理和分析一些我們之前未曾接觸過的資料類型。

例如質譜蛋白質組資料,以及這些原始資料的處理程度和存儲格式的多樣性。

我們通過廣泛閱讀相關文獻,并詳細研究每個資料集的源文獻中關于資料處理的描述,為每個資料集制定了針對性的資料處理步驟,進而確定了資料的準确性和可靠性。

目前,SPDB 的一個不足之處在于:缺乏線上工具供使用者直接使用。未來,我們計劃将研究團隊開發的相關算法內建到SPDB平台上,以便使用者能夠更友善地使用這些工具。

此外,SPDB 目前還沒有提供蛋白質對應的基因表達資訊,即轉錄組資料。是以,我們的後續工作将包括為蛋白質表達提供相應的基因表達資料,以便于使用者進行更全面的對比展示和分析。

專訪騰訊AI Lab姚建華、楊帆:騰訊 AI Lab 為何瞄準單細胞蛋白質組學?

SPDB資料庫 概述圖

雷峰網:在我的了解,這應該是這一工作的最大貢獻,是收集了大量資料,還對這些資料進行了标準化處理,使得不同來源的資料可以放在一起比較和分析。這就好比把不同語言的書籍翻譯成同一種語言,讓讀者更容易了解。為什麼當下這種工作成為必要?

楊帆:您的了解非常準确。我們建構這個資料庫的初衷,是因為單細胞轉錄組和空間組學領域的研究已經日益成熟,積累了大量的資料。

市場上也存在一些對單細胞轉錄組和空間組資料進行整合和統計的資料庫,這些資料庫不僅為生物學家和臨床工作者提供了探索和發現的工具,也為生物資訊學研究者提供了基于标準化資料進行算法開發的平台。

由于許多研究者更傾向于使用已經處理好的标準化資料進行開發,而并非所有人都具備從大量分散的原始生物學文獻中提取資料的經驗或知識,我們的論文和工作的目标就是為單細胞蛋白組學領域做出貢獻。

我們希望通過标準化的資料,讓更多的AI研究者和生物資訊學工作者能夠看到單細胞蛋白組學資料的潛力,并在此基礎上進行算法的研發和創新。

這就像是為整個單細胞蛋白組學研究社群提供了一片沃土,讓更多創新得以孕育。

此外,這個資料庫也為那些日常工作繁忙、非生物資訊學專長的生物科學工作者和醫療工作者提供了便利。有了這個實用的工具,他們可以從單細胞蛋白組學的角度獲得新的啟示和發現,即使這不是他們的主要研究領域。

姚建華:建立這樣一個資料庫的工作量非常巨大,資料分散在各個地方。是以這種工作其實非常适合像我們這樣資源相對充足的公司來開展。

尤其是在大模型時代,資料的重要性愈發凸顯。

以前訓練一個模型可能隻需要幾十萬、幾百萬的資料,但現在訓練一個大型模型可能需要數億的資料量。

我們的資料庫已經收集了 3 億個細胞的資料,這樣的資料量才有可能支撐大型模型的訓練。我們将持續更新資料庫,随着新資料的加入,我們希望這個資料庫能夠真正為整個領域的發展做出貢獻。

|論文二:《 scPROTEIN: a versatile deep graph contrastive learning framework for single-cell proteomics embedding》

連結:https://www.nature.com/articles/s41592-024-02214-9

專訪騰訊AI Lab姚建華、楊帆:騰訊 AI Lab 為何瞄準單細胞蛋白質組學?

已入選 Nature 旗下方法學專業期刊 Nature Methods

雷峰網:我的了解是,scPROTEIN 是一種新型的資料分析架構,它能夠處理和分析單細胞蛋白質組資料。這就好比我們有了一台超級顯微鏡,不僅能夠看到細胞,還能夠看到它們内部的蛋白質如何互動。創新之處在于它能夠解決資料中的不确定性、缺失值、批次效應和噪聲問題,這些都是以往研究中的難題。

為什麼要這麼做?還有哪些研究不足,應對辦法?

楊帆:scPROTEIN 架構的開發是為了解決單細胞蛋白組資料分析中的獨特挑戰。

在單細胞蛋白組的測定過程中,從細胞分離、裂解、蛋白質提取,到通過質譜技術進行肽段檢測,每一個步驟都可能引入不确定性和噪聲。

例如,樣本制備的差異、标記政策的不同、質譜儀的狀态變化,以及肽段在質譜儀中的離子化和檢測過程,都可能導緻批次效應和資料中的噪聲問題。

此外,與單細胞轉錄組資料不同,單細胞蛋白組信号無法通過擴增來增強,隻能依靠質譜技術的靈敏度來檢測微量蛋白。

現有的許多單細胞轉錄組資料分析方法,并未充分考慮單細胞蛋白組資料的特殊性,直接應用這些方法效果并不理想。

是以,我們提出了 scPROTEIN 架構,它不僅考慮了單細胞蛋白組資料的層次結構,還采用了基于可信度的方法來估計肽段測定的不确定性,并通過圖對比學習進行表征和去噪,有效解決了資料中的複雜問題。

經過下遊任務的充分驗證,scPROTEIN 的性能顯著優于現有的單細胞蛋白組資料分析方法和直接套用單細胞轉錄組的方法。

姚建華:我們的算法實際上提供了一種“資料增強”功能,能夠有效去除資料中的噪聲和批次效應,使得資料分析更為一緻和準确。

此外,我們還提出了一種資料編碼的 embedding 方法,這在某種程度上起到了“資料降維”的作用。

正如許多大型模型如 Transformer 和 GPT 所做的那樣,通過 embedding ,我們可以将複雜的蛋白質資訊以一種高效的方式表示出來。

這種方法不僅能夠幫助我們提取資料中的核心資訊,還能夠揭示不同蛋白質之間的關系,為單細胞蛋白組資料分析提供了一種全新的視角和工具。

雷峰網:其他現有的單細胞資料分析工具,為什麼差強人意?

楊帆:正如我們之前提到的,scPROTEIN 架構是專門為解決單細胞蛋白組資料所面臨的挑戰而設計的。現有的大多數單細胞資料分析工具,并沒有專門針對單細胞蛋白組資料的特性。例如資料的層次結構和測量不确定性等,進行優化。

scPROTEIN 架構則完全針對單細胞蛋白組資料的特有問題進行了算法開發,是以能夠有效解決這些資料特有的問題。

姚建華:目前而言,幾乎沒有其他方法專門針對單細胞蛋白組分析。這項技術非常前沿,相關資料也相對稀缺,很少有研究能夠收集到如此多的單細胞蛋白組資料。

此外,分析這些資料本身也存在很大的難度,因為資料量大且複雜。

在我們開始這個項目的時候,市場上還沒有專門針對單細胞蛋白組的分析工具,大部分工作都是集中在單細胞轉錄組上。

我們預計在未來幾年,研究者們将會更多地關注蛋白質組學,是以我們在這方面的工作實際上是領先一步,提前進行了探索和開發。

|論文三:《Deep domain adversarial neural network for the deconvolution of cell type mixtures in tissue proteome profiling》

連結:https://www.nature.com/articles/s42256-023-00737-y

專訪騰訊AI Lab姚建華、楊帆:騰訊 AI Lab 為何瞄準單細胞蛋白質組學?

已被Nature旗下機器學習專業期刊 Nature Machine Intelligence 所收錄

雷峰網:我了解的是,這篇論文的一大亮點:提出了一種新的基于深度學習的解卷積方法(命名為scpDeconv),專門針對蛋白質組資料,擷取其中的惡性良性腫瘤微環境資訊。

能否介紹一下scpDeconv在臨床診斷和治療中的應用前景和潛在挑戰。scpDeconv方法在實際應用中可能遇到哪些問題,以及是否有解決方案。

楊帆:scpDeconv 的臨床應用前景非常廣闊。如我們之前提到的,該方法可以挖掘組織樣本中的細胞比例資訊,進而反映惡性良性腫瘤微環境的狀況。

例如,在我們的研究中,對黑色素瘤樣本進行 scpDeconv 分析後,我們發現不同細胞類型比例的患者預後存在顯著差異。

這種分析可以作為一種輔助診斷工具,幫助醫生預測疾病預後,是精準醫療的一個重要應用場景。

然而,scpDeconv 的潛在挑戰在于:單細胞蛋白質組資料的覆寫範圍可能不夠廣泛,包括細胞類型群組織類型。

為了克服這一挑戰,我們需要與進行單細胞蛋白質組測序的實驗室合作,共同貢獻更多的公開資料,以便進行更準确的分析。

姚建華:“組織蛋白質組”分析相對容易進行,因為它基于的是整個組織樣本,包括了成千上萬個細胞的蛋白質總和,而“單細胞蛋白質組”分析則需要對每個細胞單獨進行測量,難度和成本都顯著增加。

目前,臨床上主要進行的是組織蛋白質組分析,因為成本較低,技術相對成熟。

我們的 scpDeconv 方法,能夠從組織蛋白質組資料中解析出細胞類型的異質性,進而提供類似于單細胞分析的結果,盡管可能不如單細胞資料那麼精确,但至少能夠揭示組織中細胞組成的資訊。

這樣的技術使得臨床醫生能夠利用現有的資料獲得更多的診斷資訊,幫助更準确地進行疾病診斷和治療決策,實作精準醫療的目标。

如何對得起大廠AI lab 的名号?

雷峰網:最後,請說一下,騰訊 AI Lab 在單細胞蛋白質組學領域的未來研究計劃。

楊帆:我抛磚引玉,分享一下我們的未來規劃。

首先,我們将貫徹和落實我們實驗室主任張正友博士的指導思想,更加聚焦于解決世界級的重大科學問題,并在 AI for Science 領域實作 AI Lab 的使命——在學術界産生影響,在工業界創造産出。

我們的研究方向與騰訊公司的“科技向善”願景相契合。未來,我們将繼續利用現有基礎,整合單細胞多組學和蛋白質大模型,推動臨床應用研究,并緻力于産出具有世界影響力的原創AI應用研究成果。

姚建華:我們的工作重點是利用人工智能技術解決實際問題和科學挑戰。

作為 AI Lab,我們的優勢在于資源的相對豐富性和研究的聚焦性。與高校相比,公司的環境允許我們集中力量進行大規模的研究項目。

此外,公司的組織結構也使得不同領域的研究員能夠協同合作,共同推進同一項目。雖然高校的研究環境更為自由,但我們這裡的研究可以更加集中和深入。

我們的目标是聚焦于最前沿的課題和方向,解決最具挑戰性的問題,以此形成強大的影響力。

我們将繼續在單細胞蛋白質組學領域深耕,不僅推動科學的發展,也為臨床應用提供創新的解決方案。我們期待通過這些努力,為整個領域帶來積極的變化,并為社會做出更大的貢獻。

雷峰網:我了解到,騰訊 AI Lab 也在探索腦科學等領域,這是否意味着我們未來可能會看到更多相關成果?

姚建華:我們目前的重點還是集中在生命科學的一些基礎問題上,如蛋白質和基因組學等領域。

我們确實進行了一些大腦相關的研究,但主要是為了探索大腦的本質。例如,去年我們進行了大腦圖譜的研究,這更偏向于腦科學的基礎研究。

我們試圖通過蛋白質組學和基因組學的資訊來區分不同類型的神經元,并了解它們是如何互相聯系和作用的。這樣的研究有助于我們深入了解大腦的機制。

通過我們的AI算法分析基因組學和蛋白質組學資料,我們幫助神經科學家對不同腦細胞進行分類,并描繪它們在大腦中的空間位置。這樣的大腦圖譜研究是神經科學研究的基礎。

當然,要真正深入到腦圖譜的研究,最終還需要回到基因和蛋白質的層面。我們的目标是支援更高層次的科學研究。

雷峰網:那麼三篇論文成果之後,還有關于臨床應用和成果轉化的規劃嗎?

姚建華:目前,我們更側重于研究成果的産出,因為工業産出往往需要更多的資源和工程團隊。

我們現階段主要緻力于解決一些基礎科學問題。當然,随着技術積累到一定程度,我們可能會通過與其他團隊合作或尋找合作夥伴來實作這些技術的落地和産業化。

我們的目标是先在科研領域取得突破,為未來的工業應用打下堅實的基礎。

本文作者 吳彤 長期關注人工智能、生命科學和科技一線工作者,習慣系統完整記錄科技的每一次進步,歡迎同道微信交流:icedaguniang

繼續閱讀