天天看點

專訪南醫大生信系主任餘光創:沒有哪個專業絕對優越,生信人做好「工具人」也不簡單

作者:雷峰網
專訪南醫大生信系主任餘光創:沒有哪個專業絕對優越,生信人做好「工具人」也不簡單

生物資訊學和醫學,能碰撞出什麼火花?

餘光創教授的科研實踐,給出了這一問題的答案。

作為南方醫科大學基礎醫學院生物資訊學系的主任和教授,餘光創的關注點在于,生物醫學、數學和計算機科學的交叉融合。

這不算一條科研捷徑,多學科的知識儲備曾吓退一衆學者。對于餘光創來說,其中也有冒險的成分。

他的學術之路起于華南農業大學的生物技術專業,到安徽醫科大學的生物化學與分子生物學,再到香港大學公共衛生學院的系統發育研究,再到如今的南醫大基礎醫學院的教研工作,每一步似乎都愈發偏離原來的軌迹。

但用餘光創的話來說,這是他的“特色”、“趕上了好時機”。

實際上,這段經曆中還有段小插曲,他原本碩士報考的是中科院上海生命科學研究院,複試環節失之交臂,才有了調劑的一說,從此結下與醫科類大學的不解之緣。

2018年,一通來自南醫大生信系的前任系主任李金明教授的電話,将餘光創的科研生涯紮在了那裡。

應聘、入職、次年擔任該系副主任、協調全系改革入選教育部“雙萬計劃”,拔得全國唯一入選生信專業的高校頭籌,這些工作開展得緊鑼密鼓。

目前,餘光創的研究重點集中在組學資料分析和工具開發。

他的團隊通過多組學研究,開發了能夠預測代謝組資料的 MMINP 工具,以及專門用于單細胞和空間轉錄組學研究的 SVP 軟體包。

這些研究成果,為從微生物生态和系統發育關系的角度進行研究提供了新的切入點,更在疾病機理探索、藥物靶點發現等領域展現出巨大的潛力。

如今,“生信人”已經成為餘光創的一個重要标簽。

他指出,生物資訊學已經從輔助性角色轉變為科研的主導力量。随着高通量資料的普及和成本的降低,生物資訊學在資料分析和解讀方面的重要性日益凸顯。

同時,他也鼓勵年輕學者積極投身于跨學科研究,“不同的學科背景意味着不同的視角,沒有哪個背景絕對優越”,要善于利用不同學科的視角和方法,開展有特色、有創新性的工作。

近期,2024年度「第二屆生物資訊與轉化醫學大會」落下帷幕。本屆大會以 “人工智能時代的轉化醫學”為主題,由北京攜雲啟源科技有限公司承辦,餘光創教授受邀參會。

借此契機,雷峰網與餘光創教授進行了深入對話,以下為對話全文(經編輯):

生信人和醫學類高校的不解之緣

雷峰網:首先,請您分享下教育背景和研究領域?當時主要課題是什麼,它們如何塑造了您的專業技能和研究視角?

餘光創:我大學是華南農業大學生物技術專業。那是在2001年,正值人類基因組計劃公布草圖,生物技術迎來它的黃金時代。

大學期間,我對計算機科學産生了濃厚的興趣,并自學了相關知識。碩士階段,我本想轉向生物資訊學領域,但由于這是一個新興學科,國内能提供該專業研究所學生教育的機構并不多。後來去了安徽醫科大學,專業是生物化學與分子生物學,師從秦宜德教授。

碩士期間,我有幸跟随軍事醫學科學院的伯曉晨教授,繼續從事生物資訊學研究,并在他的指導下深入學習了程式設計和資料分析技能。當時,我們主要進行微陣列(microarray)資料分析,盡管二代測序技術開始興起,但在國内尚不普遍。此外,我們還探索了基于“基因本體學語義相似性度量”的一些計算方法,這在當時也是一個較新的研究領域。

碩士畢業後,我在暨南大學生命健康工程研究院工作,主要進行蛋白質組學研究。在那裡,我參與了與惡性良性腫瘤相關的蛋白質組資料分析工作,專注于蛋白質層面的研究。

工作幾年後,我意識到,僅有碩士學位在學術界的發展受限,是以決定攻讀博士學位,并最終選擇了香港大學。在那裡,我加入了管轶(港大公共衛生學院)教授的實驗室,管教授在非典疫情期間做出了重要貢獻。在管教授的指導下,我從事了與流感等傳染病相關的系統發育研究。

可以說,碩博期間讓我接觸到了截然不同的研究課題,也讓我認識到拓寬思維和視野很有必要。

目前,我在南方醫科大學基礎醫學院,主要進行組學資料分析和工具開發工作。盡管我現在不直接從事系統發育研究,但我一直在思考,是否可以從系統發育和微生物生态的角度,探索組學資料分析的新方法。

目前,無論是宏基因組還是單細胞空間轉錄組研究,都是對群體的測量,這為我們從微生态和系統發育關系的角度進行研究提供了新的切入點。

雷峰網:什麼契機下加入了南方醫科大學基礎醫學院?如今擔任生物資訊學系系主任,要承擔哪些工作?

餘光創:在港大畢業後,我留在了管教授的課題組,繼續從事博士後工作,同時尋找工作機會。 當時,南方醫科大學生物資訊學的老主任李金明教授打來電話,向我介紹了學校和專業情況。李教授的介紹打動了我,我來到這裡應聘,并在2018年順利加入。

事實上,2018年和2019年是南方醫科大學引進高層次人才的高峰期,不僅我們學校,許多其他學校也在大力引進人才。随着時間的推移,尤其是疫情的影響,學校經費有所減少,人才引進的力度也有所減弱。現在,學校更傾向于引進海外人才,并依托學校申請相關項目。我算是趕上了好時機。

2019年7月以來,我開始擔任生信系主任,我的工作涉及更多的行政和教學任務,主要是為學生和系裡的教師服務。

實際上,我們的生信大學專業成立于2005年,是國内較早開設此類專業的院校之一。就在2019年4月,教育部推出了“雙萬計劃”,旨在建設一萬個“國家級”一流大學專業、一萬個“省級”一流大學專業。我們在專業建設上做了很多工作,包括硬體、軟體、教材和課程改革。我們的專業也成為首批入選國家級一流大學專業建設點,而且是首批入選的生物資訊學專業。

我認為,作為教師,除了科研,教學同樣重要。這不僅有助于我個人成為一名更全面的教師,而且對教育下一代、促進社會和國家的可持續發展具有重要意義。

雷峰網:因為生物資訊學融合了多個學科,包括生物醫學、數學、計算機科學,您為什麼對交叉研究感興趣?

餘光創:這要追溯到大學時代。那時我在圖書館偶然發現了一本名為《Developing Bioinformatics Computer Skills》的書,這本書可以說是我的啟蒙之作,讓我對生物資訊學産生了濃厚的興趣。

從那本書裡我了解到,生物資訊學是一個融合生物醫學、數學和計算機科學的交叉學科。

我本身學習生物,而當時大家對生物技術的前景非常看好,加上我對計算機有着濃厚的興趣,我認為這正好是我專業和興趣的結合點。

是以,我決心朝這個方向發展,雖然當時還處于一個相對懵懂的狀态,但内心充滿了向往。

但我是直到研究所學生加入了伯曉晨老師課題組,才真正開始接觸生物資訊學,學習計算機和數學知識,并将其應用于生物學研究。

這讓我有了實實在在的一手研究經驗,并且我對這一領域始終保持着濃厚的興趣。多年來,無論是工作還是繼續深造,我都保持着這種興趣驅動,這對我來說非常重要。

雷峰網:您剛才提到了人類基因組計劃,這個全球性的項目對整個研究領域帶來了哪些變化?生物資訊學領域經曆了哪些發展階段,直至您目前的研究領域?

餘光創:人類基因組計劃對現代生物醫學研究産生了深遠的影響。

在該計劃之前,研究工作主要集中在克隆單個基因及其産物上,研究進展相對緩慢。許多研究者可能一生都在研究一個基因或一個蛋白,而且通常是針對那些已知與疾病相關的基因。當時,我們對基因間互相作用的了解還非常有限。盡管人類與小鼠或黑猩猩的基因差異很小,但在調控層面的複雜性卻有很大差異。

人類基因組計劃完成後,我們獲得了完整的人類基因組序列和較為完善的注釋資訊,這使得研究範式發生了根本性變化。

用一個比喻來說,以前的研究就像是在釣魚,而現在則像是撒網捕魚。

當下,我們可以先擷取大量資料,然後讓資料驅動研究,進而發現一些之前未曾預料到的線索。這種資料驅動的研究方式,不僅改變了研究政策,也加速了許多研究領域的發展,包括精準醫學等。

如果沒有人類基因組計劃奠定的基礎,這些進展是不可能實作的。

當好“工具人”并不簡單

雷峰網:您目前的研究重點是哪塊?近期有哪些新進展?

餘光創:目前我的研究重點是組學資料分析和工具開發。我們進行了多組學研究,并針對微生物組學開發了 MicrobiotaProcess、MMINP、SVP 等軟體包。

之于MicrobiotaProcess ,我們設計了一套資料結構來管理微生物組學資料,并提供了一系列分析工具。

之于MMINP ,可以通過微生物組學資料預測代謝組資料。許多人通過宏基因組或16S rRNA測序來鑒定腸道微生物,但往往缺乏相應的代謝物組學資料。我們開發的這個工具可以填補這一空白,做出更全面的分析。

此外,我們還開發了SVP軟體包,專門用于單細胞和空間轉錄組學研究,可以在單細胞水準對細胞功能進行刻畫,基于此,我們可以鑒定具有空間特異性的生物學功能。

目前,我們的工作主要集中在基礎研究領域,尚未有具體的轉化應用。但我認為這些研究成果是具有轉化潛力的。

例如,我們通過預測得到的代謝物資訊,理論上可以幫助我們節省研究成本。我們可以先通過計算方法進行初步探索,然後再通過靶向驗證等方法進行深入研究。

雷峰網:您在開發生物大資料分析算法和軟體時,有哪些方法論?這些工具如何幫助科研人員更好地探索和分析資料?

餘光創:在開發算法和軟體時,我們主要關注下遊需求和應用場景。

在生物資訊學領域,上遊算法如序列比對等,通常注重準确性、速度和計算性能,而我們更專注于下遊方法的開發和軟體設計。即,如何将這些技術與生物學需求相結合,為生物學家提供實際幫助,發現分子機制。

在方法論和心得方面,我認為最重要的是,面向使用者群體和軟體生态系統。一個良好的生态系統和社群可以顯著降低開發門檻,并促進不同軟體包之間的協作與功能互補。

以我們開發的 clusterProfiler 軟體為例,它面向廣泛的科研人員,通過功能富集的資料分析,幫助他們探索分子機制,闡明各種生物學過程和通路如何受到擾動。

這種分析可以應用于多種疾病的研究,不局限于特定領域,而是可以适用于廣泛的研究場景,是以它的使用範圍非常廣泛,閱聽人群體也很大。

雷峰網:與此同時,這個過程中最大的挑戰是什麼?

餘光創:在開發過程中,我主要是針對具體的應用場景,我們經常在資料分析中遇到一些問題,且手頭并沒有合适的工具。

其次,目前大資料時代,我們面臨的一個主要挑戰是計算能力,但算力并不總是容易獲得。

例如,美國對中國的顯示卡出口限制對許多研究工作構成了限制。此外,許多大型IT公司也在進行類似的研究,與它們相比,高校在硬體資源上往往難以匹敵。

第三,問題的複雜性日益增加,團隊合作變得越來越重要。當然團隊協作可能是解決這些問題的一個關鍵因素,這本身也是一個挑戰。

雷峰網:您目前的合作項目和夥伴有誰?

餘光創:我目前有一個合作項目是與一位婦産科主任(甯波大學,陳夏)合作的,我們正在研究腸道菌群與多囊卵巢綜合症之間的關系。

在這個項目中,我們收集了大量的宏基因組和代謝組資料。

在研究腸道微生物時,以往大多數研究都集中在細菌上。但我希望從噬菌體的角度來探讨這個問題,因為噬菌體可以感染細菌并調控其功能,并影響整個微生物群落的生态。

我們希望通過分析宏基因組資料,來探索噬菌體與宿主細菌之間的關系。此外,我們還自行收集了一些樣本,使用特定技術捕獲細菌和噬菌體之間的互相作用,并進行了相應的序列分析。

另一個合作項目是與神經生物學家(南方醫科大學,曹雄和陶濤)合作,我們使用了小鼠抑郁症模型進行空間轉錄組研究。

我們在小鼠大腦具有代表性腦區的五個不同位置進行了空間轉錄組測序,希望通過這些資料找到與抑郁症相關的分子機制和信号通路。空間轉錄組技術能夠在原位測試細胞,這對于神經科學研究來說是一個非常有前景的應用。

這項技術相對較新,我們目前正在進行這方面的合作和探索。

時間驗證一切

雷峰網:您在The Innovation、Gut Microbes、Molecular Biology and Evolution等期刊發表的論文中,有哪些特别有影響力的工作?這些研究成果對于生物醫學領域的長遠影響是什麼?

餘光創:如果要談論影響力,我認為我們最有影響力的工作是之前提到的 clusterProfiler 工具。

它的第一版發表于2012年,已經過去十多年了。2021年,我們在《The Innovation》雜志上發表了一個新版本。這個工具被廣泛使用,目前引用次數已超過25000次,對我們領域的研究産生了一定的影響。

實際上,許多學生和研究人員告訴我,他們在學習生物資訊學時,首先接觸到的就是我開發的這個工具包。因為它使用起來相對簡單,能夠快速為初學者提供回報。分析完成後,我們可以得到許多可視化的結果,這有助于他們立即了解分析結果。

此外,另一個我認為有較大影響的工作是,我在博士期間開始的系統發育相關研究。

我們開發了一系列軟體包,這些軟體包不僅能夠整合和可視化系統發育資料,還能幫助研究人員解析和映射各種資料到系統發育樹上。随着實驗技術的發展,我們現在擁有越來越多的高通量資料。将這些資料或分析結果映射到系統發育樹上,可以幫助我們發現新的或意想不到的演化模式。

這些工作發表在《Molecular Biology and Evolution》雜志上,共有三篇文章;還有一篇文章最早發表在2017年的《Methods in Ecology and Evolution》上,後來該雜志在慶祝創刊十周年時,将這篇文章選為“十篇代表作”之一。

我還寫了一本介紹這些工作的英文書籍,由國外的CRC出版社出版。這本書後來被翻譯成中文版,并在國内由電子工業出版社出版。這本書受到了讀者的喜愛,在京東上一度售罄。

這些工作可以說是我最具影響力的成果。很多研究成果的影響需要時間來驗證,一開始可能不會立即被大家認為特别好,但随着時間的推移,如果使用的人越來越多,就說明這些工作經受住了時間的考驗。

雷峰網:除了開發這些工具外,您是否也有資料庫開發工作?

餘光創:我們沒有直接開發資料庫。盡管資料庫在生物資訊學中扮演着非常重要的角色,但我們的研究重點并不在此。

當然,資料庫的建立可能是一些研究者的工作重點,他們可能通過收集資料并發表文章來展示其成果。但有一個現象是,很多人為了發表論文而開發工具或資料庫,一旦文章發表,他們就不再繼續投入。

但我認為,資料庫的真正價值在于,它能夠持續積累資料資源,并促進研究者自身課題的研究進展。

雷峰網:您入選全球高被引學者、全球前2%頂尖科學家榜單和中國高被引學者。您能談談您的研究成果被廣泛認可的經曆嗎?

餘光創:對于我來說,我對自己開發的工具充滿感情,始終在不斷地維護和更新。比如,我之前提到的那個工具,從2012年發表文章到2021年釋出新版本,這中間的九年時間裡,我一直在持續進行維護和更新。

這種長期的維護和更新是可以看到的,也形成了一定的口碑。随着時間的推移,大家對我工作的認可度越來越高。是以,這也是一個積累的過程。當大家普遍認可你的工作,願意使用你開發的方法和工具時,引用量自然會增加。正是由于大家的認可和支援,我才有幸入選了這些高被引學者的榜單。

雷峰網:我之前撰寫了一系列關于生物資訊學過去30年發展曆程的文章,一些教授會提到過去生信研究者會處于一個尴尬的位置,可以說是輔助性角色,而非課題的主導者。現在這種狀況有所改變嗎?

餘光創:情況确實在逐漸改善。

過去,我們的角色更像是輔助性的,因為我們不直接産生資料。其他課題組或基礎研究、臨床研究的同僚産生資料後,他們可能不會分析,于是找到我們希望合作,我們基本上就成為了提供幫助的輔助方。

而且,我們在進行生物資訊資料分析時,有時會遇到挑戰,包括我剛才提到的,有時需要自己開發工具來解決問題,這并不容易,需要一定的專業背景和科研經驗積累。

在基礎研究或臨床研究的同僚眼中,他們有時可能會低估我們的貢獻,認為我們隻是個跑程式的工具人,是以我們的貢獻在他們看來可能相對較小。這可能是因為他們自己的認知限制,難以準确評估合作者的貢獻。這種情況以前讓研究者感到尴尬。

但現在,情況有所好轉。我們這一代可能比前輩們面臨的挑戰要小一些。

首先,現在擷取資料的可及性更高。許多大型項目産生的大量資料都是公開的,我們可以根據這些公開資料進行研究。

而且産生資料的成本越來越低,以前資料生成成本很高,是以産生資料的研究者感到自己很重要。但現在,随着高通量資料方法的成本降低,我們越來越容易生成資料,生物資訊學在分析和解讀資料方面的需求和重要性越來越大。

另外,我們也可以通過資料驅動的方式,找到好的研究點或重要發現。繼而可以尋找合作者來驗證我們的假設和發現,這樣我們就能夠在一定程度上主導研究。

是以總的來說,随着生物大資料的普及,越來越多的研究者開始認識到生物資訊學的重要性,它不是一個輔助學科,而是一個獨立的學科,甚至在主導研究方面的作用将會變得越來越明顯,認可度也會逐漸提高。

雷峰網:您認為未來幾年内,這一領域将會有哪些新的趨勢或突破?以及,您有哪些規劃?

餘光創:在規劃方面,我認為目前的一個重點主題是人工智能。

這是一個無法回避的時代發展趨勢,我們不期望人工智能完全取代或颠覆現有的方法,但至少能夠賦予我們更多的能力,幫助我們解決更多問題。

在生信的應用場景中,人工智能的應用肯定會越來越多。衆所周知,在蛋白質結構預測等領域,人工智能已經開始發揮作用,并有可能在轉化研究中發揮更大作用。

雖然我和團隊并非人工智能領域的研究者,但必須要擁抱人工智能,我的規劃是,在我們擅長的領域内探索與人工智能的結合點。

雷峰網:關于人工智能,您和團隊之前有在使用相關技術嗎?

餘光創:我們主要是用傳統的機器學習方法。至于深度學習,我們之前并沒有太多涉及。不過,在空間轉錄組分析中,我們正在嘗試利用深度學習技術。

目前我們進行空間轉錄組的測量時,雖然是在談論空間資訊,但實際上我們處理的是二維的組織切片。我們正在嘗試通過深度學習技術重建這些資料為三維結構,目前在這方面正在進行一些探索。

雷峰網:關于跨學科合作,您個人在這方面有哪些經驗?或者對年輕學者有什麼建議?

餘光創:跨學科合作的經驗,我認為關鍵在于多溝通、多交流。因為不同學科背景的人交流時,可能會存在語言和概念上的障礙。有時候你說的我聽不懂,我說的你也聽不懂。增加交流可以更好地了解彼此的需求和目标。

此外,跨學科交流還能打破學科界限,拓寬思路。無論是在合作項目中,還是在參加學術會議時,多聽聽别人的報告,都能開闊視野和思維。

對于年輕學者,我的建議是,跨學科學習确實不易,如我碩士導師所說,你需要準備好付出額外的努力。

但這并不等于,需要等到掌握了所有相關學科的基礎知識才開始工作。這種方法是不現實的,因為你很難全面掌握所有知識,而且可能會偏離你的研究課題。相反,應該以項目為驅動,邊做邊學。

當然,跨學科也有其優勢。不同的學科背景意味着不同的視角,沒有哪個背景絕對優越。如果你能利用好自己的學科背景優勢,并找到合适的切入點,你就能做出有特色、有特點的工作。

雷峰網:您現在還在指導學生嗎?他們主要的專業背景是什麼?

餘光創:是的,我要指導學生。目前我的學生大多數是生物資訊學專業的。他們在大學階段可能就已經學習生物資訊學,因為我們學校本身就有這個專業。

此外,還有一些學生來自生物技術、生物制藥等生物領域。

計算機科學的學生在我們這裡相對較少,因為我們是醫科大學,學生可能更關注與生物醫學相關的領域,是以這類背景的學生更傾向于選擇我們。

我目前指導畢業的學生還不多。有的學生出國深造,有的在醫院擔任科研人員,還有人進入公司工作,從事生物資訊技術開發和資料分析等與我們專業緊密相關的工作。

是以,他們的就業方向通常與生物資訊學領域相關,無論是在高校、醫院還是公司。

本文作者 吳彤 長期關注人工智能、生命科學和科技一線工作者,歡迎同道微信交流:icedaguniang

雷峰網雷峰網

繼續閱讀