天天看點

寫在2020:進入“全民”基因組時代,除測序外我們還需要什麼?

基因行業是一個天然的大資料行業,一個人的全基因組資料有近200G,随着測序成本的降低,越來越多的物種被檢測分析,積累了大量的有價值的資料,這麼龐大的資料該如何存儲和分析應用,傳統的IT設施顯然已經不能滿足如今的業務需求甚至影響到了業務的發展:

  • 硬體固定資産采購投入大,規模有限,難以滿足業務波峰波谷的需求
  • 資料存儲空間不足,成本高,管理維護困難
  • 分析流程缺少标準化,更新維護工作量大
  • IT人員不足,無法進行系統的軟體開發和平台建設

本次基因解決方案專場将從資料、計算、應用等多方面解決基因測序行業的問題。

基因資料分析管了解決方案:

https://www.aliyun.com/solution/collection/gene
寫在2020:進入“全民”基因組時代,除測序外我們還需要什麼?

下載下傳更多阿裡雲基因行業介紹:

https://page.aliyun.com/form/act1829142118/index.htm

從1到1000,從1000到百萬

從1900年孟德爾遺傳定律被重新發現,到摩爾根的連鎖和交換定律,再到1953年沃森(James D. Watson)和克裡克(Francis Crick)發現DNA雙螺旋結構,在不遠的近現代科學史中,人們逐漸揭開自然界豐富多彩生物多樣性背後的遺傳與演化規律,建立了一套完整的學科體系。所有物種都有共同的起源,本質上就是一段具有功能性的DNA或者RNA的序列,它存儲着生命體的所有資訊,與我們每個人的生老病死都息息相關。

基因測序技術,就是弄懂DNA序列的排布情況。1990年開始,由包含中國在内的六國科學家們,用10年時間,花費30億美金來破譯人類的遺傳資訊。2000年6月26日,美國總統克林頓與英國首相布萊爾共同宣布人類基因組計劃工作草圖完成,2001年2月,工作草圖的具體序列資訊、測序所采用的方法以及序列的分析結果被分别公開發表于《自然》與《科學》雜志。

但是人類基因組測序還不能算是“完成”了,部分區域序列還無法進行測序。同時,單個的參考基因組也不能代表所有人群的遺傳特點。科學家們從1到1000,繼續在探索人類基因遺傳的奧秘。2010年,英國科學家宣布UK10K項目,希望通過1萬人的基因序列和個人健康資訊結合,來更好了解低頻的基因突變與人類疾病之間的關聯關系。這也是之後各國大型人群的基因組學研究的一個通用思路:如何從百萬級别的基因和表型資料中,去發現更多的疾病發生機理,診斷方法和治療措施。

寫在2020:進入“全民”基因組時代,除測序外我們還需要什麼?

精準醫學計劃與“全民”基因組時代

從重大事件的時間程序來看,基因組學是一個完全嶄新的前沿領域。DNA理論發現60多年,測序技術發明40多年,以高通量,低成本的NGS測序技術為代表的商業應用可能才10多年的時間。DNA測序的價格從人類基因計劃時的30億美金,到現在低于600美金一個人。測序技術的進度,不僅幫助基礎科學繼續前進,也催生了基因組醫學研究和應用的快速發展。

2016年,時任美國總統的奧巴馬宣布了精準醫療計劃,該計劃緻力于治愈癌症和糖尿病等疾病,目的是讓所有人獲得健康個性化資訊。同年,我國科技部也釋出了“精準醫學研究”國家重點專項,以我國常見高發、危害重大的疾病及若幹流行率相對較高的罕見病為切入點,實施精準醫學研究的全創新鍊協同攻關,建構百萬人以上的自然人群國家大型健康隊列和重大疾病專病隊列。

寫在2020:進入“全民”基因組時代,除測序外我們還需要什麼?

進入2019年,這一趨勢更加明顯。9月11日,英國政府宣布與四家全球領先制藥公司及一家慈善機構達成戰略合作,将共同提供2億英鎊巨額資金,支援對英國生物生物樣本庫(UK Biobank)共計50萬名參與者的全基因組測序項目。該項目将探索基因如何與人類生活方式及生活的環境相結合進而導緻疾病,并旨在通過遺傳學研究改善人類健康狀況,并為全球科學界了解、診斷、治療以及預防癌症、心髒病、糖尿病、關節炎、癡呆以及慢性腎病等重大疾病提供寶貴的資料資源,最終推動全球個體化醫學的發展。12月10号,阿聯酋更是公布了全球最全面的全民基因組計劃——“阿聯酋全民基因組計劃”,目标是運用大規模人群基因組資料,為阿聯酋人民建立可預測、可預防和個性化治療的全民醫療衛生體系。

寫在2020:進入“全民”基因組時代,除測序外我們還需要什麼?

寫在2020年,展望未來10年,“全民”的基因組時代正在加速到來,它必然将全方位的加深我們對于生命科學的了解,為人類疾病的預防、診斷和治療提供全新的技術手段,誕生一個龐大的生命經濟産業。根據統計,全球用于罕見病,癌症的全基因組測序的樣本數,在未來幾年内可能很快就超過10億級别的規模。這對于任何從事這一領域的科學家、研究機構、政府和企業來說,面臨行業的浪潮,都是巨大的機遇,也必然是巨大的挑戰。

寫在2020:進入“全民”基因組時代,除測序外我們還需要什麼?

除了測序,我們還需要什麼樣的能力( 檢視更多

美國的精準醫學計劃的介紹材料中,對于項目的背景做一個解釋說明。為什麼是現在,我們可以開展百萬人規模的大型基因組研究項目。其中提到了三個必要條件,也可以從側面來回答我們哪些是需要去解決的問題:

寫在2020:進入“全民”基因組時代,除測序外我們還需要什麼?
  • 測序技術的發展。不管是測序的資料通量、測序時間和測序成本,相比過往都有大幅度的提升。這使得超大型的研究項目對應的海量測序資料,在時間上和經濟上都是可以負擔的起的。
  • 資料分析能力的提升。資訊技術中機器學習,深度學習,以及人工智能算法等技術的進步,使得我們在面對複雜多元的生物醫學資料時,不依賴現有知識,也能夠進行更多探索發現式的科學研究。
  • 新型工具和平台。雲計算技術的出現和普及,為大規模的基因資料存儲管理、計算和分析,以及共享協作提供了基礎平台和工具。

以英國UK Biobank的50萬全基因組測序項目為例,未來2年内可以完成所有的50萬份樣本全基因組測序,每個樣本按照100G檔案大小來計算,原始資料預計50PB。隻是對于原始基因資料進行變異檢測,粗略估計就需要近億計算核時,更是要結合所有的資料,才能讓單個基因或者多個基因組合、環境因素、生活方式,和一系列疾病的關系和模式變的更清楚。

是以,除了通過測序來擷取大量樣本的基因序列資訊外,我們更需要有先進的工具和平台來管理和挖掘這些資料背後的價值。并且在測序成本不斷下載下傳,甚至趨近于“免費”時,資料計算和分析的重要性會越來越大。工欲善其事,必先利其器。在面對未來樣本資料大爆發時,我們就需要從雲計算的角度去考慮建構安全可靠、經濟高效,靈活彈性和智能化的“新基礎設施”。

在阿裡雲上我們看到的趨勢(

早在2015年,阿裡雲就已經開始為基因行業客戶提供存儲和計算服務。過去幾年時間,我們與科技服務、臨床診斷、健康檢測、科研院所、政府機構和軟體工具提供者建立了廣泛且深入的合作關系,并且積累了豐富的經驗。

寫在2020:進入“全民”基因組時代,除測序外我們還需要什麼?

從客戶的視角出發,在基因測序行業發展過程中,其自身的IT基礎設施存在諸多限制:

  • 硬體固定資産采購投入大,規模有限,管理維護水準參差不齊,難以滿足項目型業務波峰波谷的需求。存在資源浪費或阻礙生産的情況。
  • 資料存儲空間不足,成本高,管理維護困難,隻能通過硬碟來傳遞。同時缺少資料治理,隻是資料檔案,且分散在各個生産中心,難以挖掘資料價值。
  • 分析流程缺少标準化,更新維護工作量大。部分分析工具效率低,占用資源多,耗時長。
  • IT人員不足,無法進行系統的軟體開發和平台建設。同時缺少前沿的硬體裝置,最新的IT技術環境,難以進行業務創新。
  • 安全防護措施有限。不管是資料備援災備,還是加密存儲和傳輸,以及對外防攻擊,業務系統高可用都受規模和管理水準限制。未來也可能難以滿足監管合規的要求。

基因行業同時具備資料密集型和計算密集型的業務特點,雲計算的出現有利于我們來幫助生物學家、醫生們來解決這些底層的IT問題,隻需要專注在資料或者業務本身即可。從衆多客戶的經曆來看,我們看到了以下轉變的趨勢。

轉變使用模式

基因行業客戶,從個人使用者到政府的基因組學機構,規模差異很大。在過去幾年時間内,出于成本、業務、管理、開發等等因素的考慮,可能使用的方案,從單台伺服器,到大型高性能計算叢集,SaaS平台都有,種類多樣。但是随着業務規模增大和分析速度下降,雲計算以其彈性擴充,按需付費的最大優勢,成為所有方案演化的方向或必不可少的組成成分。對于初創型的公司,可以完全基于雲環境的各種産品和服務,0成本、靈活快速的建構自己雲原生的業務系統。對于已有大型叢集的客戶,可以通過混合雲的方案,來最大化利用本地資源,同時又利用雲的彈性來消化業務高峰,避免再采購資源。

寫在2020:進入“全民”基因組時代,除測序外我們還需要什麼?

重視資料資産

基因公司都應該是大資料公司。随着自身業務的開展,内部積累的樣本資料也是越來越多。在達到千萬級别的顯著規模,如何利用樣本資料去建構知識庫,建立變異基線,開發和優化臨床應用,是每個使用者都需要考慮的重要問題。将基因資料,表型資料集中存儲到阿裡雲上,建構統一的企業基因資料湖,使用阿裡雲DLA,EMR,PAI等豐富的分析産品生态來進行多來源,多種類,多元度的資料查詢和進階分析工作。而不是自己使用初級的程式腳本讀取檔案解析,或者搭建維護一套難以滿足真實生産需要的複雜系統。通過完整方法論和工具來進行資料治理和資料智能分析會是基因的核心競争力之一。

寫在2020:進入“全民”基因組時代,除測序外我們還需要什麼?
寫在2020:進入“全民”基因組時代,除測序外我們還需要什麼?

标準化與自動化

基因公司都在進入精細化管理模式。在海量樣本面前,難以通過更多的人工分析來跟上業務增長。同時在保證業務品質,滿足外部評審要求等情況下,分析流程的标準化、子產品化及自動化成為大家的共同的方向。與此同時,借助标準化,更能夠清晰樣本的存儲和分析成本。通過阿裡雲存儲陣列,函數計算,對象存儲,批量計算這樣的産品組合,可以實作資料下機之後自動上雲,自動調用标準的WDL流程分析,并且最終傳遞到指定位置,等待釋放,整個過程分析結果可重複,操作記錄可審計,成本完全透明可控。這樣的使用者場景,和圍繞這一過程的自動化生産系統和雲平台,也必然會越來越多。

寫在2020:進入“全民”基因組時代,除測序外我們還需要什麼?

然而必須看到的是,将資訊技術和生物技術結合,利用雲計算和大資料的技術,來促進生物科研和産業的發展,還有很長的路要走。相較于國産測序儀進步,能夠直接為阿聯酋的項目提供測序服務,我們還必須在基因資料工具和平台上加快能力建設,才能比對像UK Biobank這樣的大型項目的實際需要,充分發揮基因大資料的價值。

阿裡雲基因行業解決方案( 下載下傳更多行業介紹

基因行業客戶需要的從來不是,也不應該是存儲、計算、網絡等基礎資源。我們需要從基因測序的不同場景來考慮使用者從樣本到報告的需求是什麼,再提出完整的解決方案。不僅僅是阿裡雲本身,更需要行業上下遊合作夥伴一起來建構完整的應用生态。同時,阿裡雲是全球基因組學與健康聯盟(GA4GH)的成員,Cloud Work Stream小組成員,生物資訊雲計算産業促進會會員,我們也不斷的從資料共享,行業标準的角度來為社群提供服務。

我們可以從三個角度,來談談阿裡雲的基因行業解決方案,我們為“全民”基因組時代準備的“新基礎設施”

寫在2020:進入“全民”基因組時代,除測序外我們還需要什麼?

資料

通過阿裡雲,基因資料可以快速流動,不管是從測序中心,還是到下遊客戶,借助阿裡雲遍布全球的資料中心和高速網絡的基礎設施,可以線上傳遞資料。更重要的是,阿裡雲的衆多的上下遊共同的使用者群體,已經形成了基因行業的“區域網路”,更是確定能夠雙方的連通性。

我們為使用者提供多種方式來傳輸和分發基因資料,并為不同規模的使用者提供長期、經濟、可負擔的存儲方案,保證資料安全和自動生命周期管理。使用者業務資料可以沉澱到企業的基因資料湖中,并且利用阿裡雲多種分析産品進行機器學習、深度學習等進行資料挖掘。

阿裡雲對基因資料的存儲和傳輸都提供嚴格的加密措施。使用者可以使用服務端加密、用戶端加密以及BYOK的方式來對基因資料進行加密。通過資料安全産品為幫助生物醫學資料進行去身份化操作,同時滿足包括HIPAA,GDPR在内的全球性行業監管法規需要。

寫在2020:進入“全民”基因組時代,除測序外我們還需要什麼?

計算

生物資訊流程是由一系列有依賴的分析步驟組成的,由分析引擎解析後,變成可運作的任務,再由後端的作業排程軟體來執行。傳統使用者這三部分的組成,通常是由自定義的流程規則,以及對應的解析程式,加上SGE,SLURM這類的HPC叢集作業排程軟體來實作的。

阿裡雲支援GA4GH聯盟下的流程語言标準(CWL/WDL),隻要是符合标準的流程,都無需改動,可以在阿裡雲上直接執行。作為Broad的解析引擎Cromwell官方支援的計算後端,可以使用包括Call-Cache中斷恢複在内的任意進階特性。與傳統模式相比,流程的标準化、可遷移性和可重複性都得到大幅度提升,并且解決了對外标準不統一的問題。

阿裡雲計算産品EHPC,ACK,批量計算,作為WDL流程的底層執行引擎,都能充分發揮雲計算的優勢。對于使用者來說,完全按照使用量來付費,并且可以在不增加成本的基礎上,快速擴充規模以加快分析速度,節省時間。結合包月,按量,競價等多種靈活的付費方式,使用者也能節省大量成本。同時,針對與使用者不同功能需求和部署要求,三個計算産品也更有優勢,友善使用者選擇。

對于大規模并發作業下存在的典型IO阻塞問題,阿裡雲提供了包括資料預取,多級緩存在内的多種優化措施。保證業務規模可以線性增長,不受底層存儲限制。

寫在2020:進入“全民”基因組時代,除測序外我們還需要什麼?

應用

阿裡雲聯合生态合作夥伴,将以雲服務的方式來提供行業最新的軟體工具。使用者可以直接使用,而不是考慮如何購買,安裝和配置的問題。

寫在2020:進入“全民”基因組時代,除測序外我們還需要什麼?

不管是bcl2fastq, 二代測序,還是三代測序,阿裡雲現在都提供一些的分析加速服務,在保證結果不變的情況下,為分析降低成本,提高效率。

為幫助國内生信開發者更好的開發基因行業專屬應用,

基因行業近期推出公共資料集項目

大家可以申請免費通路

,無需跟以前一樣從不同的網站去搜尋,下載下傳和存儲。更多關于資料集内容,可以點選檢視原文,歡迎大家使用。

在這裡,跟大家說一聲:新年快樂!

那個很多行業前輩向我們描述過期待過的未來已經到來,雖然依然坎坷,2020大家繼續一起努力!

本文作者:雲小方

寫在2020:進入“全民”基因組時代,除測序外我們還需要什麼?

繼續閱讀