天天看點

加強開放資料基礎設施建設,推動開放科學發展

作者:中國發展門戶網

目前,開放科學進入全球共識階段,科研人員基于活動論、方法論、方式論、過程論、文化論和實踐論等從不同視角對開放科學給出了不同的定義。開放科學将科學作為一種共同利益加以推廣,包括分享資料、方法、結果和由此産生的知識等。作為一種全新的知識體系,開放科學強調整個科學過程的透明,鼓勵開放擷取與合作。在更深層次的了解上,開放科學是科學研究範式的轉變,将深刻改變人類科學研究、科學發現的方式,對于加強科技合作,共同探索解決全球性挑戰具有重要意義。

為推動全球開放科學的發展,2021 年,聯合國教科文組織(UNESCO)大會第 41 屆會議審議通過《開放科學建議書》(Recommendation on Open Science),意在讓開放科學更透明、更可及,進而使其更加公平和包容。這不僅為開放科學提供了國際發展方向,還為個人、機構、國家、地區和國際等不同層面提供了促進交流、建立信任的管道。

近年來,随着大科學裝置的建設、重大科學實驗的實施,以及科學傳感器和傳感網絡的廣泛應用,産生了多源、異構、海量的科學資料。資料已不僅是研究過程中事實或觀察的結果,更成為研究的實體工具。資料密集型科學發現成為大資料時代的科學研究新範式。

開放科學資料是開放科學的核心要素之一。通常由政府和機構組織制定開放資料政策,定義共享資料類型、共享對象、共享條件。實作科學資料的公開使用、重複使用、長期儲存和更新釋出,将會大力促進開放科學的發展,提升科技創新活動的透明度、可重複性、協作性,并可最大化科學對社會發展的價值。

開放科學資料

科學資料,作為最基本、最活躍的一類科技資源,既是科技創新活動的重要産出,也是新一輪創新活動和經濟社會發展的重要基礎,具有巨大的應用和開發價值,在全球諸多國家機構得到高度重視。

開放科學資料是指可公開擷取,并可通過下載下傳、複制、分析、再加工等方式,用于系統建構和任何其他應用目的科學資料。

國際開放科學資料的發展與現狀

在美國,開放科學資料已成為美國“資訊自由、開放政府”的重要組成;德國科學基金會(DFG)2010 年釋出的《研究資料操作指南》(Guidelines on the Handling of Research Data),明确“科學資料的共享與再利用對科學研究甚至人類社會都具有巨大意義”。國際科學理事會資料委員會(CODATA)2019 年釋出的《科研資料北京宣言》(The Beijing Declaration on Research Data)指出,公共經費資助産出的科學資料應盡可能在全球範圍内共享重複使用。以 Dimensions 平台統計資料為例,2012—2021 年全球開放科學資料集合計 9 918 741 條,其中中國擁有 253 441 條,繼美國之後排名全球第 2 位;在研究領域上,資料量排名前 3 位的學科分别為資訊與計算機科學、資訊系統、地球科學(圖 1)。

加強開放資料基礎設施建設,推動開放科學發展

為推進開放資料更加規範化,2016 年 FAIR 原則——可查找(findable)、可擷取(accessible)、可互動(interoperable)、可重複使用(reusable)應運而生。作為 FAIR 原則的補充,CARE 原則——集體收益(collective benefit)、品質保證(authority to control)、責任(responsibility)、倫理(ethics)則倡導以目标為導向,發揮資料的創新作用。FAIR 原則強調技術進步,而 CARE 原則更側重政策變革,兩者相輔相成。

全球開放資料在衆多研究領域蓬勃發展。作為開放科學的引領者,天文學領域越來越多的資料資源實作了即時開放,如美國大型綜合巡天望遠鏡(LSST)。在空間科學領域的探索中,美國和加拿大最為積極,歐洲以試點為主,俄羅斯和日本則強調國際合作;在高能實體領域,依托大科學裝置的資料積累與協作管理經驗為全球大規模資料合作共享提供了典範。

大陸開放科學資料發展與現狀

作為國家科技創新發展和經濟社會發展的重要基礎性戰略資源,開放科學資料已在大陸全社會達成高度共識。

曆史上形成了豐富的、覆寫各個領域的科學資料資源

據不完全統計,到 20 世紀末,大陸已建成 5 000—6 000 個規模不等、品質參差的科學資料庫,涉及科學技術的各個領域。在科學資料采集和積累方面,初步形成了以部門為主體、科研院所和高等院校互補的格局,并逐漸建立了專門的資料管理機構和國際資料合作與交換管道。

據《國家科學資料資源發展報告(2018)》統計,截至 2017 年底,大陸有效管理與儲存的科學資料資源總量共計約 83.72 PB。其中,生命科學與醫學領域、地球與環境科學領域、實體與化學領域、對地觀測領域、天文與空間科學等5個領域資料積累分别為26.81 PB、24.48 PB、16.64 PB、9.73 PB 和 5.27 PB。

科學資料開放共享被逐漸納入大陸政策法規制度體系

大陸一直重視科學資料的彙交管理與開放共享。先後從國家、部門多層面出台相關政策,并從行動上予以落實。

2006 年,國務院釋出《國家中長期科學和技術發展規劃綱要(2006—2020 年)》,明确提出要建設數字科技平台,促進科學資料共享。大陸逐漸開始形成由以政府、行業機構和領域資料中心為主體的資料政策體系。2015 年,國務院印發《促進大資料發展行動綱要》,提出發展科學大資料的具體行動。2018 年,國務院辦公廳印發《科學資料管理辦法》,進一步明确了科學資料管理與共享的職責,并對科學資料的定義、管理、責任主體、使用方法、使用範圍和保密安全進行了清晰的界定,為科學資料的開放和共享奠定了基礎。

積極參與并推動國際科學資料合作共享

目前國際科學理事會(ISC)有兩大資料組織——國際資料委員會(CODATA)和世界資料系統(WDS,前身為世界資料中心 WDC),主要緻力于将科學技術各領域從事資料工作的科學家組織起來,利用國際網絡建構全球尺度的科學資料交換體系。1988 年大陸加入 WDS,并于當年建立了天文、空間科學、海洋、氣象、地質、地震、地球實體、冰川凍土、可再生資源與環境 9 個資料中心。目前,天文資料中心、空間科學資料中心和海洋資料中心均為 WDS 的正常成員機構。1984 年大陸加入 CODATA。2011 年,大陸學者在 CODATA 提出“手拉手合作夥伴計劃”,旨在促進國際項目之間的合作,幫助重複利用已有資料資源,減少重複勞動,提高科研成果産出,加速科研成果轉化,消減數字鴻溝。

2018 年立項的中國科學院戰略性先導科技專項(A 類)“地球大資料科學工程”(CASEarth)遵循從開放資料到開放科學的發展潮流,将人工智能賦能地球大資料,打造集資料、計算、服務于一體的資料共享新模式。同時,CASEarth 促進地球科學資料的整合,實作多學科資料關聯分析和資訊融合,驅動重大科學發現與決策支援,應對全球可持續發展等重大挑戰。

在 CASEarth 基礎上,可持續發展大資料國際研究中心于 2021 年 9 月 6 日正式成立,旨在為解決中國乃至全球重大可持續發展問題提供基礎理論、技術方法、決策支援和智庫服務支撐。這是大陸積極推動大資料服務于《聯合國 2030 年可持續發展議程》的重要舉措和創新方向。

積極創辦資料期刊和建立資料倉儲,推動資料開放共享

随着開放資料理念不斷深入,大陸也開始了科學資料期刊的建設。中國科學院計算機網絡資訊中心于2016 年創辦的《中國科學資料》是大陸目前首批面向多學科領域的資料期刊之一。生物學、遙感科學與技術和圖書情報學等領域享有較高聲譽的學術期刊也陸續設定了資料論文專欄。由國際數字地球學會和 CASEarth 共同主辦的 Big Earth Data 于 2017 年 12 月創刊,是全球首本聚焦大資料的地學刊物,旨在為從事地球大資料的采集、管理、處理、分析和可視化研究的學者搭建一流的國際學術交流平台。

大陸還在不同領域建立了資料倉儲平台,來促進各領域資料資源的開放共享。國内多個資料平台還被國際認證為資料倉儲中心,進而更好地保障了大陸科學家的資料主權。

大陸開放資料基礎設施的現狀與問題

開放資料基礎設施是支撐開放資料和滿足不同科學領域研究的共享設施,其發展是資訊技術面向數字化、智能化演進的必然結果。資料中心是開放資料基礎設施的具體展現,以資料為核心,通過深度整合計算、存儲、網絡和軟體資源,實作開放資料的價值最大化。

開放資料基礎設施的要素包括資料、實體、技術、制度 4 部分。其中,資料要素是開放資料基礎設施的第一要素,包括資料集、資料辨別和資料注冊等;實體要素是指面向資料标準、存儲、管理、共享、分析、使用所需的軟硬體基礎設施;技術要素是面指向開放資料基礎設施的核心技術研發,實作協作式和多學科資料分析的開放計算和資料處理能力;制度要素為開放資料和開放資料基礎設施的使用和管理提供政策指導。

開放資料基礎設施對促進開放科學實施的意義和積極作用

開放資料基礎設施是科研範式變革的重要助推劑,是重要科技突破的“新引擎”。随着網際網路、大資料與人工智能的發展,科學發現的路徑進入了新階段。例如,中國科學院高能實體研究所與國家高能實體科學資料中心聯合研建的大規模分布式資料服務基礎設施平台,通過超高速網絡将國際上重要的高能實體科學資料及計算資源進行整合,為粒子實體、天體實體、中子科學、光子科學等領域的科學發現提供資料服務。高海拔宇宙線觀測站項目(LHAASO)利用該平台部署了 Coryda 資料處理系統,全面收集和處理超高能伽馬射線等宇宙線資料。以 2022 年為例,LHAASO 全年共采集了 11 PB 的資料,包含 10 萬億個宇宙線事例;資料和計算資源向全球開放,全年的資料通路和處理量達到 448 PB,在宇宙線前沿研究方面獲得了“PeV 超高能光子”“超高品質暗物質壽命”等多項重大科技成果。

大陸開放資料基礎設施的基礎與優勢

開放資料基礎設施的建設需求因所服務對象不同及應用差異而呈現多樣化。開放資料基礎設施主要可分為兩類:①大科學裝置,根據共性需求提供服務的國家基礎設施,是海量資料的生産單元;②科學資料中心,屬于集中式資料基礎設施,可支援跨學科領域的綜合研究。中國科學院在大陸開放資料基礎設施建設和體系化運作中發揮了重要作用。

大科學裝置

大陸大科學裝置最早可追溯到為“兩彈一星”研制任務建設的大型科研裝置。20 世紀 80 年代末中國科學院率先建設北京正負電子對撞機;大陸“九五”“十五”期間建設了11項大科學裝置;“十一五”之後進入快速發展時期,“十二五”期間形成了建成 22 項、在建 16 項的布局;“十三五”“十四五”期間則逐漸形成以綜合性國家科學中心為依托的大科學裝置建設規劃。目前,大陸在建和運作的大科學裝置總量約 50 餘個,部分裝置綜合水準進入全球“第一方陣”。

大科學裝置分為三大類:①專用研究設施,主要為特定學科領域的重大科學技術目标建設;②公共實驗設施,主要支撐多學科領域的基礎和應用研究服務;③公益科技設施,主要為國家經濟建設、國家安全和社會發展提供基礎資料。前兩類裝置一般通過實驗與觀測産生大量具有極高科學價值的資料,提供給專業領域和多學科用于科學研究;第三類裝置通過科學考察、綜合檢測等手段擷取科學資料及資源,為科學研究及國家發展提供保障。

大科學裝置是科學資料最重要的生産源。大陸與世界發達國家都高度重視大科學裝置發展,但在對大科學裝置的地位和作用規定的内涵的定位上有很大差别,主要展現在大陸更加突出“目标牽引、問題導向”。在國家有關部門的統一部署下,大陸大科學裝置布局逐漸完善、運作更加高效、産出更加豐碩,這對促進大陸科學技術事業發展起到了巨大的支撐作用,為解決國家發展中遇到的關鍵瓶頸問題作出了突出貢獻。

科學資料中心

國際科學資料中心。國際科學資料中心是指面向國家和全球發展部署,服務解決重大科學問題,推動技術創新,促進可持續發展的基礎設施。例如,可持續發展大資料國際研究中心(CBAS)是典型的國際科學資料中心,其研發的大資料平台系統(SDGs 大資料平台)整合了基礎地理、遙感、地面監測、社會統計等多種資料,貫通“大資料存儲—管理—計算分析—可視化”流程;研發可持續發展目标(SDGs)資料産品生産系統,實作 TB 量級資料互動式線上分析,以及各類名額線上計算和可視化展示;研發 SDGs 專用存儲庫等核心功能,支援全球 SDGs 資料資源的持續彙聚與開放共享;建設支撐地球大資料管理、處理與分析的專有環境,具備每秒 1 000 萬億次的雙精度浮點超級計算能力,50 PB 資料存儲能力,10000 CPU 核心雲計算能力。目前,平台已彙聚資料量達 16 PB,可面向公衆、科研人員、決策者三類典型場景,提供“一站式”資料計算、分析、展示、共享服務,已認證 CODATA 的評估,科學資料服務于 174 個國家和地區。

國家科學資料中心。2019 年,為進一步完善科技資源共享服務體系,推動科技資源向社會開放共享,科學技術部、财政部聯合認定了 20 個國家科學資料中心(表 1),涵蓋了高能實體、空間科學與天文、生物基因、環境與生态、地質與地震、農林、氣象等領域,負責大陸相關領域科學資料的彙交與共享、科學計算、資料技術研究等工作。至 2021 年底,國家科學資料中心彙集的資料超過 100 PB,每年被通路的資料達數百 PB,提供的科學計算服務超過 1 億 CPU 小時,為科學發現、技術創新和國民經濟提供了重要支撐。

加強開放資料基礎設施建設,推動開放科學發展

中國科學院科學資料中心體系。為落實《科學資料管理辦法》,2019 年 2 月中國科學院出台《中國科學院科學資料管理與開放共享辦法》,并啟動建設了以“總中心-學科中心-所級中心”三類科學資料中心為核心,安全體系、運作體系和評價體系共同保障與驅動的一體化科學資料中心網絡。初步建成中國科學院科學資料中心體系(表 2),在支援大陸科技創新方面取得了積極成效,在支撐國家重大戰略、重大工程建設中發揮了積極作用。

加強開放資料基礎設施建設,推動開放科學發展

大陸開放資料基礎設施發展面臨的挑戰

大陸早期的開放資料基礎設施可靠性較差,且相對孤立。過去 20 年間,國家重點鼓勵建立資料門戶,重點解決科學資料的“可檢索、可浏覽、可共享”的共性基礎問題,在開放資料公共平台和配套設施建設方面取得了較大的進展。但總體來看,在促進資料重用、促進科研創新和社會開放創新等方面仍面臨巨大挑戰。具體存在 4 個方面的問題。

目前建設規模不能滿足日益增長的資料管理和使用的需要。從建設規模和财政資金投入而言,目前較為重視的仍然是大科學裝置層級或國家級資料基礎設施的建設,還無法滿足整個科技界乃至社會對開放科學資料管理和使用的需要。

現有标準體系和技術能力仍無法滿足建設需求。目前,針對大資料管理和處理标準、算法及工具層出不窮,但建設滿足各類需求的開放資料基礎設施挑戰仍然很大,包括:①缺乏有效的标準體系和查詢手段;②缺乏對體系架構的标準化模組化,導緻不同學科不同行業的資料很難重用,系統間內建和互通困難;③缺乏對資料管理标準化環節的重視;④缺乏有效的标準使用和更新指南,導緻曆史遺留系統和新系統之間的相容較為困難。

建設模式單一,支援資料整合、資料分析和支撐科技決策的功能較弱。目前,國内開放資料基礎設施的資金來源單一,跨部門跨領域的合作少,存在自成體系或者重複建設的情況。開放資料基礎設施目前主要支援對同領域同類型的資料整合功能,而對不同領域來源的不同類型的資料集進行整合、協同資料分析和支撐科技決策的功能較弱。

在科學資料長期儲存和再利用方面缺乏整體規劃。大陸大科學裝置産生的科學資料規模巨大,長期利用價值高。尤其是在大科學裝置或大科學項目結束運作後,需要有效的資料儲存與管理、軟體與計算支撐、完善的技術檔案來確定科學資料的長期可用。目前除少數領域開始研究制定長期儲存和再利用的規劃外,大陸還缺乏相關的整體規劃。

除上述問題外,大陸對開放資料基礎設施建設的政策尚缺乏系統性設計和全方位考慮,各級政府、各類機構釋出的相關政策意見主要側重于“硬”條件的建設,而對“軟”内容建設的重視和支援不足。

加強大陸開放資料基礎設施建設的思考與建議

開放科學資料需要強大的、可持續的基礎設施和健全的政策制度支援,開放資料基礎設施的實施路徑應以充分挖掘資料價值為目标,使資料“存得下、流得動、用得好”。針對大陸開放資料基礎設施建設,提出以下 4 點建議。

加強頂層設計,統一規劃布局開放資料基礎設施建設,建立綜合性的國家資料中心和國際資料中心

開放資料基礎設施外延廣、内涵豐富,需要加強國家層面的頂層設計和實施路徑規劃,以保障開放資料基礎設施政策制定的連貫性和可操作性。

建議:開放資料基礎設施的建設應以開放資料平台建設為核心。開放資料平台以資料為主體,通過高度融合存儲、計算、網絡和軟體資源,實作開放資料的最大價值的挖掘。一方面,統籌開放資料平台建設,研究确立開放資料平台的整體架構、服務體系、認證标準和評價機制;另一方面,重視開放資料平台的可持續發展,從制定差異化資料政策、提供資料采集和使用的評價、提供支援服務3個方面入手,進一步優化投入機制,鼓勵引導不同創新主體參與資料發展,形成以國家、部委和國家資料中心運作機構投入為主導,多元化投入相結合的資料資源建設和服務運作的資金保障體系,確定開放資料平台的可持續發展。開放資料基礎設施建設有助于打破資料壁壘。大陸現有開放資料基礎設施主要集中在各類學科資料中心或共享平台,不能适應以大資料、物聯網、人工智能為代表的新技術革命蓬勃發展,無法加速多領域科學資料交叉應用和向現實生産力的轉化。建設綜合性基礎性國家資料中心和國際資料中心是必然的解決途徑。可持續發展大資料國際研究中心已經進行了先行探索,并取得了顯著成效,為推動大陸的開放資料基礎設施的跨越式發展提供了經驗積累。

堅持合作開放的科學資料基礎設施雲建設-雲安全-雲應用的實施路徑

開放資料基礎設施能有效提升科研的效率、參與度與可見性,加強科研品質與嚴謹度,促進科研團隊跨學科合作。2019年,在CODATA北京會議上,中國科學家代表提出協作共建“全球開放科學雲”(GOSC)的倡議,目前已與全球主要資訊基礎設施和國際組織、平台達成廣泛共識并建立定期對話機制,研發建構了首個中歐跨洲際雲聯邦實驗床。

建議:未來,大陸應在國際大科學計劃、大科學裝置的牽引和推動下,充分發揮大陸具有明顯優勢的資料資源的主導作用,着力推動相關資料分析方法及工具集合的研發,加強與國際組織、國家之間的溝通交流和教育訓練,積極參與并推動國際層面的資料共享與合作應用;同時,應充分發揮中國科學院開放基礎設施的引領和推動作用,合作建立國際共享的開放資料雲服務體系。

營造融通資料生态,發展基于開放科學的創新驅動發展的範式

以開放資料擷取為前導發展起來的開放科學和公民科學,與可持續科學密切相關。面向發展與合作,科技創新應該主要展現在将科技進步用于創造新需求、新應用、新業态和新市場,同時創新科技合作模式。

近年,歐美等國新布局的一批科學資料基礎設施呈現問題導向、打破科學資料學科領域邊界的趨勢。例如,融合神經科學、分布式計算技術的歐洲腦研究基礎設施;支援能源消耗和綠色交易的歐洲計算/通信實驗大型研究基礎設施等。這些設施有望充分調動多領域資料資源,融合自然科學各領域、自然科學與社會科學,成為推進交叉融合和跨領域互操作的先行者,營造跨學科、跨尺度、跨時空的科學資料共享生态。

建議:鼓勵發起和建設科學、社會問題導向的科學資料基礎設施,調動盤活多學科、跨領域的科學資料資源,為解決大規模、複雜性科學問題和社會挑戰提供支撐。

發展基于開放科學的創新驅動發展的範式,重塑國際科技合作治理模式

開放科學有利于新科技革命和産業變革突破經典技術極限,形成新規則、新政策、新評估标準和新名額體系。開放科學通過對科學技術的兼收并蓄,耦合了不同地域、不同領域、不同團隊的科研優勢,利于促進全人類都能夠站在巨人肩膀上做科研,形成累積效應。開放科學資料是實作開放科學的基本條件之一。秉承開放科學理念,有利于迅速提升大陸科研實力。

開放資料基礎設施作為開放科學資料的載體,可為政策制定者提供更為全面的綜合資料和資訊,為全球性挑戰的綜合政策制定提供方案,同時也可為科研人員的跨領域、跨區域合作提供新路徑。

建議:遵循從開放資料到開放科學的發展潮流,利用雲計算、大資料、區塊鍊等先進技術與方法,将人工智能賦能大資料,打造集資料-計算-服務于一體的資料共享新模式,促進多學科資料關聯分析和資訊融合,深化多領域資料的綜合應用,驅動重大科學發現與決策支援。

(作者:郭華東、闫冬梅、何國金、梁棟、孔玲贻,可持續發展大資料國際研究中心、中國科學院空天資訊創新研究院;陳和生、陳剛,中國科學院高能實體研究所;黎建輝,可持續發展大資料國際研究中心、中國科學院計算機網絡資訊中心;馬俊才,中國科學院微生物研究所。《中國科學院院刊》供稿)

繼續閱讀