大資料技術前瞻
梅宏1,杜小勇2,金海3,程學旗4,5,柴雲鵬2,石宣化3,靳小龍4,5,王亞沙1,劉馳6
1. 高可信軟體技術教育部重點實驗室(北京大學);
2. 中國人民大學資訊學院;
3. 華中科技大學計算機科學與技術學院;
4. 中國科學院計算技術研究所;
5. 中國科學院大學計算機科學與技術學院;
6. 北京理工大學計算機學院
摘要:世界主要國家高度重視大資料發展,大陸也将發展大資料作為國家戰略,發展大資料技術具有重要意義。大資料技術涉及從采集、傳輸到管理、處理、分析、應用的全生命周期以及生命周期各階段的資料治理。選取資料生命周期中的管理、處理和分析技術以及大資料治理技術來梳理國内外技術發展現狀,特别是研判大陸大資料技術發展與國際先進技術之間的差距。另外,在大資料應用需求的驅動下,計算技術體系正面臨重構,從“以計算為中心”向“以資料為中心”轉型,在新的計算技術體系下,一系列基礎理論和核心技術問題亟待破解,新型大資料系統技術成為重要發展方向。在計算體系重構的背景下,提出大資料技術發展的四大技術挑戰和十大發展趨勢。
關鍵詞:大資料技術;大資料管理;大資料處理;大資料分析;大資料治理
論文引用格式:
梅宏, 杜小勇, 金海, 等. 大資料技術前瞻[J]. 大資料, 2023, 9(1): 1-20.
MEI H, DU X Y, JIN H, et al. Big data technologies forward-looking[J]. Big Data Research, 2023, 9(1): 1-20.
0 引言
世界主要國家高度重視大資料發展,大陸也将發展大資料作為國家戰略。2015年8月,國務院印發了《促進大資料發展行動綱要》(國發〔2015〕50号),明确提出"資料已成為國家基礎性戰略資源"。2016年3月,《中華人民共和國國民經濟和社會發展第十三個五年規劃綱要》正式提出“實施國家大資料戰略"。2017年10月,黨的十九大報告中提出加快推進大資料與實體經濟深度融合發展。2017年12月8日,在中共中央政治局第二次集體學習時,習近平總書記發表講話,做出了“大資料是資訊化發展的新階段”這一重要論斷,要求“審時度勢精心謀劃超前布局力争主動,實施國家大資料戰略,加快建設數字中國"。黨的二十大報告指出數字技術與實體經濟深度融合具有重大意義。
大資料技術鍊條長,從采集、傳輸到管理、處理、分析、應用,形成一個完整的資料生命周期,同時在多個階段涉及資料治理。由于資料采集用到的傳感器技術和資料傳輸依賴的通信技術分别屬于基礎器件和通信學科領域,本文不涉及這兩類技術。同時,大資料應用面比較廣,應用發展狀态不是技術問題,故本文也不涉及。另外,雖然大資料的發展已經經曆了10多個年頭,在一些應用領域(特别是網際網路領域)取得了較好的成效,但是總體而言,大資料基礎理論和核心技術仍不成熟,大資料治理體系遠未建立,大資料發展仍然處于初級階段。是以,為了更好地發展大資料技術,本文聚焦資料生命周期中大資料管理、處理、分析和治理4類技術,梳理國内外技術發展現狀,特别是亟須清楚研判大陸大資料技術發展與國際先進技術之間的差距。此外,資訊技術發展的主流一直是以計算為中心的,資料僅作為輸入和輸出圍繞着計算任務組織,資訊系統設計和優化的核心目标是計算效能的提升。随着資料體量的快速增長,以計算為中心的技術體系開始顯現出弊端,算力增長難以跟上資料規模的增長,形成“剪刀差”。近年來,一種以資料為中心的新技術體系日益受到關注,有望成為縮小"剪刀差"的突破點。一些具有潛力的創新技術已經出現了,包括:在算法理論體系上,從由多項式精确算法主導演變為由亞線性機率近似算法主導;在大資料方法體系上,從經驗沉澱驅動演變為資料模型驅動,從單純依賴機器發展到“人在回路”的協作計算模式;在大資料系統結構上,通過以資料為中心的泛在作業系統,圍繞着資料間的互操作,高效組織廣域計算資源等。是以,在大資料應用需求的驅動下,計算技術體系正面臨重構,從“以計算為中心”向“以資料為中心"轉型。在新的計算技術體系下,一些基礎理論和核心技術問題亟待破解,新型大資料系統技術成為重要發展方向,同時面臨以下四大挑戰。
挑戰一:如何建構以資料為中心的計算體系。全球大資料規模增長快速。2020年全球新增資料規模為64ZB,是2016年的400%,預計2035年新增資料将高達2140ZB,資料量呈現指數級增長。随着數字經濟的發展和數字化轉型的深入,愈來愈多的資料資源正以資料要素的形态獨立存在,并參與數字經濟活動的全過程。是以需要建構以資料為中心的新型計算體系,以适應新的應用環境。如何組織和管理超大規模的資料要素已經成為一項難題,如大資料管理面臨着資料跨域通路帶來的各種問題、系統規模持續增大帶來的可用性下降、維護大規模資料帶來的成本和能耗持續增高等嚴峻挑戰。
挑戰二:如何滿足大資料高效處理的需求。資料規模呈指數級增長,資料動态傾斜、稀疏關聯、應用複雜,傳統大資料處理架構處理成本高、時效性差,如何滿足規模海量、格式複雜、需求多變的大資料高效處理需求是大資料處理面臨的重要挑戰。
挑戰三:如何實作多源異構大資料的可解釋性分析。随着資料量持續地爆炸式增長和各類應用的不斷拓展與深化,基于深度學習的主流方法因其僅關注單源單模态資料且模型隻知其然不知其是以然的特性,已無法滿足發展需求。如何打破資料多源異構造成的隔閡,融合多域甚至全域資料中蘊含的知識,實作分析結果的可解釋,進而提升其可用性,是目前大資料分析面臨的主要挑戰。
挑戰四:如何形成系統化大資料治理架構與關鍵技術。針對大資料應用過程中的對資料彙聚融合、品質保障、開放流通、标準化和生态系統建設的需求,大資料治理技術逐漸成為發展熱點。然而目前系統化的大資料治理架構尚未形成,開放共享、品質評估、價值預測等關鍵技術遠未成熟,這成為制約大資料發展的主要瓶頸。
本文在計算體系重構的背景下,對大資料管理、處理、分析和治理4個方面的主要技術挑戰、國内外研究現狀與差距做出研判,并提出大資料技術發展的十大趨勢。
1 大資料管理技術
1.1 主要技術挑戰
大資料管理是大資料生命周期中的重要環節。大資料管理技術主要包括大資料的組織、存儲、計算與通路等相關技術。盡管資料管理技術與系統已經經曆了近60年的發展,但由于大資料具有超大規模、高速增長、類型多樣、高複雜性等特點,大資料管理仍然面臨諸多嚴峻挑戰,特别表現在以下3個方面。
(1)高性能挑戰
一直以來,追求資料通路的高性能是資料庫系統的核心問題。随着摩爾定律接近終結,傳統硬體性能提升乏力。在資料規模高速增長的情況下,大資料管理遇到的高性能挑戰更加突出,迫切需要尋找性能提升的新驅動力,尤其是要充分利用近年來發展迅速的各種新硬體和人工智能技術,最大限度發揮異構架構帶來的機會。
(2)可用性挑戰
資料管理系統是大資料産業的核心基礎設施,是以其可用性至關重要。大資料規模呈現指數級高速增長,大資料業務環境也非常複雜,大資料管理系統往往規模極大且具有很高的複雜度,是以各類錯誤發生的機率顯著提升,可能導緻服務中斷、無法保證正确性,甚至可能存在惡意節點引發虛假消息或資料篡改等嚴重問題。這給大資料管理系統的可用性帶來更大的挑戰。
(3)能效挑戰
目前維護和管理超大規模資料的能耗占比已經很高。現有技術往往以性能提升為導向,能效不高,是以面向快速增長的大資料,迫切需要發展和應用高能效大資料管理技術。
1.2 國内外研究現狀與差距比較
新一代大資料管理技術的創新發展主要圍繞高性能、高可用、高能效3個方面展開。
在高性能大資料管理領域,新的性能提升動力主要包括新硬體和人工智能驅動兩個途徑。在新硬體方面,美國在記憶體資料庫并發控制、非易失存儲器(nonvolatile memory,NVM)資料管理、GPU資料庫、異構計算資料庫等方面的技術和産品均處于領先地位,德國的SAPHANA是高性能資料庫的代表之一。大陸在NVM、遠端直接記憶體通路(remote direct memory access,RDMA)、超文本标記語言(hyper text mark-up language,HTM)等新硬體資料管理技術方面也提出一系列先進的創新成果,如上海交通大學的RMDA和HTM結合方案,以及中國科學院計算技術研究所的NVM日志與恢複方法等。在人工智能驅動的高性能大資料管理方面,美國率先提出學習索引、Self-Design等技術,微軟、甲骨文、亞馬遜等企業已在資料庫産品中使用智能驅動技術。大陸在學習索引、自動調優、智能查詢優化、智能資料分區等領域的創新也非常活躍,如阿裡巴巴、華為、騰訊等企業的資料庫産品加入了資料自動調優、自動運維等自治技術,清華大學等高校提出一系列AI4DB創新技術。
在高可用大資料管理領域,資料備援是應對軟硬體錯誤的主要手段,核心技術是分布式共識和分布式事務處理,難點在于同時實作高可用和高性能。美國是該方向的引領者,核心算法和最早的系統都來自美國。國内阿裡巴巴、清華大學、上海交通大學、中國人民大學等在核心的分布式事務和共識協同優化技術等方面取得了系列創新成果。國産資料庫PolarDB、TiDB等可用性水準已達到國際一流水準。另一類可用性問題是網絡中部分節點存在惡意,如發送虛假消息或篡改資料等。目前國際主流應對技術是區塊鍊,主要發展趨勢是通過公鍊和聯盟鍊互相融合、适度降低安全性要求等方式提升區塊鍊的性能。大陸的區塊鍊大資料管理技術發展和應用已接近國際一流水準,國産聯盟鍊系統(螞蟻鍊、騰訊區塊鍊和百度超級鍊等)每秒交易量均超過1萬,并在區塊鍊發票、區塊鍊司法存證、區塊鍊物流溯源等領域廣泛應用。
在高能效大資料管理領域,雲資料管理技術通過資源共享、資源排程來顯著減少硬體資源和能源的消耗,并使用低功耗硬體和資料壓縮等軟體方法進一步降低能耗。美國的亞馬遜和Snowflake分别是聯機事務處理(on-line transaction processing,OLTP)和聯機分析處理(on-line analysis processing,OLAP)領域雲資料庫的全球引領者;美國亞馬遜、谷歌、微軟、Meta等公司率先探索基于異構硬體和壓縮的低功耗資料管理技術。而國内的高能效雲資料庫技術發展非常快,已與美國技術水準接近,如阿裡雲的PolarDB 率先提出分離記憶體技術,中國人民大學等高校也通過異構計算和壓縮資料直接計算方式建構了新型高能效資料管理引擎。近年來,國内外在雲資料管理的基礎上探索國家範圍内的一體化高能效資料管理,例如美國蘋果、谷歌等公司通過智能編排,将資料智能地在多個資料中心進行分布和計算,降低總體能耗。大陸提出了算力網絡的概念和國際标準,正式啟動“東數西算”工程,充分利用中西部地區的氣候、能源等優勢,在全國布局算力網絡國家樞紐節點,并逐漸在人工智能、圖像渲染、金融和政企業務等領域應用。大陸在高能效一體化資料管理技術方面走在世界前列。
綜上所述,近年來大陸大資料管理技術和産品的發展都非常快,如在聯機事務處理基準測試TPC-C排行榜中,OceanBase以707351007tpmC的性能排名世界第一,打破了甲骨文等國外公司長期壟斷的局面。大陸大資料管理技術與國外頂尖水準(絕大部分情況指美國)雖然存在一定差距,但大部分領域的差距并不大,具備趕超的機會;在高能效一體化大資料管理等領域,甚至有局部領先。
1.3 小結
美國在新一代大資料管理技術方面仍處于全球領先和主導地位;歐盟在部分領域的産品和創新技術上有一定優勢;日本、俄羅斯等其他國家相對而言在技術、産品和生态上均缺乏優勢。而大陸大資料管理技術進步非常快,在大陸大規模市場的培育下,頭部企業的産品能力和頂尖高校的創新能力已經達到或接近國際一流水準,明顯超越日本、俄羅斯等國家一些領域的技術創新也領先于歐洲,與美國的差距在迅速減小;尤其是在高能效一體化大資料管理等領域,大陸已經在國際上搶先一步發展。
2 大資料處理技術
2.1 主要技術挑戰
大資料管理是大資料生命周期中的重要環節。大資料管理技術主要包括大資料的組織、存儲、計算與通路等相關技術。盡管資料管理技術與系統已經經曆了近60年的發展,但由于大資料具有超大規模、高速增長、類型多樣、高複雜性等特點,大資料管理仍然面臨諸多嚴峻挑戰,特别表現在以下3個方面。
過去10年,資料規模呈指數級增長,資料處理的時效性問題成為大資料處理系統面臨的 核心問題。同時資料應用蓬勃發展,資料深度價值挖掘、資料實時處理等新型處理需求進一步提高了資料處理複雜度,大規模資料處理系統中資料動态傾斜、稀疏關聯、超大容量等特征給系統帶來資源效率低、時空開銷大、擴充困難等嚴重問題。作為大資料領域典型關聯關系的圖資料,由于其不規則資料通路、計算-訪存比小、依賴關系複雜等特點,給現有大資料處理架構帶來了并行流水執行效率低、訪存局部性低、内外存通道使用率低和鎖同步開銷大等技術挑戰。
2.2 國内外研究現狀與差距比較
大資料處理通常有兩種方式,一種為離線處理模式,另一種為線上處理模式,與之對應的系統為批處理系統和流處理系統。同時作為網際網路以及科學計算領域重要的資料形态,圖資料因其結構特殊,多采用專用系統處理。本節将從批處理、流處理以及圖計算3個方面進行比較。
(1)批處理
作為最早的大資料處理模式,從谷歌公司提出MapReduce模型開始,美國一直引領該領域的發展。近10年,從開源Apache Hadoop到美國加州大學伯克利分校的AMPLab研發的Spark系統,在技術生态上完全诠釋了大資料處理從“擴充性優先”設計到“性能優先”設計的過渡,大幅提升了大資料的處理性能,同時也為更多類型的大資料處理業務(如資料挖掘、機器學習等)提供了支援。為了更好地支撐分布式AI應用,同樣由美國加州大學伯克利分校上司的AnyScale公司提出了Ray架構,通過動态定制計算依賴,取得了比Spark更優異的計算性能。另外,異構計算成為大資料處理系統時效性提升的重要手段。美國NVIDIA公司牽頭針對不同應用領域,開源了RAPIDS GPU資料科學庫,記憶體計算之類的近資料處理方法在體系結構領域獲得廣泛關注。
大陸過去10年在大資料處理系統領域也取得了巨大進展,尤其以大型網際網路企業為代表,如阿裡巴巴自研的MaxComput引擎可提供高效的資料處理功能,在大型網際網路企業的資料倉庫和BI分析、網站的日志分析、電子商務網站的交易分析、使用者特征和興趣挖掘等領域獲得較好應用。此外,阿裡雲基于Flink開發了Blin系統,實作了流處理和批處理的統一,在批流融合相關技術名額方面達到了國際領先水準。在學術界,國内在大資料處理的單點技術突破上也取得了系列進展,如上海交通大學的EspressoBe、華中科技大學的Deca系統性能大幅領先國際同類系統。目前大陸的多數大資料批處理系統還是建立在國際開源的基礎之上的,自研系統國際占有率非常有限,整體技術水準仍有較大差距,生态差距更大。
(2)流處理
國際上現有流處理系統按體系結構劃分主要可分為并行流處理系統、分布式流處理系統。采用分布式叢集架構的分布式流處理系統成為目前國際上流處理系統的主流,近年來發展出圍繞Storm、Flink、Spark Streaming等開源系統的軟體生态。為了提高分布式流處理系統的性能,現有工作主要采用資料并行、流水線并行等技術提升系統性能。資料并行主要充分利用單個計算節點上的多核并行資源,對部署到某個計算節點的具體的計算階段進行多執行個體并行化,進而充分發揮多核資源的并行性,提高系統的吞吐率。資料并行優化方面的代表性工作是Nasir等人提出的PKG(partial key grouping)資料劃分政策,該政策解決了系統由動态傾斜性帶來的負載不均問題,提升了系統的資源效率,并被Apache的Storm開源項目采納內建。流水線并行的主要思想是将流處理的計算邏輯分解為多個階段,将不同的計算階段部署到分布式叢集中的不同計算節點上,通過流水線技術提高系統資源并行效率,進而提升系統的整體性能。流水線并行方面的代表性工作是Abdelhamid等人提出的Prompt系統。
國内流處理系統方面主要基于現有國際開源的相關工作進行優化改進。阿裡巴巴通過收購德國創業公司Data Artisans,購入了Apache Flink,并進行了若幹優化改進,目前絕大部分阿裡巴巴的業務跑在流處理平台上。資料并行方面的典型系統工作是PStream,該系統基于Apache Storm平台對高頻的鍵值使用輪詢劃分的方式平衡負載,同時對低頻的鍵值使用哈希劃分的方式避免額外的資料聚合開銷。相比于國際上最新的PKG系統,PStream 将系統吞吐率提升了2.3倍,處理時延縮短了64%。PStream在華為公司有所應用,但在開源社群的推廣方面不及PKG系統。在流水線并行方面,目前國内研究較少。同時,由于現有系統多基于國際開源軟體架構,國内的流處理系統研究也承襲了現有國際開源架構的弊端,如難以針對多語義查詢進行靈活部署等。
(3)圖計算
圖計算技術是由谷歌公司首次提出的。為了支援分布式圖計算,谷歌公司設計了國際上首個分布式圖計算系統Pregel。該系統将疊代圖算法表示為簡單程式設計的多次疊代,以簡化分布式圖計算應用的開發和在底層分布式平台上的高效執行。後續國外研究團隊也提出了諸多軟體和硬體優化技術來提高圖計算性能。例如,為了支援PC上的圖計算,國外研究團隊研發了首個單機圖計算系GraphChi,其采用并行滑動視窗技術,大幅降低外存的亂序通路次數。普林斯頓大學的研究人員研發了首個面向圖計算的專用加速器Graphicionado,其将以頂點為中心的程式設計模型中的功能子產品抽象為相應的流水線階段,在保證通用性的同時,顯著提升了圖計算指令效率。
相比而言,國内研究團隊在圖計算領域起步略晚,但随着國内網際網路行業和技術的迅猛發展,國内圖計算市場需求日益高漲。“十三五”期間,大陸科技部啟動了“面向圖計算的通用計算機技術與系統”項目。國内一批研究人員在圖計算領域進行了深入研究和大量攻關工作,提出了多種高性能圖計算系統和圖計算硬體加速器。清華大學研究團隊開發的基于神威·太湖之光的超大規模圖計算系統“神圖”系統入圍國際超算大會戈登貝爾獎。華中科技大學研發的DepGraph斬獲2021年11月國際Green Graph 500和Graph 500榜單兩項全球第一,基于鵬城雲腦II系統研發的圖計算系統再次獲得2022年11月Graph 500 SSSP性能第一。随着國内圖計算技術的迅猛發展,國内圖計算研發能力在圖計算的理論研究、系統研發和體系結構設計方面均已達到世界前列。
2.3 小結
作為大資料技術生态的重要一環,大資料處理技術在過去10年飛速發展,尤其因為其巨大的産業需求,國際、國内大型企業均投入了大量人力、物力參與研發,技術生态上依舊蓬勃。大陸在該領域發展迅速,但後發特征明顯,單點技術突破較好,整體生态與歐美差距較大,缺乏生态引領系統出現。在批處理系統、流處理系統上,大陸基本以國外開源跟蹤改進為主,圖處理技術由于與國際發展時間基本同步,國内有部分系統與國際同類系統處于同一技術水準。
3 大資料分析技術
3.1 主要技術挑戰
大資料分析技術旨在實作從資料到資訊再到知識甚至到決策的價值轉換。近年來,大資料分析技術迅猛發展,性能和效率均取得了顯著的提升,并促進了相關行業或産業的智能化發展。例如,基于深度學習的蛋白質折疊分析技術幫助生物學取得了重大進展;金融資料分析技術幫助銀行業大幅降低了金融欺詐的風險。然而,廣泛深入的應用在給大資料分析技術的發展帶來更高的需求的同時,也使其面臨着更深層的挑戰。首先,大資料分析的對象逐漸從相對小規模、單模态的資料轉變為大體量、多模态的資料,如何對大規模異構多模态資料進行融合分析?其次,單一來源的資料往往體量較小或統計分布的代表性不夠,相應分析模型的性能受到制約,如何在保護資料安全與隐私的前提下進行多方資料的聯合學習與分析進而實作資料價值的最大化?最後,諸多應用不再滿足于對大資料相關性的簡單模組化與分析,更期待能夠挖掘現象背後的因果規律,如何通過因果推斷滿足分析技術在可解釋性、穩定性、公平性以及可回溯性等方面的更高需求?
3.2 國内外研究現狀與差距比較
針對前述3個方面的挑戰,本節對國内外相應的研究現狀進行了梳理,并比較了差距。
随着資訊技術的飛速發展,多模态資料已成為資料資源的主要形式,國内外研究者近些年對多模态資料融合分析給予了高度關注,也取得了顯著研究成效。目前,國際上多模态技術的頂尖研究團隊有卡内基梅隆大學的MultiComp Lab和麻省理工學院的Synthetic Intelligence Lab等。這些團隊在AAAI、ICLR等相關領域的國際頂會上發表了諸多突破性成果。除此之外,微軟2022年提出通用多模态基礎模型BEiT-3 它在視覺和視覺-語言任務上都實作了當時最先進的遷移性能。同年,谷歌提出了多模态大模型PaLI,在多語言圖文資料上進行訓練,效果超過了BEiT-3。目前,多模态技術已在軍事、交通等領域得到了越來越深入的應用。例如,美國桑迪亞國家實驗室提出了多模态的軍事概念裝備。緊跟國外研究的步伐,國内研究團隊也加快了對多模态資料分析技術的攻關,并取得了一些突破性成果。例如,2021年,中國科學院自動化研究所研發了全球首個三模态大模型“紫東太初",并在2022年的世界人工智能大會上獲得最高獎項。在應用方面,國内将多模态技術與商業、醫療等領域進行了有效結合。例如,地平線的多模語音算法團隊在2020年長安UNI-T車型上實作大規模量産,是全球首個能夠在端上實時預測并實作大規模量産的團隊。綜合來看,國内的多模态技術在基礎理論和核心技術方面與國際先進水準還存在着一定的差距,但是與具體應用領域結合較好,有效實作了科技成果的落地轉化。
随着資訊化程序的發展,各個企業或同一企業的不同部門生産并存儲了大量應用資料,跨部門、跨機構的資料流通與共享能夠更大程度地挖掘資料的潛在價值。然而,資料的流通共享受到資料安全、商業機密、個人隐私等多方面的嚴格限制。為了應對上述問題,2016年谷歌提出聯邦學習(federated learning)的概念,用于解決多方資料聯合學習與分析的挑戰,并推出TensorFlow Federated聯邦學習開源架構,引起學術界和工業界的強烈關注。除此之外,Open Mind推出的Pysyft聯邦學習架構能夠與主流深度學習架構相容,熱度居高不下。目前,聯邦學習已經得到一定程度的領域應用。蘋果公司将聯邦學習應用在IOS 13跨裝置QuickType鍵盤"Hey Siri"的人聲分類上;NVIDIA公司推出了NVIDIA Clara醫療學習平台,将聯邦學習技術應用在醫療領域。在國内,微衆銀行AI團隊2018年系統性地闡述了聯邦學習理論,其能夠保證各企業在自有資料不出本地、不違規的前提下進行聯合模組化,大幅提升了機器學習模組化的效果,之後微衆銀行AI團隊又于2019年開源了首個工業級聯邦學習技術架構FATE,受到廣泛關注。此外,近幾年,百度推出了開源聯邦學習架構PaddleFL,阿裡巴巴利用聯邦學習等隐私計算技術推出了DataTrust平台,二者均在自然語言處理和推薦算法等領域進行了落地實踐。綜合來看,大陸相關團隊與企業已成為聯邦學習技術的重要貢獻者,積極參與到聯邦學習技術的研發與标準的制定中。
現有大資料分析技術在穩定性、可解釋性、公平性、可回溯性等方面存在着天然不足,主要原因是現有技術往往隻關注變量統計意義上的相關性分析與模組化,而這其中勢必存在不符合變量因果規律的僞相關。因果推斷技術旨在發現變量之間的因果規律。現有最主流的因果模型為潛在結果架構和結構因果模型,兩個模型分别由美國科學家Rubin和美國以色列裔科學家Pearl J等人提出。他們都認為因果關系指的是兩個事物之間改變一個是否能夠影響另一個的關系。Pearl J等人提出了“因果之梯”的概念,自下而上将問題劃分為關聯、幹預和反事實3個層次,分别對應于觀察、行動和想象3類活動。而回答因果問題需要借助幹預或者反事實。基于這兩個主流的因果模型,微軟等外國公司在積極探索因果相關的研究。國内因果相關研究起步較晚,但發展較快。清華大學Cui P等人提出了穩定學習的概念,在傳統機器學習架構下通過引入因果推斷技術,尋求資料中的“不變性機制”。中國科學技術大學Zhang Y等人關注因果推薦系統相關的研究,嘗試挖掘使用者與商品之間的因果關系。南京大學Zhu Z M等人則關注因果強化學習的相關研究。綜合來看,因果推斷技術國外起步較早,并開創了奠基性的架構。國内研究雖然起步較晚,但相關研究的發展呈良好态勢。
3.3 小結
從上述分析可以看出,面向大資料分析前沿需求,以美國為代表的西方國家起步較早,在多模态資料融合技術、聯邦學習技術以及因果推斷技術的基礎理論和核心技術上已經形成了比較完善的分析和應用生态,且在諸多領域得到了廣泛應用。國内大資料分析技術在基礎理論和核心技術等方面不斷靠近國際先進水準,保持着快速發展的良好勢頭。
4 大資料治理技術
4.1 主要技術挑戰
在應用蓬勃發展的過程中,大資料面臨資料産權、交易流通、收益配置設定等一系列問題,進而使大資料治理逐漸成為各國關注的熱點,相關技術也發展迅速。大資料治理是以資料為對象,以最大限度釋放資料價值為目的,在確定資料安全的前提下,貫穿于資料全生命周期的由多方主體參與的共建共享共治的資料價值釋放的過程。大資料治理技術面臨的主要挑戰包括5個方面:一是彙聚融合,如何将海量、多源、分散、異構的資料彙聚融合成便于分析利用的資料資源;二是品質保障,如何評估大資料的品質、檢測及修正其中存在的錯漏,提升資料品質;三是開放流通,如何打通資料孤島,使資料可以突破原生資訊系統的邊界,通過開放流通形成更大範圍、更高價值的資料資源;四是資料安全與隐私保護,如何在釋放資料價值的同時保證資料不被破壞、洩露和濫用;五是标準化與生态系統建設,如何協調各利益方的訴求,建立共同遵循的資料标準體系,并促進形成大資料軟硬體生态系統等。
4.2 國内外研究現狀與差距比較
在大資料彙聚融合方面,圖靈獎獲得者Michael Stonebraker教授的研究最具代表性,其将大資料融合處理相關研究分為3代,分别解決傳統資料倉庫場景(十餘個資料源)、跨組織資料共享場景(數十個資料源)和資料湖場景(數百個資料源)的資料融合問題。相應的技術路線也存在顯著的差異,從第一代基于規則的ETL系統,到第二代基于機器學習的Data Curation系統,再發展到第三代機器驅動、人在回路的智能融合系統。清華大學圍繞物聯網場景,主導研發了Apache IoTDB,在國内外産生了一定的影響力;阿裡巴巴、華為、京東等企業提出了建設“資料中台",大資料彙聚融合作為資料中台的核心技術能力,在實踐中得到了創新發展。
在大資料品質保障方面,ACM/IEEE Fellow加拿大滑鐵盧大學教授Ihab Ilyas 研發了HoloClean系統,該系統主要解決關系資料的錯誤檢測和修複問題,在城市、醫療等領域的真實資料集上将資料品質提升了1~2倍。谷歌公司建構了Knowledge Vault系統,提出了知識融合方法,解決了網際網路事實抽取過程中的資料品質問題,建構了規模遠大于現有開源知識圖譜的結構化知識庫173。清華大學的相關學者提出了人在回路的資料品質提升方法,提出在算法的回路中優化地引入人的識别與推理能力,在提升資料品質的同時,有效地控制人工參與的成本。哈爾濱工業大學的相關學者提出了一系列的資料清洗方法,解決了工業時序資料場景下的錯誤檢測與修複問題,顯著地提升了資料品質。在工業界,阿裡巴巴公司推出了DataWorks全鍊路資料治理工具,華為公司推出數智融合系統,這些系統主要針對企業資料倉庫和資料湖的真實場景,通過資料模組化、資料內建、資料血緣等技術手段,支援面向資料全生命周期的品質保障能力。
在大資料開放流通方面,數聯網成為網際網路之上實作可信可管可控的資料互聯互通和大資料應用的核心技術。數聯網是基于軟體定義的,将各種異構資料平台和系統連接配接起來,在"實體/機器"網際網路之上形成的"虛拟/資料"網絡,它正在世界範圍内發展成為大資料時代的一種新型資訊基礎設施。目前最有影響力的數聯網技術路線是網際網路發明人、圖靈獎得主Robert Kahn提出的數字對象架構(digital object architecture,DOA),美國、英國、德國、俄羅斯、中國等國是DOA辨別解析系統Handle全球根節點的參與者。北京大學自主研發的"黑盒式"互操作技術及燕雲DaaS系統,提出颠覆式的資料互操作技術途徑——“黑盒”思路,消除了系統源碼、資料庫表、背景權限、原開發團隊等"白盒"依賴,資訊孤島開放效率得到大幅提升。在此基礎上,2018—2021年,北京大學、清華大學、中國科學院等,在科技部“雲計算與大資料”國家重點研發計劃專項的支援下提出了數聯網中國雲方案。中國資訊通信研究院于2018年開始建設相容DOA的國家工業網際網路辨別解析系統。大陸以DOA為代表的數聯網系統軟體方面取得了國際先進的技術成果。
在大資料安全與隐私保護方面,同态加密允許資料分析處理過程中,直接在密文資料上進行計算而無須事先解密,很好地解決了大資料價值利用與資料安全和隐私保護的沖突,近年來受到各界高度重視,從學術研究逐漸進入實際應用。2017年IBM、微軟、Intel、NIST的研究者主導創立了同态加密标注化委員會,緻力于研制同态加密安全性、API和應用的标準。安全多方計算在保持各方資料隐私的同時,使多方可以合作完成某個共同的計算目标。此項技術是密碼學的分支領域,在大資料應用的推動下逐漸成為熱點,特别是針對機器學習場景,谷歌率先提出聯邦學習概念,近年來得到快速發展。2020年美國Meta、日本NTT、中國阿裡巴巴等衆多企業共同建立了安全多方計算聯盟MPC Alliance,旨在推進安全多方計算的認知、接受和采用。
目前谷歌、OpenMind、LatticeX基金會,以及大陸的百度、位元組跳動等公司推出了各自的開源聯邦學習架構,該領域呈現出百家争鳴的态勢。
在标準化與生态系統建設方面,ISO/IEC JTC 1、ITU-T、IEEE等國際各大标準組織積極制定大資料相關标準,已形成包括參考模型、關鍵技術、安全隐私、領域應用等在内的比較全面的标準體系。大陸成立了大資料标準工作組與大資料安全标準特别工作組,現已釋出35項國家标準,并積極參與國際标準的制定。同時,圍繞大資料的開源軟硬體社群蓬勃發展,全球最大的代碼托管平台GitHub截至2020 年采用社交化方式彙聚了全球約1億代碼倉,以及近6 000萬名開發者,成為科技創新的強大引擎。開源硬體方面,OpenCores已經成為全世界最大的免費開源硬體IP核線上社群。在大資料開源軟體領域,截至2020年木蘭社群托管的代碼倉庫量超過1 500萬。在開源硬體方面,2007年美國賽靈思公司的大學計劃資助建立了中國首個開源硬體社群OpenHW。中國科學院的科學資料銀行、上海交通大學推動白玉蘭開放資料集社群做了很好的嘗試,已經産生影響力。
4.3 小結
大資料治理技術整體上尚不成熟,很多技術仍然處于探索階段。在大資料彙聚融合方面,對比美歐日俄,大陸的優勢在于資料資源豐富、政府推動有力、行業應用廣泛,這些為技術的創新發展奠定了良好的基礎。然而,大陸也顯示出單點研究居多、整體性的系統創新不足、研究比較分散、缺乏有影響力的主流系統、缺乏應用示範效應等不足。在大資料品質保障方面,大陸處于追趕狀态,差距主要展現為基礎理論薄弱、缺乏面向大資料全生命周期的統一的品質治理模型;缺乏可實作資料品質、治理成本、治理時延的統一優化的通用資料品質保障系統;缺乏尚無突破多組織跨轄域環境下的全鍊路資料品質追蹤與治理體系。在大資料開放流通方面,大陸的“黑盒”互操作技術和燕雲DaaS系統已成為打破資料孤島的“撒手锏”技術,達到國際領先水準;在此大陸已提出了數聯網中國雲方案,制定了DOIP新版标準,總體與國外處于技術并跑的階段。一批行業級和區域級數聯網基礎設施正在開展建設,使得大陸在數聯網應用方面取得國際領先地位。在大資料安全與隐私保護方面,大陸應用較多,基礎性、原創性成果不足,還有待大力發展;在标準化與生态系統建設方面,大陸緊跟國際發展前沿,大資料标準體系設計已基本形成,并在穩步推進中。大陸開源生态建設方面近年來雖然有所進展,但總體處于跟跑階段,部分大陸企業主導的開源項目(如華為CarbonData)嶄露頭角,但是大陸主導的生态系統尚未建立。整體上大陸資料治理技術發展較晚,體系遠未成形,技術産品生态仍由外國主導,同時在以數聯網為代表的資料開放流通技術方面與國際先進水準相當。
5 大資料技術的未來發展趨勢
在大資料應用需求的驅動下,計算技術體系正在重構,從“以計算為中心”向“以資料為中心”轉型,在新的計算技術體系下,一些基礎理論和核心技術問題亟待破解。本文提出新型大資料系統技術發展的十大趨勢。
趨勢一:資料與應用進一步分離,實作資料要素化。資料一開始是依附于具體應用的。資料庫技術的出現使得資料與應用實作了第一次分離。資料存儲在資料庫中,不再依賴具體的應用而存在。資料要素化的需求将推動資料與應用進一步分離,資料不再依賴于具體的業務場景,資料以獨立的形态存在于資料庫中,并通過資料服務為不同的業務場景提供服務。例如,人口資料庫可以為全部的涉及人口資訊的業務場景提供服務。
趨勢二:數聯網成為數字化時代的新型資訊基礎設施。将形成一套完整的數聯網基礎軟體理論、系統軟體架構、關鍵技術體系,包括:針對數聯網軟體以資料為中心的特點,需要從複雜網絡和複雜系統等複雜性理論出發,研究數聯網軟體的結構組成、行為模式和外在性質;針對數聯網軟體的資料傳存算一體化需求,需要采用資料互操作技術和軟體定義思想,研究數聯網軟體運作機理、體系結構與關鍵機制;針對數聯網軟體跨層級、跨地域、跨系統運作帶來的可靠性、可用性、安全性等品質挑戰,需要以資料驅動為手段,研究數聯網環境下保障服務品質與保護品質的原理、機制與方法。
趨勢三:從單域到跨域資料管理,促進資料要素的共享與協同。以資料為中心的計算的核心目标是資料價值的最大化,關鍵要打破"資料孤島",實作資料要素的高效共享與協同。傳統資料管理局限在單一企業、業務、資料中心等内部,未來大資料管理将從傳統的單域模式發展到跨域模式,跨越空間域、管轄域和信任域。但跨空間域會造成網絡時延較高且不穩定;跨管轄域會造成資料與應用異構,資料管理複雜度大大提升;跨信任域則要求具備容忍各類惡意錯誤的能力。跨域帶來的這些變化将為大資料技術帶來新的機遇和挑戰。
趨勢四:大資料管理與處理系統體系結構異構化日趨明顯。體系結構創新進入"黃金十年",圍繞不同資料處理特征的新型加速器(GPU、TPU、APU等各種xPU)層出不窮,存儲器件快速發展,高速固态硬碟(solid state disk,SSD)、新型非易失記憶體、新型計算網絡等成為大資料處理系統的重要硬體配置,計算與存儲的融合趨勢明顯。為了最大限度地發揮資料管理能力,大資料管理系統在存儲、網絡、計算等硬體上最大化挖掘新型硬體的處理能力。在處理上針對不同資料處理需求,配置不同計算與存儲硬體成為大資料處理系統的主流架構。資料驅動的計算架構快速發展,以資料流為中心的系統結構成為重要的系統設計理念。
趨勢五:擴充性優先設計到性能優先設計。資料規模急劇增長,大資料處理需求越來越走向深度價值挖掘,資料處理計算愈發密集,資料管理與處理的成本成為大資料管理與處理系統的重要考量因素,傳統“擴充性優先”的大資料處理系統設計将會被“以性能優先”的系統設計代替。Spark、Flink等系統在大資料處理生态系統中的占有率明顯展現了這一趨勢,圖計算(圖加速器、圖計算架構等)、深度學習架構(Tensorflow、PyTorch等)等領域專用大資料處理系統的崛起也是這一系統設計理念在技術生态上的表現。智能化資料管理、近似計算等新興管理和處理方法成為性能優先設計的重要技術手段。
趨勢六:近數處理成為突破大資料處理系統性能瓶頸的重要途徑。存算一體類體系結構技術快速發展,新型SSD等新型存儲赢家功能愈發豐富,分布式計算系統邊緣能力迅速發展。以上3種體系結構技術發展為大資料近數處理提供了良好的發展契機。近數處理展現在“存儲上移”(如在GPU、現場可程式設計門陣列(field-programmable gate array,FPGA)等計算裝置上內建HBM)、"算力下沉"(如在DRAM記憶體或者SSD儲存設備上內建處理能力)、“分布擴充”(如在雲、邊、端分布式處理資料,降低資料進行中心壓力)3個方面。
趨勢七:從單域單模态分析到多域多模态融合,實作廣譜關聯計算。傳統大資料分析技術大多僅聚焦于單一來源、單一模态的資料,而實際應用中往往要對來自不同來源、不同模态(如文本、圖像、音視訊等)的資料進行聯合分析,進而實作不同來源與不同模态資料之間的資訊互補。此外,諸多領域的大資料具有重要的時空屬性,目前研究對這類資訊的利用還不夠充分。是以,探究能夠跨模态關聯、跨時空關聯的廣譜關聯技術是大資料分析處理的一個重要趨勢。
趨勢八:從聚焦關聯到探究因果,實作分析結果可解釋。如何讓大資料分析模型更加穩定且具有可解釋性,進而使其分析結果對于使用者而言變得更加可信、更加可用最好還能具備一定的可回溯性,是大資料分析面臨的巨大挑戰。雖然因果推斷與可解釋性分析技術取得了一定進展,但總體來說尚處于起步階段,離實際應用還有很長一段距離。是以,從關聯到因果也是未來大資料分析技術的重要研究方向。
趨勢九:高能效大資料技術是可持續發展的關鍵。全球大資料量的持續高速增長,以及“碳達峰、碳中和”目标的提出,要求大資料技術棧必須走低碳高效、可持續發展的路線。例如雲資料管理系統以資源共享、節能高效為主要特點,将是未來大資料管理的主要基礎形态;在雲資料管理基礎上的全國一體化高能效大資料管理,由于算力和資料要素的大規模排程與流通,可以進一步成為未來大資料管理的主要方向,形成低碳發展新格局。
趨勢十:大資料标準規範和以開源社群為核心的軟硬體生态系統将成為發展的重點。随着大資料在各個領域應用的迅速普及,标準化需求将不斷增長,與大資料流動融合、品質評估,以及與行業、領域應用密切相關的大資料标準将成為發展重點。開源社群在大資料軟硬體生态建設中的地位不斷加強,對開源社群的主導權争奪将成為各國技術、産品和市場競争的重點。
6 結束語
在大資料應用需求的驅動下,計算技術體系正在重構,從“以計算為中心”向“以資料為中心”轉型,在新的計算技術體系下,一些基礎理論和核心技術問題亟待破解。本文提出新型大資料系統技術發展的十大趨勢。
回顧國内外大資料技術在管理、處理、分析與治理4個方面近10年的發展,可以看出:資料規模高速增長,現有處理計算能力已經成為瓶頸;資料成為生産要素,但資料價值釋放不充分;從産業生态重點的變遷看,呈現出“應用先于理論技術,市場先于标準法規”的現象。雖然大資料已經在一些應用領域(特别是網際網路領域)取得了較好的成效,但是大資料基礎理論和應用技術不成熟,大資料治理體系遠未建立。總體上,大資料發展仍然處于初級階段。
大陸在大資料發展方面取得了積極進展,但總體上較國際先進水準,仍存在差距。具體地,大資料管理技術大部分領域與國外頂尖水準基本相同或接近,其中高能效一體化大資料管理領域處于國際領先水準;大資料處理技術多數領域與國外頂尖水準尚存在技術差距,在資源和網際網路應用領域大資料處理技術應用較好,與國際最高水準基本持平;大資料分析的基礎理論與核心技術方面與國際先進水準還存在着一定差距,在商業等領域應用方面已超越國外;大資料治理技術整體上發展較晚,體系遠未成形,技術産品生态仍由國外主導,同時在以數聯網為代表的資料開放流通技術方面與國際先進水準相當。面向未來,在大資料應用需求的驅動下,計算技術體系有必要進行重構,以資料為中心的新型大資料系統技術成為重要方向,資訊技術體系将從“以計算為中心”向“以資料為中心”轉型,新的基礎理論和核心技術問題仍有待探索和破解。以大資料管理、處理、分析和治理為核心的大資料技術在原有通用計算體系上的持續優化仍有發展空間,以資料為中心的新技術體系将成為縮小大資料規模指數級增長與大資料計算需求和能力之間“剪刀差”的突破點。
作者簡介
梅宏,博士,北京大學教授、高可信軟體技術教育部重點實驗室(北京大學)主任,中國科學院院士,開發中國家科學院院士,歐洲科學院外籍院士,中國計算機學會理事長。主要研究方向為軟體工程與系統軟體。
杜小勇,博士,中國人民大學教授、校長助理,中國計算機學會大資料專家委員會主任,主要研究方向為資料庫與大資料。
金海,博士,華中科技大學計算機科學與技術學院教授,中國計算機學會副理事長,主要研究方向為計算機系統結構、并行與分布式計算。
程學旗,博士,中國科學院計算技術研究所研究員、副所長,主要研究方向為大資料分析系統、Web資訊檢索與資料挖掘等。
柴雲鵬,博士,中國人民大學資訊學院教授、計算機系主任,主要研究方向為資料庫系統、雲計算、存儲系統等。
石宣化,博士,華中科技大學計算機科學與技術學院教授,主要研究方向為并行與分布式計算、異構計算。
靳小龍,博士,中國科學院計算技術研究所研究員,主要研究方向為知識圖譜、知識工程、社會計算、社交網絡等。
王亞沙,博士,高可信軟體技術教育部重點實驗室(北京大學)教授,主要研究方向為大資料分析、普适計算、城市計算。
劉馳,博士,北京理工大學計算機學院教授、副院長,主要研究方向為大資料分析、智能物聯網。
聯系我們:
Tel: 010-81055490
010-81055534
010-81055448
E-mail:[email protected]
http://www.infocomm-journal.com/bdr
http://www.j-bigdataresearch.com.cn/
轉載、合作:010-81055307
大資料期刊
《大資料(Big Data Research,BDR)》雙月刊是由中華人民共和國工業和資訊化部主管,人民郵電出版社主辦,中國計算機學會大資料專家委員會學術指導,北京信通傳媒有限責任公司出版的期刊,已成功入選中國科技核心期刊、中國計算機學會會刊、中國計算機學會推薦中文科技期刊,以及資訊通信領域高品質科技期刊分級目錄、計算領域高品質科技期刊分級目錄,并多次被評為國家哲學社會科學文獻中心學術期刊資料庫“綜合性人文社會科學”學科最受歡迎期刊。
關注《大資料》期刊微信公衆号,擷取更多内容