天天看點

達摩院重要科技突破!空天資料庫引擎Ganos解讀

達摩院重要科技突破!空天資料庫引擎Ganos解讀

作者 | 謝炯

來源 | 阿裡技術公衆号

Ganos空天資料庫引擎是李飛飛帶領的達摩院資料庫與存儲實驗室研發的新一代位置智能引擎,采用了平台即服務、多模融合、計算下推和雲原生全新處理架構,為政府、企事業機關、泛網際網路客戶提供移動對象、空間/時空、遙感多模态資料混合存儲、查詢與分析服務,解決空天大資料使用流程複雜、使用門檻高、應用效率低等問題,主要應用于城市管理、交通物流、自然資源、航空航天、物聯資訊等領域。

一 研發背景

1 什麼是空天大資料

随着移動網際網路、位置感覺技術、對地觀測技術的快速發展,以移動對象、空間/時空、遙感為代表的空天傳感資料呈爆發式增長,成為新基建和數字化架構的重要基礎。

狹義上,空天資料(aerospace data)主要來自天基和空基,例如基于天基平台的GNSS(全球導航衛星系統)資料等,基于空基平台的航拍影像、視訊資料等。廣義上,我們将空天資料定義為涵蓋Spatial(空,即地理空間)和Space(天,即宇宙空間)的地海空天各類與位置相關資料,也即本文所述空天大資料。天問一号攜祝融号在火星的登陸将為我們傳來大量火星遙感影像和空間資訊,使大家最直覺地感受到來自地球之外的空天大資料。

以空天大資料助力疫情防控為例,我們可以利用人、車等移動對象的軌迹資料進行傳播源追蹤和疑似人群排查;利用海事通信衛星提供的AIS船舶動态資料分析疫情對港口貿易的影響等等。在這類複雜分析場景中,遙感影像、移動對象、物聯通信等新型空天傳感資料的快速擷取、存儲與高效查詢處理為智能輔助決策起到關鍵作用。

2 空天大資料面臨的挑戰

資料結構複雜多樣難以管理

相比文本型、圖檔型等非結構化資料,空天資料具有類型多樣、高度非結構化、大單體、多元度等特征,給一體化資料管理和高效查詢檢索提出了極大挑戰。例如:

  • 百萬點構成的超大複雜實體化對象,如長江/黃河、複雜建築、灌區等;
  • 千萬點構成的移動對象時空軌迹,如車、船、航空器等超長行程資料;
  • 萬億像素構成的大範圍高分辨遙感影像連續覆寫……

資料動态變化要求更高次元計算

傳統空間資料更多表達靜态地物,如河流、鐵路、建築等。随着移動APP和IoT等技術的普及應用,以時空移動對象(人、車、船等)為代表的動态資料越來越多。記錄位置的動态變化,需要系統提供時空模組化、時空索引和時空分析計算能力。

大資料和大計算場景性能不佳

非結構化、大對象和動态性決定了空天資料的潛在大體量,單表小則千萬級,大則百億級場景将不再是個别現象,是以,對系統的存儲成本、彈性能力、讀寫效率必将提出更高要求。當大規模資料要求提供線上化分析計算服務,傳統基于離線預處理(如離線切片)方式的生産和應用流程将面臨極大挑戰。

智能化需要多模态資料融合管理

文本、時序、時空、圖(Graph)等多模态資料融合管理和跨模查詢分析是智能化的重要基礎。單模态資料智能化無法有效支撐複雜業務知識發現并真正探尋事物發展規律和趨勢,是以,從局部模型專業化到全局多模通用化仍存在較大鴻溝,需要從基礎資料庫形态層面發展全新架構。

3 達摩院首創空天資料庫

針對此,達摩院研發新一代空天資料庫引擎Ganos,從資料庫與存儲最底層解決空天資料的一體化管理、快速交叉融合查詢以及高效分析處理挑戰,實作 “億級規模”地物多邊形全圖快顯通路、秒級效率的“千萬平方公裡”遙感影像時空動态拼圖等先進技術,具有“一體化融合管理、大規模彈性服務、核心技術自主可控”等優勢,可面向空、天、地、海全域空間應用,成為支撐天聯網和星雲産業發展的新型資料庫基礎設施。

二 空天資料處理架構演進

1995年,美國ESRI公司為了滿足2B市場需求,革命性地推出了空間資料引擎SDE——基于商業關系資料庫+中間件架構模組化我們的世界,影響了一代人。20多年過去了,随着Hadoop、Spark以及分布式資料庫技術的演進,分布式空間資料引擎近年來得到了快速發展,在一些大規模空間資料分析處理場景中發揮了獨特優勢。那麼,空間資料處理的下一站演進将去哪裡?

我們認為,将空天資訊處理融入PaaS服務(Platform as Services),以雲資料庫與存儲平台為核心解決空天資料的實時接入、高效存儲和彈性計算,是支撐時空資訊雲化架構向縱深發展的必然趨勢。我們将之分解為平台即服務、多模融合、計算下推和雲原生四個方向的架構演進。

1 平台即服務

與傳統基于通用資料庫作為存儲,外置中間件形态的時空資料引擎方案不同,新一代空天資料庫引擎采用了平台即服務架構。該架構将空天引擎内置于雲上OLTP資料庫、OLAP資料倉庫、資料湖以及NoSQL多模資料庫等不同系統,相比傳統方案在易用性、計算效率和事務一緻性處理上存在先天優勢,且未來基于SQL标準化也能快速建立跨平台能力。通過産品組合可提供從線上處理到線上分析,到離線計算再到離線存儲的海量空天大資料解決方案。

達摩院重要科技突破!空天資料庫引擎Ganos解讀

2 多模融合

傳統時空資料處理以地理資訊系統(GIS)或遙感圖像處理平台軟體為核心,強調平台專業性,但由于專業強化,形成專業度較高的半封閉系統,也會反向弱化和其他多模類型資料的融合處理能力;從IT視角出發,空天/時空資料将去中心化,成為各類多模資料的一類,并借助資料庫建立普适關聯,降低專業門檻。通過普适關聯,将空天/時空資料與通用資料、文本、時序、圖等多模資料一體化管理和處理,這種泛時空求解能力為大資料複雜業務開發将提供更大靈活性。

達摩院重要科技突破!空天資料庫引擎Ganos解讀

3 計算下推

計算下推是IT技術架構演進的一個重要趨勢。将空間資訊系統業務關鍵計算下推資料庫與大資料系統,讓計算離資料更近,可以直接利用存儲計算下推、并行化處理、GPU/FPGA異構計算加速能力實作資料本地計算,不但能降低因大量中間結果資料網絡傳輸導緻的IO延遲,也能簡化業務邏輯并整體提升業務系統性能。

達摩院重要科技突破!空天資料庫引擎Ganos解讀

4 雲原生

新一代空天資料庫引擎脫胎于公有雲,并由公有雲走向混合雲。我們認為,資料要靈活,算法補;算法要靈活,算力補。舉個例子,傳統空天資料應用需要大量做切片預處理,導緻資料應用不靈活。為了資料更靈活,業界引入了預先靜态緩存+動态切片的算法,但這種算法顯然很複雜;那麼算法要靈活,必須要算力補,即借助足夠彈性的算力來保障單一算法的純粹性和普适性。這就要借助雲原生能力。雲原生的本質是資源池化,即通過資源池化實作彈性服務和規模化。雲服務的本質就是算力經濟。

達摩院重要科技突破!空天資料庫引擎Ganos解讀

三 積沙成塔,做好底座

遵循平台即服務、多模融合、計算下推和雲原生理念,達摩院設計并實作了新一代空天資料庫引擎Ganos。我們在全球空天網格編碼、空天多模并行查詢處理、大規模矢量圖形快顯加速等空天資料處理關鍵技術上不斷探索并技術突破,建立了資料存儲、索引、查詢、分析和可視化支撐技術體系,在空天多模态資料處理核心領域形成差異化競争力。

1 整體架構

Ganos取名于大地女神蓋亞(Gaea)和時間之神柯羅諾斯(Chronos),代表空間+時間的深度結合。它并不是一款獨立的雲産品,而是一套空天\時空\多元資料存儲與處了解決方案。系統底層提供了支撐海陸空天大規模資料存儲能力,包括批量快速寫入、空天多元表達、多元時空索引和冷熱多級存儲等,上層提供資料管理、交批查詢處理以及分析計算與操作。

達摩院重要科技突破!空天資料庫引擎Ganos解讀

Ganos能力架構

從産品結構上,Ganos将空天資料處理能力融入雲關系型資料庫RDS PG、雲原生關系型資料庫PolarDB、雲原生資料倉庫AnalyticDB PostgreSQL、多模資料庫Lindorm、資料湖分析DLA,基于産品組合建構空天資料庫大資料一體化底座。進一步聯合AI Earth(達摩院釋出的首個泛自然資源行業AI引擎)、OSS對象存儲、以及微服務架構等技術生态體系,為使用者建構免切片存儲、時空一體、動态計算、智能分析全新架構的雲原生空天大資料平台提供了核心能力支撐,可廣泛應用于城市管理、自然資源、應急管理、交通物流等不同行業。

達摩院重要科技突破!空天資料庫引擎Ganos解讀

Ganos生态系統

2 空天多模與全球網格編碼

單一化模型已無法滿足目前數字化新場景應用,Ganos從底層開發空天多模型引擎,已原生支援10多大類空天資料的存儲、查詢和分析計算。在此基礎上,基于與多模資料庫Lindorm內建,實作鍵值、寬表、時序、時空、搜尋、檔案等多模資料的一體化管理和處理。

達摩院重要科技突破!空天資料庫引擎Ganos解讀

空天多模型引擎

在此基礎上,Ganos基于GeoSOT全球網格剖分理論,結合PolarDB引入了一種全新的網格資料類型geomgrid,支援空天對象打碼和網格對象計算等操作。空天網格碼是在GeoSOT地球空間剖分理論基礎上發展出的一種離散化、多尺度區域位置辨別和度量體系。該體系的核心是用一種新的方法,将地心至地上6萬公裡的地球空間剖分成數以兆億個大小不等、多尺度、高精度的網格群,同時為每一個網格賦予全球唯一的整形數辨別編碼。系統可以無縫對接北京大學/旋極伏羲基于GeoSOT的網格大資料平台建構空天資料庫-網格大資料一體化解決方案。原生網格資料類型的引入增強了空天資料庫的統一時空辨別能力、空天計算加速能力和基于地球空間網格的資料共享能力。

達摩院重要科技突破!空天資料庫引擎Ganos解讀

空天網格剖分示意圖

3 存計分離與多級并行計算加速

基于PolarDB,Ganos采用了存計分離和分布式共享存儲架構。計算和存儲分離,将原有一體化設計的資料庫的各個元件(計算/記憶體/存儲)完全解耦,形成可獨立伸縮的資源池。同時,為降低存計分離帶來的寫入和查詢延遲,共享存儲系統采用了端到端全使用者态模式,融合了 RDMA、SPDK 等高速資料傳輸和存取軟硬體技術,以及與近存儲計算媒體硬體結合的DB處理下推技術,有效地提升了空天資料的存儲規模和處理能力 。

基于存計分離和分布式共享存儲架構,Ganos進一步将兩階段查詢增強和多節點并行查詢有機結合,實作了跨節點空天并行查詢處理架構。其中,三管齊下提升資料并行處理性能:

  • 采用分布式共享存儲架構有效避免了資料跨節點shuffle帶來的網絡IO開銷;
  • 基于拓撲索引的粗過濾加精過濾兩階段查詢大幅提升空天資料查詢過濾性能;
  • 跨節點并行、節點内并行加算子級并行形成多級并行架構。經權威第三方測評結果表明,2億級圖斑做疊加分析并統計面積,采用80程序并行計算,10分鐘即可出結果(中間包含裁剪出7800萬超大結果集),比傳統大資料方案至少快出一個數量級。
達摩院重要科技突破!空天資料庫引擎Ganos解讀

基于兩階段優化的跨節點并行查詢處理架構

4 線上動态處理服務智能化

要建構空天“最強大腦”,需建立基于動态計算的資料組織、處理和應用模式。以大規模遙感影像資料處理為例,Ganos綜合了PolarDB的空天索引、Lindorm的空天多模存儲和DLA Serverless Spark的空天計算能力,為使用者提供單元化存儲、時空化組織和像素級調用的全新處理架構:

  • 單元化存儲:是以每一幅遙感影像為單元進行存儲,避免做更多預處理,進而使資料保持足夠靈活;
  • 時空化組織:是以原始影像為機關,将時間維植入體系結構,進而使全量資料實作時空結構化;
  • 像素級調用:設計理念上保留影像原始像元矩陣,確定每一寸像元資訊精準,包括時間、空間和光譜資訊,為智能化服務提供最鮮活原料。使用者劃定時間和空間邊界等條件,Ganos借助彈性雲算力,實作動态并行計算。

内部測試表明,基于Serverless彈性算力,千景遙感影像時空拼圖效率可達到秒級,革新傳統預處理/預切片模式為按需時空動态并行計算模式,節約至少50%存儲和處理成本。

達摩院重要科技突破!空天資料庫引擎Ganos解讀

栅格動态時空拼圖

5 視算統籌打破服務邊界

空天資料是一種特殊的圖形圖像資料,同一套資料存儲結構很難同時滿足快計算和快顯示需求,以往使用者從查詢分析計算延伸到資料大場景顯示不得不經曆資料結構大幅重構的複雜“熵增”過程。

Ganos的另一個設計述求是将計算和可視化進行統籌,資料庫端将存儲、計算和可視化打通。大體量的矢量資料入庫後即時全局浏覽一直是業界難題,額外找工具切圖釋出又耗時耗力。Ganos通過設計一種稀疏矢量金字塔索引,用戶端可通過與資料庫實時互動,秒級快速可視化通路“億級規模”多邊形地物,而建立索引僅需分鐘級并消耗僅5%的額外存儲空間。這種以資料庫索引結構加速資料可視化方法極大降低了使用者資料處理複雜度。這一技術可友善內建到PGAdmin等數管工具,億級幾何圖形資料導入即可秒級全局可視化,解決了傳統數管工具針對矢量大圖“可查不可看”的曆史難題。

達摩院重要科技突破!空天資料庫引擎Ganos解讀

基于【捷泰天域】提供億級多邊形真實資料實作終端快顯通路

四 建構生态解決方案

1 DB for AI——與AI Earth數知地球內建

阿裡巴巴達摩院自研AI Earth數知地球産品用于融合分析衛星影像、無人機影像、實時視訊流、氣象資料、IoT資料等多源地球觀測資料,智能解譯和實時感應建築、土地、植被、河流等多種目标資訊的變化,為地球環境生态多領域提供專業服務。

Ganos和AI Earth數知地球,正在用創新的方式,解決地球空天地海資料的管理與計算問題。這是一種DB for AI的産品組合,Ganos提供智能化存儲與管理大規模空天資料能力,向上服務于AI Earth數知地球,支撐變化檢測、地物分類和目标提取等操作,實作智能化計算分析與資訊深度挖掘。

達摩院重要科技突破!空天資料庫引擎Ganos解讀

DB for AI: Ganos + AI Earth

2 DB for GIS——與GIS平台共建

GIS平台是空間資料處理的專業化系統。DB for GIS,将改變二十多年來GIS與通用資料庫的傳統對接模式。GIS的核心空間計算下推以雲原生資料庫為核心的雲基礎平台實作計算加速将是下一代GIS系統可行的發展路徑。Ganos已與SuperMap(超圖)、ArcGIS(ESRI)、MapGIS(中地)等主流GIS基礎平台軟體完成相容适配,可支撐已有GIS應用的無縫遷移。GIS平台空間資料引擎可以将空間查詢和分析計算下推Ganos,利用空天資料庫引擎的多模處理、高效索引、多級并行計算、資源彈性排程實作計算加速。反過來,Ganos也借助GIS平台工具實作地上地下、室内室外、陸地海洋全空間模組化與資料展現。

達摩院重要科技突破!空天資料庫引擎Ganos解讀

DB for GIS架構

與GIS平台的深度融合,踐行了阿裡雲的被內建戰略,順應了“一橫一豎”的平台政策。通過“一豎”完成垂直整合,即GIS平台借助技術內建Ganos提升了系統整體性能,而Ganos借助GIS平台拓寬了空間業務能力寬度。“一橫”是通過品牌疊加,共同建構了平台生态,為強GIS數字化領域應用提供專業的全空間數字化解決方案能力。“一橫一豎”整合,擴大了空間資料服務的“面積”。

五 支撐空天地海應用

站在雲端,傳統空間資訊行業的邊界在逐漸打破,空天應用的涵蓋不斷外延。空天資料庫引擎Ganos已在天、空、地、海全域空間獲得應用,覆寫自然資源、災害應急、交通物流、航空航天、出行、安全、農業、海洋、水利、科教以及社交、健身、遊戲、O2O等不同行業方向。

達摩院重要科技突破!空天資料庫引擎Ganos解讀

與飛常準及超圖合作,實作25億全球航班軌迹點毫秒級時空回放與展示

達摩院重要科技突破!空天資料庫引擎Ganos解讀

支撐阿裡巴巴數字星球引擎,使PB級大規模遙感資料的時空動态組織、按需邏輯拼接和像素級快速通路調用成為可能

達摩院重要科技突破!空天資料庫引擎Ganos解讀

在農業資訊化領域,以國源科技為代表的農業地理大資料平台,通過2B業務轉型,依托Ganos管理地理資訊資源,融合雲上的人工智能和大資料技術,為現代化農業建設提供農業大資料新型産品和服務

達摩院重要科技突破!空天資料庫引擎Ganos解讀

與DataV內建,為阿裡雲三維城市渲染引擎專業版DataV.CityPro提供空天資料檢索和多元地形分析能力

達摩院重要科技突破!空天資料庫引擎Ganos解讀

與北大旋極網格大資料平台建立深度對接,建立網格資料庫+大資料一體化解決方案

達摩院重要科技突破!空天資料庫引擎Ganos解讀

聯合達摩院數知地球(AI Earth),形成遙感大資料管理與AI一體化智能平台,應用于自然資源、環保、水利等領域省部級應用

達摩院重要科技突破!空天資料庫引擎Ganos解讀

賦能全球自然災害風險大資料服務平台,完整支撐全球地震、台風、滑坡、林草火災等12個災種時空過程模組化和風險圖釋出

六 結語

在雲計算和大資料時代,空天大資料将成為位置智能化的基礎核心。讓衛星“天眼”更顯神通,讓IoT裝置更具智能,需建立全新的空天資料組織、處理和應用模式。未來,我們将位置資訊、時态資訊和多模态資訊實作進一步融合管理和處理,拓展計算智能并将場景延伸到深地、深海、深空。Ganos将始終立足雲空天基礎設施能力建設,解構空天多模與編碼、分布式并行計算加速、線上動态處理等關鍵技術,為企業建構空天“最強大腦”提供基礎雲服務,推動時空雲計算作為數字化轉型的基礎引擎普惠到更多客戶。

2021阿裡雲峰會暨開發者大會

達摩院重要科技突破!空天資料庫引擎Ganos解讀

數字時代,創新的時代。阿裡雲始于開發者的理想,堅持用雲的力量讓開發者的創新更簡單,共同成就數字新篇章。2021阿裡雲開發者大會特邀阿裡巴巴集團副總裁、阿裡雲智能資料庫事業部進階研究員李飛飛,和開發者們暢聊雲原生時代資料庫的現狀和未來。

點選這裡

,立即報名吧!5月29日,我們在北京國家會議中心等你來~