天天看點

【資料湖開發治理篇】——資料湖開發治理平台DataWorks

資料湖的定義:

wikipedia中對于資料湖的定義是:“A data lake is a system or repository of data stored in its natural/raw format, usually object blobs or files. A data lake is usually a single store of all enterprise data including raw copies of source system data and transformed data used for tasks such as reporting, visualization, advanced analytics and machine learning.”

可見資料湖是一個通用的資料存儲,通用到可以存儲任意類型的資料。

資料湖要考慮的首要問題:

從定義看,一塊u盤即符合資料湖的定義。u盤可以是資料湖,oss可以是資料湖,hdfs、盤古也可以是資料湖。它們均嚴格的符合資料湖的定義。作為企業的資料湖技術選型第一個需要考慮的問題就是:采用什麼樣的存儲媒體或存儲系統作為自己的資料湖解決方案。衆所周知,不同的存儲媒體或存儲系統有不同的優勢和劣勢。比如:有的存儲系統随機讀取的響應時間更好、有的系統批量讀取的吞吐量更好、有的系統存儲成本更低、有的系統擴充性更好、有的系統結構化資料組織得更高效...相應的,這些提到的各個名額中有些恰恰是有些存儲所不擅長的,如何享有所有存儲系統的優勢、規避所有存儲系統的劣勢變成了雲上資料湖服務要考慮的首要問題。

要解決這個沖突的問題,在理論上是不可能一勞永逸的。聰明的做法是對上提供一個邏輯上的存儲解決方案,然後讓需要不同通路特點的資料靈活地在各種底層存儲系統中遷移。通過便捷的資料遷移(、以及資料格式轉化)的能力, 來充分發揮出各個存儲系統的優勢。結論:成熟的資料湖一定是一個邏輯上的存儲系統,它的底層是多個各種類型的存儲系統所組成。

資料湖要解決的三大問題:

中繼資料管理、資料內建、資料開發是資料湖需要解決的三大問題,阿裡雲的DataWorks作為一個通用的大資料平台,除了很好的解決了數倉場景的各類問題,也同樣解決了資料湖場景中的核心痛點。

中繼資料管理:

使用者的湖上資料需要有個統一集中的管理能力,這就成了資料湖的第一個核心能力。dataworks的資料治理能力便是用來解決資料湖中的各類存儲系統的中繼資料管理的。目前它管理了雲上11中資料源的中繼資料。涵蓋OSS、EMR、MaxCompute、Hologres、mysql、PostgreSQL、SQL Server、Oracle、AnalyticDB for PostgreSQL、AnalyticDB for MySQL 2.0、AnalyticDB for MySQL 3.0 等雲上主要資料源類型的中繼資料管理。功能上涵蓋中繼資料采集、存儲檢索、線上中繼資料服務、資料預覽、分類打标、資料血緣、資料探查、影響分析、資源優化等能力。

技術的宏觀架構如圖:

【資料湖開發治理篇】——資料湖開發治理平台DataWorks

産品形态如圖:

【資料湖開發治理篇】——資料湖開發治理平台DataWorks
【資料湖開發治理篇】——資料湖開發治理平台DataWorks

資料內建:

資料湖中的資料管理起來之後,就會面臨資料在各個存儲系統中遷移和轉化的能力。為此dataworks的資料內建能力可以做到40種類常見資料源的導入導出及格式轉化的能力,同時覆寫了離線和實時兩大同步場景,以及可以解決對外對接時的複雜網絡場景。

資料內建核心能力:

【資料湖開發治理篇】——資料湖開發治理平台DataWorks

離線同步功能:

【資料湖開發治理篇】——資料湖開發治理平台DataWorks

實時同步功能:

【資料湖開發治理篇】——資料湖開發治理平台DataWorks

資料開發:

解決了資料湖的存儲管理和資料遷移問題後,接下來就是如何讓資料湖中的資料更好的賦能業務。這就需要引入各類計算引擎,計算平台事業部擁有豐富的各類計算引擎,有開源體系的spark、presto、hive、flink,還有自研的MaxCompute、Hologres,這裡的挑戰在于如何友善的發揮各類引擎的長處,讓湖中的資料能夠被各類引擎通路和計算。為此dataworks提供了便捷的資料遷移方式(友善資料在各類引擎中流轉穿梭)、提供一站式的資料開發環境,從即席查詢到周期的etl開發,dataworks提供了各個計算引擎的統一計算任務的開發和運維能力。

【資料湖開發治理篇】——資料湖開發治理平台DataWorks

資料開發産品:

【資料湖開發治理篇】——資料湖開發治理平台DataWorks

至此、dataworks在解決了資料湖底層的存儲系統差異的難題後,提供了完備的湖上中繼資料管理、資料治理、資料遷移轉換、資料計算的全流程能力。讓阿裡雲上的資料湖更好的給客戶發揮出業務價值。

更多資料湖技術相關的文章請點選:

阿裡雲重磅釋出雲原生資料湖體系

更多資料湖相關資訊交流請加入阿裡巴巴資料湖技術釘釘群

【資料湖開發治理篇】——資料湖開發治理平台DataWorks