天天看點

Dataphin支援哪些資料源

業務資料存儲是業務系統最基本的構成,建構資料中台,就是要将這些資料集中起來放到一個有更強算力的地方集中處理,是以對于資料內建的能力是建構資料中台最基本要求;

從存儲的發展曆程來看,由于不同的業務場景需求,帶來了資料存儲的不同發展路徑,在企業發展中随着業務規模的變化,也會選擇不同的存儲來支撐,是以每個企業一定會存在異構存儲,如何将多源異構存儲中的資料內建起來是企業做資料中台需要面臨的一個巨大問題;

當然,目前行業内有很多人采用一些開源技術元件來實作,比如GitHub上的DataX、HData等,但是由于技術元件的易用性較弱,對于分析師和模型師而言,學習效率和使用便捷度還有待提高;是以集中式、界面化的工具尤為重要;

不久前我們就接觸過一個客戶,他們是一家有着大概十多年發展曆史的零售企業,有線上管道也有線下自營店,企業發展一直都比較重視資訊化,是以基于Oracle的ERP系統、基于MySQL的APP應用、基于ES的搜尋系統、基于HBase的資料服務系統,還有第三提供的POS服務,每月同步賬單;經年累月,系統變得比較複雜,而且沒有當下流行的業務中台架構;

在和客戶的業務方、IT部門溝通過程中了解到,目前最首要的需求是希望可以把這些資料統一管理起來,并且在業務上能夠發揮一些價值。基于客戶訴求和基礎資訊的了解,目前雖然遠期的藍圖不是很清楚,但是短期内對于資料建設的方向是明确的,先完成資料的內建工作,然後再挖掘資料業務價值,當然內建的資料内容要與業務價值考量關聯,否則盲目內建,也隻是轉存了一份資料而已;

基于這些判斷,系統梳理了下客戶的系統以及使用的存儲;

梳理結果如下:

Dataphin支援哪些資料源

整體IT資訊如下:

資訊系統:六大子產品(前端業務APP、營銷工具、營運平台、供應鍊平台、内部管理平台、OA系統)

存儲類型:

關系型資料庫:MySQL、Oracle、PostgreSQL

無結構資料存儲:FTP、日志檔案、ElasticSearch、線下CSV(Excel檔案)

NoSQL存儲:HBase

內建目标:

MaxCompute(已采購)

內建工具

公共雲Dataphin

根據對系統存儲和工具的梳理,資料流形式如下:

Dataphin支援哪些資料源

在整個內建資料流設計中,主要使用的是Dataphin産品,目前存儲資料梳理中用到的類型都可以支撐到,更重要是界面化操作,入門門檻比較低,維護和管理起來比較簡單,配置下資料源,設定下資料從來源到目标的mapping關系即可。

Step 1. 建立資料源

Dataphin支援哪些資料源
Step 2. 配置映射關系
Dataphin支援哪些資料源
Step 3. 釋出生産環境
Dataphin支援哪些資料源

這樣一個資料同步任務就建立好,客戶這邊大概有12個存儲源約200個資料表做上雲,大概2天的時間就完成了,是以,工具還是很重要的!

我們在項目中所使用的資料內建産品Dataphin就是一個非常友善的工具。

Dataphin資料同步支撐了資料上雲最基礎的能力,隻有資料上雲才有可能談論資料中台建設和數字化轉型;

Dataphin資料同步定位于資料上雲的管道,內建多源異構存儲中的資料,建構資料中台建設的基礎原料;在資料同步的設計中,首先将多類型存儲媒體的中繼資料進行了标準化,基于這種标準化實作了前端配置的一緻體驗,避免填寫大量的JSON檔案進行同步配置的定義,簡化配置操作,以提升工程師開發階段的體驗;同時,兼顧客戶最終價值需求,即資料能夠穩定、高效地完成傳輸,實作上雲,是以資料同步設計的過程中也是非常關注資料同步的性能名額;

目前我們已經實作12種來源存儲類型以及14種目标存儲類型的支援;覆寫了目前客戶使用的大多數資料源類型;同時,由于采用插件式的設計方法,對于異構資料源提供了快速擴充的能力;

Dataphin支援哪些資料源
按照存儲類型劃分,保持與DataX定義的标準一緻:

  • RDBMS關系型資料庫
  1. MySQL
  2. SQL Server
  3. Oracle
  4. PostgreSQL
  5. DRDS
  6. Vertica
  7. 協定支援DB
  • 數倉資料存儲
  1. AnalyticDB(隻寫)
  2. ODPS
  3. Hive
  • NoSQL存儲
  1. MongoDB
  2. HBase
  • 無結構化資料存儲
  1. HDFS
  2. FTP
  3. ElasticSearch(隻寫)

    Dataphin資料同步提供了強大的資料傳輸能力,幫助企業資料高效上雲,打破資料孤島,建構資料中台!

繼續閱讀