實時同步/實時ETL
實時同步功能可以支援多種實時資料源(Kafka、MySQL Binlog,Oracle CDC等),可以将實時消息資料經過一些列處理後再寫入目的資料源。即具備實時ETL能力,非常适用于對于資料同步實時性要求比較高的客戶,完成批同步做不到的場景,可以實作源端資料庫一但變動即時就能在目的端資料庫反映出來,以及實作資料庫的增量資料捕獲,對資料庫的幹擾幾乎為零。
【特點】:
• 支援常見實時資料源Kafka、MySQL Binlog,Oracle CDC、Datahub、Loghub
• 具備完備的ETL能力, 包括拉取(Extract)、轉換(Transform)、裝載(Load)
• 對原始資料庫的幹擾幾乎為零
• 一路輸入多路輸出,可以同時寫入多個目的端

批同步ETL
在此前DataWorks資料內建強大EL(Extract-Load)能力基礎之上,增加了資料處理能力(Transform),實作了完整了ETL鍊路。以往使用者對源表的資料落地目标表時有資料處理的需求時,隻能先将資料拉取到一個臨時表裡(通常是MaxCompute表),然後再寫SQL進行加工處理,将結果再次輸入到目标表中,如果目标表不是MaxCompute表,還要再進行一次資料內建同步,将資料寫入其他資料源,整個鍊路非常冗長不便,而且造成計算和存儲資源浪費。現在使用ETL模式,省去了中間這些繁瑣步驟和額外開銷,在資料同步過程中即可完成資料處理,直接落地到目的資料源。
【特點】
• 支援現在的資料內建所有資料源,共計60+種。
• 完美相容現在已有的任務,可以在已有任務上直接開啟資料處理功能,原有排程和流程不變。
• 資料處理使用DAG圖形拖拽方式進行開發,流程清晰,可讀性極強。
• 具備豐富的資料處理元件,通過組合可以覆寫絕大多數資料變換和處理場景。
如果您對以上功能感興趣,請加入DataWorks新功能測試群檢視群公告
釘釘群号:30002661
或直接使用釘釘掃描下方二維碼加入