天天看點

DataWorks熟能生巧系列直播第五期:資料內建批量生成同步任務

分享人:DataWorks技術支援團隊

我們在開發者社群學習路線裡有釋出一個DataWorks的學習路線,裡面包含了入門講解和熟能生巧系列的直播内容,大家可以去學習一下,需要主賬号登陸學習哦:

https://developer.aliyun.com/learning/course/81 本期視訊位址: https://developer.aliyun.com/learning/course/81/detail/1242

資料內建的整庫遷移、批量上雲和分庫分表功能,能夠批量生成同步任務。

假設資料庫内有100張表,原本可能需要配置100次資料同步任務,但通過整庫遷移或批量上雲可以一次性完成配置。

添加資料源

配置上面三種任務之前,要先添加資料源。

DataWorks熟能生巧系列直播第五期:資料內建批量生成同步任務

資料內建頁面資料源菜單裡有資料源配置頁面的入口,點進去後可以配置資料源。

我們到資料源管理界面,這裡可以選擇添加單個的資料源,也可以批量添加資料源。我們選擇添加單個的資料源,選擇MySQL,再選擇阿裡雲執行個體模式。

DataWorks熟能生巧系列直播第五期:資料內建批量生成同步任務
DataWorks熟能生巧系列直播第五期:資料內建批量生成同步任務

補充完資訊之後,進行連通性測試,測試通過之後在配置整庫遷移和批量上雲的時候就能選擇到相應的資料源。建議開發環境和生産環境都要添加資料源,否則看不到整庫遷移的路口。

DataWorks熟能生巧系列直播第五期:資料內建批量生成同步任務

整庫遷移

整庫遷移的清單裡我們點選對應資料源的整庫遷移入口,一般在開發環境。示例以MySQL資料源同步到MaxCompute為例。

DataWorks熟能生巧系列直播第五期:資料內建批量生成同步任務

然後可以選擇目标MaxCompute資料源以及同步任務的獨享資料內建資源組進行資料同步。

批量上雲

點選左側批量上雲菜單可以進入批量上雲頁,點選右上角“建立批量快速上雲”來配置一個批量上雲任務。

首先我們選擇來源側和目标端的資料源以及任務運作的資源組:

DataWorks熟能生巧系列直播第五期:資料內建批量生成同步任務

然後我們可以配置同步任務的一些轉換規則。

DataWorks熟能生巧系列直播第五期:資料內建批量生成同步任務

其中表名轉換規則和目标表名規則會影響目标端的表名,圖檔内配置效果如下:

目标表分區字段規則:按bizdate日期分區

表名轉換規則:正則比對,給目标表添加ods_$1字首

字段名轉換規則:pv字段改成pv_test

字段類型轉換規則:int改成string

目标表新增字段規則:新增一個hello字段,string類型

目标表字段指派規則:給hello字段指派“ninhao”

資料過濾規則:pv要大于1

目标表明規則:目标表名為 來源表名+下劃線+來源表類型(比如MySQL)

配置完規則後我們選擇需要同步的表:

DataWorks熟能生巧系列直播第五期:資料內建批量生成同步任務

然後送出任務即可

分庫分表

分庫分表需要需要滿足一些條件:

DataWorks熟能生巧系列直播第五期:資料內建批量生成同步任務

以上就是本次“資料內建批量生成同步任務”講解的全部内容,有問題需要解答的同學可以掃碼加一下我們的釘釘大群,群裡有直播回放可以觀看,技術支援的同學們也會回答大家的問題。

感謝大家的關注!

DataWorks熟能生巧系列直播第五期:資料內建批量生成同步任務