E-Mapreduce如何處理RDS的資料注意

2021-11-06 14:38:49

在e-mapredcue中操縱rds中資料(這裡以mysql為例)，一般有三種方式，下面分别說明下。

為了實驗，筆者建立了一個mysql的示例，建立了一個資料庫school，在其中建立一個表student，并導入了一部分的資料。

1、使用資料內建把資料導入到oss中（都是頁面配置）

進入資料內建的控制平台，建立一個pipeline或者ecs pipeline

在新建立的pipeline中，建立作業。目前沒有直接的頁視圖，可以直接使用json視圖

源類型選擇mysql，目标類型選擇oss，填寫一些資訊。再立即執行，腳本參考：

2、編寫hive腳本

特别如果想登陸到機器上執行hive腳本，一定要 sudo su hadoop到hadoop賬戶下或者建立一個賬号。不要在root下操作。

目前e-mapreduce鏡像中沒有直接提供sqoop，你可以登陸master機器，sudo su hadoop帳号下，再下載下傳sqoop（master機器是可以通路網際網路的）

下載下傳sqoop及mysql-connector-java，目前列出的位址可以通路，如果不能通路，請直接通路官方下載下傳。

執行指令，拷貝資料。sqoop有很多的用法，大家可以看下sqoop官方文檔，或者google。

查詢下

這一步是需要寫一些代碼的，在代碼中可以直接配置通路mysql。

rds預設是拒絕通路的，是以需要在rds中配置網絡白名單。在資料安全性->添加白名單分組。

如果是使用資料內建，則需要配置資料內建的ip位址，如果是使用sqoop或者直接相連，則需要配置e-mapreduce的白名單(這個可以在叢集的詳情頁看到)

繼續閱讀