天天看點

E-Mapreduce如何處理RDS的資料注意

在e-mapredcue中操縱rds中資料(這裡以mysql為例),一般有三種方式,下面分别說明下。

為了實驗,筆者建立了一個mysql的示例,建立了一個資料庫school,在其中建立一個表student,并導入了一部分的資料。

1、 使用資料內建 把資料導入到oss中(都是頁面配置)

進入資料內建的控制平台,建立一個pipeline或者ecs pipeline

在新建立的pipeline中,建立作業。目前沒有直接的頁視圖,可以直接使用json視圖

源類型選擇mysql,目标類型選擇oss,填寫一些資訊。再立即執行,腳本參考:

2、編寫hive腳本

特别如果想登陸到機器上執行hive腳本,一定要 sudo su hadoop到hadoop賬戶下或者建立一個賬号。不要在root下操作。

目前e-mapreduce鏡像中沒有直接提供sqoop,你可以登陸master機器,sudo su hadoop帳号下,再下載下傳sqoop(master機器是可以通路網際網路的)

下載下傳sqoop及mysql-connector-java,目前列出的位址可以通路,如果不能通路,請直接通路官方下載下傳。

執行指令,拷貝資料。sqoop有很多的用法,大家可以看下sqoop官方文檔,或者google。

查詢下

這一步是需要寫一些代碼的,在代碼中可以直接配置通路mysql。

rds預設是拒絕通路的,是以需要在rds中配置網絡白名單。在資料安全性->添加白名單分組。

如果是使用資料內建,則需要配置資料內建的ip位址,如果是使用sqoop或者直接相連,則需要配置e-mapreduce的白名單(這個可以在叢集的詳情頁看到)

繼續閱讀