作者:雲魁、連轍
最佳實踐概述
應用場景
客戶在IDC或者公有雲環境自建Hadoop叢集,資料集中儲存在HDFS檔案系統用于資料分析任務。但是由于自建HDFS空間限制無法儲存長期資料,或者客戶有Hadoop叢集遷移上雲的需求。本實踐方案提供如下場景的最佳實踐:
基于IPSec VPN隧道 + DistCp(Hadoop原生工具),将資料遷移到阿裡雲EMR叢集,目标存儲包括HDFS,阿裡雲OSS和阿裡雲EMR的Jindo
技術架構
本實踐方案基于如下圖所示的技術架構和主要流程編寫操作步驟:

方案優勢
-
安全性
基于IPSec VPN/專線的方式進行資料安全傳輸。
-
低成本
在阿裡雲建立Hadoop類型的EMR叢集和自建Hadoop叢集相比有一定成本優勢,同時阿裡雲EMR可以使用OSS作為底層存儲空間,進一步降低成本。
在進行本文操作之前,您需要完成以下準備工作:
- 擁有阿裡雲實名認證賬号。
- 擁有已經通過備案的域名。
- 保證賬号餘額大于100元人民币。
- 開通ECS、OSS、EMR和VPN網關等服務。
資源規劃說明
- 本方案實踐的資源規劃僅作為實踐示範,實際業務場景資源以使用者實際需求為準。
- 本實踐方案中,涉及到阿裡雲資源開通和購買,本文後續執行個體中不單獨展示服務開通相關操作,請使用者自行完成。
- 本實踐方案在使用過程中,大緻流程和實際操作所需的時長如下(不包含文檔閱讀時間),供使用者參考:
自建Hadoop資料遷移到阿裡雲EMR
1. 自建Hadoop叢集環境搭建
本實踐方案中,使用上海VPC環境模拟客戶IDC網絡,主要安裝以下元件:
(1) 在ECS上安裝FlexGW VPN,用于模拟客戶IDC網絡中的VPN網關;
(2) 在ECS上安裝Apache日志模拟器,用于生成Apache格式的日志資訊;
(3) 在ECS上安裝Kafka,用于集中存儲Flume發送的日志;
(4) 在ECS上安裝3節點的Hadoop叢集,其中的HDFS用于集中儲存日志資料資訊。
1.1. 建立VPC網絡
步驟1 登入
專有網絡VPC産品控制台。
步驟2 單擊建立專有網絡。
步驟3 在建立專有網絡頁面,參考下表,配置專有網絡和交換機相關參數,并單擊确定。
步驟4 等待專有網絡和交換機建立成功後,單擊完成。
1.2. 批量建立ECS執行個體
建立ECS執行個體
步驟1 登入上海區域的
ECS産品控制台步驟2 單擊右上角的建立執行個體。
步驟3 在自定義購買模式下,配置相關參數。
參考下表,配置基礎配置相關内容。
配置完成,單擊下一步:網絡和安全組。
單擊檢視曆史價格 ,在搶占式執行個體曆史價格走勢圖中,可以看到可用區F的執行個體目前市場價格為0.034,是以,我們設定單台上限價為0.04,要求略高于目前市場價格。
步驟4 在網絡和安全組頁面,參考下表,配置相關參數。
配置完成,單擊下一步:系統配置。
步驟5 在系統配置頁面,參考下表,配置相關參數。
配置完成,單擊确認訂單。
步驟6 在确認訂單頁面,确認各項參數資訊。确認無誤,閱讀、同意并勾選《雲伺服器ECS服務條款》和《鏡像商品使用條款》,并單擊建立執行個體。
步驟7 建立任務送出成功後,單擊管理控制台前往ECS執行個體清單頁面檢視詳情。為了在控制台便于識别ECS的用途,首先将執行個體名稱修改為如下圖所示:
步驟8 将Kafka隊列和FlexGW VPN這兩個執行個體關機,将系統盤更換為雲市場的鏡像,節省基礎環境部署時間。
步驟9 首先為FlexGW VPN網關執行個體更換系統盤。
- 單擊執行個體操作列下的更多 > 磁盤和鏡像 > 更換作業系統。
自建Hadoop資料遷移到阿裡雲EMR - 單擊右下角确定,更換系統盤按鈕。
自建Hadoop資料遷移到阿裡雲EMR - 選擇鏡像市場,單擊從鏡像市場選擇(含作業系統)。
自建Hadoop資料遷移到阿裡雲EMR - 在搜尋框中輸入flexgw,定位到FlexGW IPsec VPN伺服器企業版,并單擊使用。
自建Hadoop資料遷移到阿裡雲EMR - 選擇自定義密碼,并設定登入密碼。
自建Hadoop資料遷移到阿裡雲EMR
步驟10 參考步驟9為Kafka隊列執行個體更換系統盤,選擇下面的鏡像。
(可選)配置安全組
在執行個體所在安全組中确認22、80和443端口的放通情況,如果有未放通端口,請按照下面步驟進行放通。
步驟1 在ECS控制台,單擊FlexGW VPN網關執行個體操作列下的管理 。
步驟2 在左側導航欄單擊本執行個體安全組。
步驟3 單擊對應安全組操作列下的配置規則。
步驟4 在入方向頁簽下,單擊快速建立規則。
步驟5 在快速建立規則對話框中,根據下圖配置相關參數,并單擊确定 。
因篇幅原因,餘下内容請點選 原文連結 閱讀
阿裡巴巴開源大資料技術團隊成立Apache Spark中國技術社群,定期推送精彩案例,技術專家直播,問答區數個Spark技術同學每日線上答疑,隻為營造純粹的Spark氛圍,歡迎釘釘掃碼加入!