天天看點

阿裡雲EMR産品介紹及常見問題解答

一、大資料概述

阿裡雲EMR産品介紹及常見問題解答
二、視訊大客戶對于資料中心的需求
阿裡雲EMR産品介紹及常見問題解答
阿裡雲EMR産品介紹及常見問題解答
三、傳統大資料技術演進
阿裡雲EMR産品介紹及常見問題解答
四、EMR介紹
阿裡雲EMR産品介紹及常見問題解答

五、為什麼選擇EMR

彈性動态伸縮

基于ECS之上,快捷的擴容、縮容EMR Hadoop叢集。
           

靈活軟體棧選擇

靈活、快速部署開源大資料服務(HBase、Kafka、Impala、Flink等)。
           

資料存儲成本低

D1機型使用本地盤,價格遠低于雲盤;OSS低成本存儲冷資料。
           

運維機制

釘釘群支援,快速解決叢集使用問題。減少運維工作,更專注于業務。
           

六、典型問題及解決方案

資料遷移問題

Hive,HBase資料庫結構同步,HDFS資料PB級曆史資料同步。如何保證線上實時任務不受影響?

中繼資料庫同步:Hadoop distcp filter (Hadoop 2.8之後支援)。Flume配置雙寫,多個sink。

資料傾斜問題

現象:MapReduce任務卡在最後一個或幾個Reduce。

原因:資料分布不均勻,導緻大量的資料配置設定到了一個節點。

問題:

執行Hive任務時,Flume剛好rename檔案,會提示檔案不存在的錯誤。

解決辦法:hdfs.inUsePrefix=.生成的檔案名增加字首。

多台伺服器同時寫入,預設的檔案名重複。

解決辦法:修改HDFS sink源碼,生成的檔案預設增加目前伺服器的hostname。

實時性與小檔案過多。

解決辦法:離線insert overwrite table,重新生成檔案。通過MapReduce 在map之後生成新檔案的特性,合并小檔案。