阿裡雲EMR産品介紹及常見問題解答

2018-10-14 23:50:00

一、大資料概述

二、視訊大客戶對于資料中心的需求

三、傳統大資料技術演進

四、EMR介紹

五、為什麼選擇EMR

彈性動态伸縮

基于ECS之上，快捷的擴容、縮容EMR Hadoop叢集。

靈活軟體棧選擇

靈活、快速部署開源大資料服務(HBase、Kafka、Impala、Flink等)。

資料存儲成本低

D1機型使用本地盤，價格遠低于雲盤；OSS低成本存儲冷資料。

運維機制

釘釘群支援，快速解決叢集使用問題。減少運維工作，更專注于業務。

六、典型問題及解決方案

資料遷移問題

Hive，HBase資料庫結構同步，HDFS資料PB級曆史資料同步。如何保證線上實時任務不受影響？

中繼資料庫同步：Hadoop distcp filter (Hadoop 2.8之後支援)。Flume配置雙寫，多個sink。

資料傾斜問題

現象：MapReduce任務卡在最後一個或幾個Reduce。

原因：資料分布不均勻，導緻大量的資料配置設定到了一個節點。

問題：

執行Hive任務時，Flume剛好rename檔案，會提示檔案不存在的錯誤。

解決辦法：hdfs.inUsePrefix=.生成的檔案名增加字首。

多台伺服器同時寫入，預設的檔案名重複。

解決辦法：修改HDFS sink源碼，生成的檔案預設增加目前伺服器的hostname。

實時性與小檔案過多。

解決辦法：離線insert overwrite table，重新生成檔案。通過MapReduce 在map之後生成新檔案的特性，合并小檔案。

繼續閱讀