
<b>彈性動态伸縮</b>
基于ECS之上,快捷的擴容、縮容EMR Hadoop叢集。
<b>靈活軟體棧選擇</b>
靈活、快速部署開源大資料服務(HBase、Kafka、Impala、Flink等)。
<b>資料存儲成本低</b>
D1機型使用本地盤,價格遠低于雲盤;OSS低成本存儲冷資料。
<b>運維機制</b>
釘釘群支援,快速解決叢集使用問題。減少運維工作,更專注于業務。
<b>資料遷移問題</b>
Hive,HBase資料庫結構同步,HDFS資料PB級曆史資料同步。如何保證線上實時任務不受影響?
中繼資料庫同步:Hadoop distcp filter (Hadoop 2.8之後支援)。Flume配置雙寫,多個sink。
<b>資料傾斜問題</b>
現象:MapReduce任務卡在最後一個或幾個Reduce。
原因:資料分布不均勻,導緻大量的資料配置設定到了一個節點。
<b>問題:</b>
執行Hive任務時,Flume剛好rename檔案,會提示檔案不存在的錯誤。
解決辦法:hdfs.inUsePrefix=.生成的檔案名增加字首。
多台伺服器同時寫入,預設的檔案名重複。
解決辦法:修改HDFS sink源碼,生成的檔案預設增加目前伺服器的hostname。
實時性與小檔案過多。
解決辦法:離線insert overwrite table,重新生成檔案。通過MapReduce 在map之後生成新檔案的特性,合并小檔案。