一、大資料概述
二、視訊大客戶對于資料中心的需求 三、傳統大資料技術演進 四、EMR介紹五、為什麼選擇EMR
彈性動态伸縮
基于ECS之上,快捷的擴容、縮容EMR Hadoop叢集。
靈活軟體棧選擇
靈活、快速部署開源大資料服務(HBase、Kafka、Impala、Flink等)。
資料存儲成本低
D1機型使用本地盤,價格遠低于雲盤;OSS低成本存儲冷資料。
運維機制
釘釘群支援,快速解決叢集使用問題。減少運維工作,更專注于業務。
六、典型問題及解決方案
資料遷移問題
Hive,HBase資料庫結構同步,HDFS資料PB級曆史資料同步。如何保證線上實時任務不受影響?
中繼資料庫同步:Hadoop distcp filter (Hadoop 2.8之後支援)。Flume配置雙寫,多個sink。
資料傾斜問題
現象:MapReduce任務卡在最後一個或幾個Reduce。
原因:資料分布不均勻,導緻大量的資料配置設定到了一個節點。
問題:
執行Hive任務時,Flume剛好rename檔案,會提示檔案不存在的錯誤。
解決辦法:hdfs.inUsePrefix=.生成的檔案名增加字首。
多台伺服器同時寫入,預設的檔案名重複。
解決辦法:修改HDFS sink源碼,生成的檔案預設增加目前伺服器的hostname。
實時性與小檔案過多。
解決辦法:離線insert overwrite table,重新生成檔案。通過MapReduce 在map之後生成新檔案的特性,合并小檔案。