天天看點

E-MapReduce彈性低成本離線大資料分析

作者:明譽

大資料是一項涉及不同業務和技術領域的技術和工具的集合,海量離線資料分析可以應用于多種商業系統環境,例如,電商海量日志分析、使用者行為畫像分析、科研行業的海量離線計算分析任務等場景。

離線大資料分析概述

主流的三大分布式計算架構系統分别為Hadoop、Spark和Storm:

  • Hadoop可以運用在很多商業應用系統,可以輕松內建結構化、半結構化以及非結構化資料集。
  • Spark采用了記憶體計算,允許資料載入記憶體作反複查詢,融合資料倉庫、流處理和圖形計算等多種計算範式,能夠與Hadoop很好地結合。
  • Storm适用于處理高速、大型資料流的分布式實時計算,為Hadoop添加可靠的實時資料處理能力。

海量離線資料分析可以應用于多種場景,例如:

  • 商業系統環境:電商海量日志分析、使用者行為畫像分析。
  • 科研行業:海量離線計算分析和資料查詢。
  • 遊戲行業:遊戲日志分析、使用者行為分析。
  • 商業使用者:資料倉庫解決方案的BI分析、多元分析報表。
  • 大型企業:海量IT運維日志分析。

架構圖

E-MapReduce彈性低成本離線大資料分析

方案優勢

  • 高性能、低成本
  • 快速部署
  • 彈性
  • 多種計算模式
  • 無縫對接開源生态
  • 一站式管理平台

方案詳情

詳情請參見

E-MapReduce彈性低成本離線大資料分析最佳實踐

對開源大資料感興趣的同學可以加小編微信(圖一二維碼,備注進群)進入技術交流微信2群。也可釘釘掃碼加入社群的釘釘群

E-MapReduce彈性低成本離線大資料分析

阿裡巴巴開源大資料技術團隊成立Apache Spark中國技術社群,定期推送精彩案例,技術專家直播,問答區數個Spark技術同學每日線上答疑,隻為營造純粹的Spark氛圍,歡迎釘釘掃碼加入!

E-MapReduce彈性低成本離線大資料分析

Apache Spark技術交流社群公衆号,微信掃一掃關注

E-MapReduce彈性低成本離線大資料分析