天天看點

大資料處理(七)—— Lambda架構

介紹

提供一個結合實時資料和Hadoop預先計算的資料環境的混合平台,以提供一個實時資料視圖。

分層架構

  • 批處理層
  • 實時處理層
  • 服務層
大資料處理(七)—— Lambda架構

批處理層

特點:

  • 資料不可變
  • 可進行任何計算
  • 水準擴充
  • 高延遲

常見的使用工具

  • Flume用于日志收集
  • Sqoop用于資料同步
  • HDFS、HBase用于分布式存儲
    • HDFS 不适合存儲大量小檔案
  • Hadoop與Spark用于分布式計算
  • 使用Thrift、Protocol buffer、Avro進行序列化
  • 使用Cassandra、Impala、Redis、MySQL用作視圖存儲資料庫

實時計算層

特點:

  • 流式計算
  • 持續計算
  • 存儲和分析某個視窗期内的資料
  • 最終正确性

服務層

特點:

  • 支援随機讀
  • 需要在非常短的時間内傳回結果
  • 讀取batch layer、speed layer結果,并對其歸并

參考視訊

Lambda架構

繼續閱讀