介紹
提供一個結合實時資料和Hadoop預先計算的資料環境的混合平台,以提供一個實時資料視圖。
分層架構
- 批處理層
- 實時處理層
- 服務層
批處理層
特點:
- 資料不可變
- 可進行任何計算
- 水準擴充
- 高延遲
常見的使用工具
- Flume用于日志收集
- Sqoop用于資料同步
- HDFS、HBase用于分布式存儲
- HDFS 不适合存儲大量小檔案
- Hadoop與Spark用于分布式計算
- 使用Thrift、Protocol buffer、Avro進行序列化
- 使用Cassandra、Impala、Redis、MySQL用作視圖存儲資料庫
實時計算層
特點:
- 流式計算
- 持續計算
- 存儲和分析某個視窗期内的資料
- 最終正确性
服務層
特點:
- 支援随機讀
- 需要在非常短的時間内傳回結果
- 讀取batch layer、speed layer結果,并對其歸并
參考視訊
Lambda架構