基于spark的流式資料處理—批處理和流處理差別

2023-05-27 16:59:13

靜态資料

很多企業為了支援決策分析而建構的資料倉庫系統，其中存放的大量曆史資料就是靜态資料。技術人員可以利用資料挖掘和OLAP（On-Line Analytical Processing）分析工具從靜态資料中找到對企業有價值的資訊。

近年來，在Web應用、網絡監控、傳感監測等領域，興起了一種新的資料密集型應用——流資料，即資料以大量、快速、時變的流形式持續到達。執行個體：PM2.5檢測、電子商務網站使用者點選流。

流資料具有如下特征：

對靜态資料和流資料的處理，對應着兩種截然不同的計算模式：批量計算和實時計算。

基于spark的流式資料處理—批處理和流處理差別

1、批量計算：充裕時間處理靜态資料，如Hadoop；

2、流資料不适合采用批量計算，因為流資料不适合用傳統的關系模型模組化；

3、流資料必須采用實時計算，響應時間為秒級；

4、資料量少時，不是問題，但是，在大資料時代，資料格式複雜、來源衆多、資料量巨大，對實時計算提出了很大的挑戰。是以，針對流資料的實時計算——流計算，應運而生。