天天看點

基于spark的流式資料處理—批處理和流處理差別

靜态資料

很多企業為了支援決策分析而建構的資料倉庫系統,其中存放的大量曆史資料就是靜态資料。技術人員可以利用資料挖掘和OLAP(On-Line Analytical Processing)分析工具從靜态資料中找到對企業有價值的資訊。

基于spark的流式資料處理—批處理和流處理差別

流資料

近年來,在Web應用、網絡監控、傳感監測等領域,興起了一種新的資料密集型應用——流資料,即資料以大量、快速、時變的流形式持續到達。執行個體:PM2.5檢測、電子商務網站使用者點選流。

流資料具有如下特征:

  • 資料快速持續到達,潛在大小也許是無窮無盡的;
  • 資料來源衆多,格式複雜;
  • 資料量大,但是不十分關注存儲,一旦經過處理,要麼被丢棄,要麼被歸檔存儲;
  • 注重資料的整體價值,不過分關注個别資料;
  • 資料順序颠倒,或者不完整,系統無法控制将要處理的新到達的資料元素的順序;

批處理與流處理

對靜态資料和流資料的處理,對應着兩種截然不同的計算模式:批量計算和實時計算。

基于spark的流式資料處理—批處理和流處理差別

1、批量計算:充裕時間處理靜态資料,如Hadoop;

2、流資料不适合采用批量計算,因為流資料不适合用傳統的關系模型模組化;

3、流資料必須采用實時計算,響應時間為秒級;

4、資料量少時,不是問題,但是,在大資料時代,資料格式複雜、來源衆多、資料量巨大,對實時計算提出了很大的挑戰。是以,針對流資料的實時計算——流計算,應運而生。

繼續閱讀