靜态資料
很多企業為了支援決策分析而建構的資料倉庫系統,其中存放的大量曆史資料就是靜态資料。技術人員可以利用資料挖掘和OLAP(On-Line Analytical Processing)分析工具從靜态資料中找到對企業有價值的資訊。
流資料
近年來,在Web應用、網絡監控、傳感監測等領域,興起了一種新的資料密集型應用——流資料,即資料以大量、快速、時變的流形式持續到達。執行個體:PM2.5檢測、電子商務網站使用者點選流。
流資料具有如下特征:
- 資料快速持續到達,潛在大小也許是無窮無盡的;
- 資料來源衆多,格式複雜;
- 資料量大,但是不十分關注存儲,一旦經過處理,要麼被丢棄,要麼被歸檔存儲;
- 注重資料的整體價值,不過分關注個别資料;
- 資料順序颠倒,或者不完整,系統無法控制将要處理的新到達的資料元素的順序;
批處理與流處理
對靜态資料和流資料的處理,對應着兩種截然不同的計算模式:批量計算和實時計算。
1、批量計算:充裕時間處理靜态資料,如Hadoop;
2、流資料不适合采用批量計算,因為流資料不适合用傳統的關系模型模組化;
3、流資料必須采用實時計算,響應時間為秒級;
4、資料量少時,不是問題,但是,在大資料時代,資料格式複雜、來源衆多、資料量巨大,對實時計算提出了很大的挑戰。是以,針對流資料的實時計算——流計算,應運而生。