流式計算架構有Strom,Spark,Flink
目前Spark主要應用于離線資料批量導入,相比于XDATA導入工具是有邏輯處理的,微批處理能力不錯;
Strom主要應用于MQ的實時消費(push過來的資料),來一條資料處理一條資料,實時性比較好
Flink大資料的新趨勢,功能強大,批處理和實時處理,豐富的視窗功能:
checkpoint:保證資料不丢失
offset:每一條消息有個位置标記以便于系統出故障時可以重新消費,flink記憶體:統計計算
Event time (事件時間) :印刷時間 比如前段埋點的時間,目前一般用的Event time,但如果Event time也有些延遲的話,需要借助設定水位來緩沖,保證資料不丢失
Windows視窗:
Tumbling Windows(翻轉視窗)

Sliding Windows(滑動視窗)
window slide: 精準度
window size:視窗大小
Session Windows(會話視窗)
Time時間:
Event time (事件時間) :印刷時間 比如前段埋點的時間
Ingestion time(提取時間):提取時間 資料采集的時間
Processing time(處理時間):處理時間 flink處理時間
Watermarks水印:
案例:
實時特征計算:
要求資料實效性達到秒級
最近15分鐘保險勾選、取消次數
最近30分鐘保險勾選、取消次數
最近60分鐘保險勾選、取消次數
采用的滑動視窗
KAFKA消息機關時間内統計:比如統計保險15min點選勾選數
1、每5S收集一次後再進行疊加計算
2、flink視窗計算
3、記憶體存儲是否足夠
4、消息是否有丢失
測試功能點:
資料來源正确性驗證
消息正确性驗證
消息丢失率驗證
flink視窗測試
流式計算測試
記憶體存儲測試
故障恢複測試