天天看點

Flink流式計算測試

流式計算架構有Strom,Spark,Flink

目前Spark主要應用于離線資料批量導入,相比于XDATA導入工具是有邏輯處理的,微批處理能力不錯;

Strom主要應用于MQ的實時消費(push過來的資料),來一條資料處理一條資料,實時性比較好

Flink大資料的新趨勢,功能強大,批處理和實時處理,豐富的視窗功能:

checkpoint:保證資料不丢失

offset:每一條消息有個位置标記以便于系統出故障時可以重新消費,flink記憶體:統計計算

Event time (事件時間) :印刷時間 比如前段埋點的時間,目前一般用的Event time,但如果Event time也有些延遲的話,需要借助設定水位來緩沖,保證資料不丢失

Windows視窗:

Tumbling Windows(翻轉視窗)

Flink流式計算測試

Sliding Windows(滑動視窗)

Flink流式計算測試

window slide: 精準度

window size:視窗大小

Session Windows(會話視窗)

Flink流式計算測試

Time時間:

Event time (事件時間) :印刷時間 比如前段埋點的時間

Ingestion time(提取時間):提取時間 資料采集的時間

Processing time(處理時間):處理時間 flink處理時間

Watermarks水印:

Flink流式計算測試

案例:

實時特征計算:

要求資料實效性達到秒級

最近15分鐘保險勾選、取消次數

最近30分鐘保險勾選、取消次數

最近60分鐘保險勾選、取消次數

采用的滑動視窗

KAFKA消息機關時間内統計:比如統計保險15min點選勾選數

1、每5S收集一次後再進行疊加計算

2、flink視窗計算

3、記憶體存儲是否足夠

4、消息是否有丢失

測試功能點:

資料來源正确性驗證

消息正确性驗證

消息丢失率驗證

flink視窗測試

流式計算測試

記憶體存儲測試

故障恢複測試

繼續閱讀