官方有提供checkpointing debug建議。
https://ci.apache.org/projects/flink/flink-docs-release-1.4/ops/state/large_state_tuning.html
現在遇到過的情況列舉如下:
通過成功的checkpointing曆史記錄,檢視start delay時間,推斷出現在系統有背壓。
第一次checkpointing就耗時很長,最終逾時。
是有特殊的髒資料導緻代碼邏輯出bug,一直在while循環。 barrier 流不下去,導緻一個task一直不能checkpoint成功。