天天看點

flink寫hdfs inprogress檔案問題

flink落地到hdfs的檔案,在hive中讀不到數。檢視對應路徑下檔案為.inprogress檔案。

原因:.inprogress檔案為未完成檔案,hive讀取不到點開頭的檔案

flink寫hdfs,正在寫的檔案會是.inprogress的,寫完成會滾動為正常檔案

通過withRollingPolicy的DefaultRollingPolicy設定合理的最大檔案大小和滾動時間。

注意:檔案大小如果設定過大,則一直是不可見檔案;設定過小,則會産生很多小檔案