天天看点

flink写hdfs inprogress文件问题

flink落地到hdfs的文件,在hive中读不到数。查看对应路径下文件为.inprogress文件。

原因:.inprogress文件为未完成文件,hive读取不到点开头的文件

flink写hdfs,正在写的文件会是.inprogress的,写完成会滚动为正常文件

通过withRollingPolicy的DefaultRollingPolicy设置合理的最大文件大小和滚动时间。

注意:文件大小如果设置过大,则一直是不可见文件;设置过小,则会产生很多小文件