天天看点

flume source channel sink

flume的source channel sink官网文档很丰富,有什么配置项不清晰直接参考官网文档。文档里面的粗体项是指必须配置的项。参考:Flume Sources

source

1.Spooling Directory Source.监控某个目录的source。监控到的文件会重命名成.COMPLETED,监控目录中如果有文件不是COMPLETED结尾的,source都会采集,包括监控目录历史的数据。重命名的后缀是可配置的。启动flume agent进程的用户要对监控的文件夹有读写权限,否则会报错,监控不了。但是里面的文件只需要有读的权限就可以了。

sink

1.HDFS Sink.将channel中的数据输出到hdfs目录,主意属性hdfs.fileType,如果没有配置输出的数据是乱码的,要改成DataStream,我们看起来才不会乱码。参考:Flume采集数据到HDFS时,生成的文件中,开头信息有乱码

一个source对应多个channel,sink的情形,一个channel只能发送到一个sink中,参考:Flume一个数据源对应多个channel,多个sink

配置案例如下:

stbagent.sources  = stbs1

stbagent.channels = stbc1 stbc2

stbagent.sinks  = stbk1 kafkasink

# sources

stbagent.sources.stbs1.type = spooldir

stbagent.sources.stbs1.spoolDir = /tmp/flume-monitor-dir

stbagent.sources.stbs1.channels = stbc1 stbc2

# channels

stbagent.channels.stbc1.type = memory

stbagent.channels.stbc2.type = memory

# sinks

stbagent.sinks.stbk1.type = hdfs

stbagent.sinks.stbk1.hdfs.path = /tmp/flume-monitor-dir

stbagent.sinks.stbk1.hdfs.fileType = DataStream

stbagent.sinks.stbk1.channel = stbc1

stbagent.sinks.kafkasink.type = org.apache.flume.sink.kafka.KafkaSink

stbagent.sinks.kafkasink.brokerList = 192.168.1.11:9092,192.168.1.12:9092,192.168.1.13:9092

stbagent.sinks.kafkasink.topic = flume-topic

stbagent.sinks.kafkasink.channel = stbc2

版权声明:本文为CSDN博主「weixin_34112030」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。

原文链接:https://blog.csdn.net/weixin_34112030/article/details/91584341

继续阅读