flume的source channel sink官网文档很丰富,有什么配置项不清晰直接参考官网文档。文档里面的粗体项是指必须配置的项。参考:Flume Sources
source
1.Spooling Directory Source.监控某个目录的source。监控到的文件会重命名成.COMPLETED,监控目录中如果有文件不是COMPLETED结尾的,source都会采集,包括监控目录历史的数据。重命名的后缀是可配置的。启动flume agent进程的用户要对监控的文件夹有读写权限,否则会报错,监控不了。但是里面的文件只需要有读的权限就可以了。
sink
1.HDFS Sink.将channel中的数据输出到hdfs目录,主意属性hdfs.fileType,如果没有配置输出的数据是乱码的,要改成DataStream,我们看起来才不会乱码。参考:Flume采集数据到HDFS时,生成的文件中,开头信息有乱码
一个source对应多个channel,sink的情形,一个channel只能发送到一个sink中,参考:Flume一个数据源对应多个channel,多个sink
配置案例如下:
stbagent.sources = stbs1 stbagent.channels = stbc1 stbc2 stbagent.sinks = stbk1 kafkasink # sources stbagent.sources.stbs1.type = spooldir stbagent.sources.stbs1.spoolDir = /tmp/flume-monitor-dir stbagent.sources.stbs1.channels = stbc1 stbc2 # channels stbagent.channels.stbc1.type = memory stbagent.channels.stbc2.type = memory # sinks stbagent.sinks.stbk1.type = hdfs stbagent.sinks.stbk1.hdfs.path = /tmp/flume-monitor-dir stbagent.sinks.stbk1.hdfs.fileType = DataStream stbagent.sinks.stbk1.channel = stbc1 stbagent.sinks.kafkasink.type = org.apache.flume.sink.kafka.KafkaSink stbagent.sinks.kafkasink.brokerList = 192.168.1.11:9092,192.168.1.12:9092,192.168.1.13:9092 stbagent.sinks.kafkasink.topic = flume-topic stbagent.sinks.kafkasink.channel = stbc2 |
版权声明:本文为CSDN博主「weixin_34112030」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/weixin_34112030/article/details/91584341