1.flume是一個分布式、可靠、和高可用的海量日志采集、聚合和傳輸的系統。
2.flume可以采集檔案,socket資料包等各種形式源資料,又可以将采集到的資料輸出到hdfs、hbase、hive、kafka等衆多外部存儲系統中
3.一般的采集需求,通過對flume的簡單配置即可實作
4.flume針對特殊場景也具備良好的自定義擴充能力,是以,flume可以适用于大部分的日常資料采集場景
1、 flume分布式系統中最核心的角色是agent,flume采集系統就是由一個個agent所連接配接起來形成
2、 每一個agent相當于一個資料傳遞員,内部有三個元件:
a) source:采集源,用于跟資料源對接,以擷取資料
b) sink:下沉地,采集資料的傳送目的,用于往下一級agent傳遞資料或者往最終存儲系統傳遞資料
c) channel:angent内部的資料傳輸通道,用于從source将資料傳遞到sink
1. 簡單結構
單個agent采集資料
2. 複雜結構
多級agent之間串聯