3 核心架構及其元件
3.1 core架構
3.2 核心的元件
順便來看看
官方文檔3.2.1 Source - 收集
指定資料源(Avro, Thrift, Spooling, Kafka, Exec)
3.2.2 Channel - 聚集
把資料暫存(Memory, File, Kafka等用的比較多)
3.2.3 Sink - 輸出
把資料寫至某處(HDFS, Hive, Logger, Avro, Thrift, File, ES, HBase, Kafka等)
multi-agent flow
為了跨多個代理或跳資料流,先前代理的接收器和目前跳的源需要是avro類型,接收器指向源的主機名(或IP位址)和端口。
Consolidation合并
日志收集中非常常見的情況是大量日志生成用戶端将資料發送到連接配接到存儲子系統的少數消費者代理。 例如,從數百個Web伺服器收集
Multiplexing the flow
Flume支援将事件流多路複用到一個或多個目的地。 這是通過定義可以複制或選擇性地将事件路由到一個或多個信道的流複用器來實作的。
上面的例子顯示了來自代理“foo”的源代碼将流程擴充到三個不同的通道。 扇出可以複制或多路複用。 在複制流的情況下,每個事件被發送到所有三個通道。 對于多路複用情況,當事件的屬性與預配置的值比對時,事件将被傳遞到可用通道的子集。 例如,如果一個名為“txnType”的事件屬性設定為“customer”,那麼它應該轉到channel1和channel3,如果它是“vendor”,那麼它應該轉到channel2,否則轉到channel3。 可以在代理的配置檔案中設定映射。