天天看點

Flume的Source技術選型

項目技術背景

将data路徑下所有日志檔案通過Flume采集到HDFS上

五分鐘一個目錄,一分鐘形成一個檔案

技術選型

flume中有三種可監控檔案或目錄的source,分别為exec、spooldir、taildir

exec:可通過tail -f指令去tail住一個檔案,然後實時同步日志到sink,這種方式可能會丢資料

詳情可見官網說明

官網截圖

spooldir:可監聽一個目錄,同步目錄中的新檔案到sink,被同步完的檔案可被立即删除或被打上标記。适合用于同步新檔案,但不适合對實時追加日志的檔案進行監聽并同步。

taildir:可實時監控一批檔案,并記錄每個檔案最新消費位置,agent程序重新開機後不會有重複消費的問題。

故本次選擇 taildir - file - HDFS

配置agent

啟動flume

繼續閱讀