項目技術背景
将data路徑下所有日志檔案通過Flume采集到HDFS上
五分鐘一個目錄,一分鐘形成一個檔案
技術選型
flume中有三種可監控檔案或目錄的source,分别為exec、spooldir、taildir
exec:可通過tail -f指令去tail住一個檔案,然後實時同步日志到sink,這種方式可能會丢資料
詳情可見官網說明
官網截圖
spooldir:可監聽一個目錄,同步目錄中的新檔案到sink,被同步完的檔案可被立即删除或被打上标記。适合用于同步新檔案,但不适合對實時追加日志的檔案進行監聽并同步。
taildir:可實時監控一批檔案,并記錄每個檔案最新消費位置,agent程序重新開機後不會有重複消費的問題。
故本次選擇 taildir - file - HDFS
配置agent
啟動flume