采集需求:某伺服器的某特定目錄下,會不斷産生新的檔案,每當有新檔案出現,就需要把檔案采集到hdfs中去
根據需求,首先定義以下3大要素
采集源,即source——監控檔案目錄 : spooldir
下沉目标,即sink——hdfs檔案系統 : hdfs sink
source和sink之間的傳遞通道——channel,可用file channel 也可以用記憶體channel
配置檔案spooldir-hdfs.conf編寫:
channel參數解釋:
capacity:預設該通道中最大的可以存儲的event數量
trasactioncapacity:每次最大可以從source中拿到或者送到sink中的event數量
keep-alive:event添加到通道中或者移出的允許時間
執行指令
接着往/home/tuzq/software/flumedata檔案夾中扔檔案
扔了之後,現象是
1、/home/tuzq/software/flumedata檔案檔案夾下的檔案倍加了一個一個字尾.completed,
2、在flume的監控位置,出現類似下圖一樣的檔案:
3、到hdfs上檢視檔案:
綜上所述:說明通過flume已經把新增的檔案下沉到了hdfs中。