初學耗時:0.5h
注:CSDN手機端暫不支援章節内鍊跳轉,但外鍊可用,更好體驗還請上電腦端。
一、擴充 Flume 采集資料
1.1 Flume 采集。
1.2 資料内容樣例。
記憶詞:
filegroups、positionFile
Z05 - 999、網站流量日志分析
ギ 舒适區ゾ || ♂ 累覺無愛 ♀
一、擴充 Flume 采集資料
1.1 ~ Flume 采集。
-
Flume 采集系統的搭建相對簡單:
1、在伺服器上部署 agent 節點,修改配置檔案
2、啟動 agent 節點,将采集到的資料彙聚到指定的 HDFS 目錄中
- 針對 nginx 日志生成場景,如果通過 flume(1.6)收集,無論是 Spooling Directory Source 和 Exec Source 均不能滿足動态實時收集的需求,在目前 flume1.7 穩定版本中,提供了一個非常好用的 TaildirSource,使用這個source,可以監控一個目錄,并且使用正規表達式比對該目錄中的檔案名進行實時收集。
- 核心配置如下:
a1.sources = r1
a1.sources.r1.type = TAILDIR
a1.sources.r1.channels = c1
a1.sources.r1.positionFile = /var/log/flume/taildir_position.json
a1.sources.r1.filegroups = f1 f2
a1.sources.r1.filegroups.f1 = /var/log/test1/example.log
a1.sources.r1.filegroups.f2 = /var/log/test2/.*log.*
- filegroups:指定 filegroups,可以有多個,以空格分隔;(TailSource 可以同時監控tail 多個目錄中的檔案)
- positionFile:配置檢查點檔案的路徑,檢查點檔案會以 json 格式儲存已經 tail 檔案的位置,解決了斷點不能續傳的缺陷。
- filegroups.:配置每個 filegroup 的檔案絕對路徑,檔案名可以用正規表達式比對通過以上配置,就可以監控檔案内容的增加和檔案的增加。産生和所配置的檔案名正規表達式不比對的檔案,則不會被 tail。
1.2 ~ 資料内容樣例。
58.215.204.118 - - [18/Sep/2018:06:51:35 +0000] "GET /wp-includes/js/jquery/jquery.js?ver=1.10.2 HTTP/1.1"
304 0 "http://blog.fens.me/nodejs-socketio-chat/" "Mozilla/5.0 (Windows NT 5.1; rv:23.0) Gecko/20100101
Firefox/23.0"
- 字段解析:
- 訪客 ip 位址: 58.215.204.118
- 訪客使用者資訊: - -
- 請求時間:[18/Sep/2018:06:51:35 +0000]
- 請求方式:GET
- 請求的 url:/wp-includes/js/jquery/jquery.js?ver=1.10.2
- 請求所用協定:HTTP/1.1
- 響應碼:304
- 傳回的資料流量:0
- 訪客的來源 url:http://blog.fens.me/nodejs-socketio-chat/
- 訪客所用浏覽器:Mozilla/5.0 (Windows NT 5.1; rv:23.0) Gecko/20100101 Firefox/23.0
明月松間照,清泉石上流。
- - - - - - - - - - - - - - - - - - - - - - - - - - - -
^ 至此,擴充 Flume 采集資料完成。
- - - - - - - - - - - - - - - - - - - - - - - - - - - -
※ 世間誘惑何其多,堅定始終不動搖。
結構化程式設計把程式的結構分解成三種基本子產品:_____,循環機制和二分決策機制。
…
處理單元
明月松間照,清泉石上流。
- - - - - - - - - - - - - - - - - - - - - - - - - - - -
注:CSDN手機端暫不支援章節内鍊跳轉,但外鍊可用,更好體驗還請上電腦端。
我知道我的不足,我也知道你的挑剔,但我就是我,不一樣的煙火,謝謝你的指指點點,造就了我的點點滴滴:)!
明月松間照,清泉石上流。