Flume-ng HDFS Sink “丢資料”

2017-11-14 23:50:00

線上對Flume流入HDFS配置path:p1，每分鐘切一個檔案，定期從p1從move完成的（rename）檔案到外部表進行計算分析，發現有“丢資料”現象：即在p1下經常看到幾GB的.tmp檔案，檢視Flume日志發現當出現CallTimeout Exception :HDFS IO ERROR後，sink一直向.tmp寫入，而不進行rename.

預設情況下，當BucketWriter flush超過calltimeout（default:10s）時，會報出異常，這時可能HDFS或者網絡異常，如果恰好到達了rollinterval，bucketWriter執行close->flush也會報出同樣的異常：Unexpectederror，沒有執行到renameBucket，此後該bucketWriter保持打開狀态（因為intervalroll隻在bucketWriter打開時進行一次排程），一直進行資料寫入不再roll直到1.建立寫的路徑2.Flume重新開機 3.打開到達maxOpenFiles，這些是不可接受的.

檢視源碼發現在每次flush時會判斷是否使用idleTime，如果使用則會排程一個idleHandler thread進行清理：1.關閉bucketWriter 2.從LRUList中摘除掉bucketWriter，而預設竟然是不啟用的=.=，後設定idleTime稍大于roll interval後，不再出現“資料丢失”

BTW，對于HDFS SINK，callTimeout和idleTimeout的預設值真是太傻了...

本文轉自MIKE老畢 51CTO部落格，原文連結：http://blog.51cto.com/boylook/1308188，如需轉載請自行聯系原作者

Flume-ng HDFS Sink “丢資料”

繼續閱讀

如何使用Asp.net Core實作定時任務，輕松解決任務排程問題！

基于蜜蜂算法的資源受限項目優化排程（Matlab代碼實作）

對于時間輪算法的一些思考

【工廠中的房間排程】基于全球鄰域和爬坡來優化模糊柔性作業工廠中的房間排程問題（Matlab代碼實作）

曆經3年的打磨，資料建構及管理平台Dataphin增加了什麼新功能？

企業運維實戰--k8s學習筆記9.k8s排程前言–排程器簡介k8s排程

邊緣計算在天貓精靈雲應用上的落地實踐

解讀 WebRTC 音頻 NetEQ 及優化實踐為什麼要 “白話” NetEQ?丢包、抖動和優化的了解NetEQ 及相關子產品NetEQ 内部子產品NetEQ 相關子產品優化點總結

企業上雲的智能指揮官——混合雲管理平台

python任務排程之schedule

Flink 助力美團數倉增量生産的應用實踐

Kubernetes中的負載均衡全解

平步雲APS系統是一種先進的的管理系統，具有實時、同步、限制模拟能力和優化對比功能，可以執行長期和短期的計劃。該系統采用

35.Spark系統運作内幕機制循環流程

Linux任務排程(二)—cron

golang技術随筆（二）了解goroutine程序、線程和協程淺析goroutinego運作時排程參考資料