本節書摘來自華章出版社《flume日志收集與mapreduce模式》一書中的第3章,第3.3節,作者 [美] 史蒂夫·霍夫曼(steve hoffman)斯裡納特·佩雷拉(srinath perera),更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視
本章介紹了在資料處理管道中常用的兩類通道。
記憶體通道提供了更快的速度,這是以故障事件出現時資料丢失為代價的。
此外,檔案通道提供了更可靠的傳輸,因為它能容忍代理故障與重新開機,這是以犧牲性能為代價的。
你需要确定哪種通道更适合于你的使用場景。在确定記憶體通道是否适合時,請問問自己丢失一些資料的經濟上的代價如何。在考慮是否使用持久化通道時請衡量它與添加更多的硬體以彌補性能上的差異時的代價相比如何。另一個考慮就是資料問題了。寫入到hadoop中的資料不一定都來自于流式應用日志。如果接收的是每天的資料下載下傳,那麼就可以使用記憶體通道了,因為一旦遇到了問題還可以重新導入。

下一章将會介紹接收器。特别是将事件寫到hdfs中的hdfs接收器;此外,還會介紹事件序列化器,它指定了如何将flume事件轉換為更加适合于接收器處理的輸出。最後,下一章将會介紹接收處理器以及如何在分層配置中建立負載均衡與故障路徑,進而實作更為健壯的資料傳輸。