天天看點

[Hadoop In Action]學習筆記-Hadoop中的Streaming

Hadoop支援非java預言來編寫程式,這就會用到Streaming的通用API。

Hadoop Streaming使用流與程式進行互動。從STDIN輸入資料,輸出到STDOUT。資料必須為文本,而且每一行被視為一條記錄。

用Streaming處理鍵-值

預設情況下,Streaming使用制表符分離記錄中的鍵與值。當沒有制表符時,整個記錄被視為鍵,而值為空白文本。

Streaming API把reducer輸出的每一行用制表符分開,并将鍵值對送入預設的TextOutputFormat中,即在結果被寫入檔案之前,預設的重新插入一個制表符

本文轉自 virusswb 51CTO部落格,原文連結:http://blog.51cto.com/virusswb/838607,如需轉載請自行聯系原作者