天天看点

[Hadoop In Action]学习笔记-Hadoop中的Streaming

Hadoop支持非java预言来编写程序,这就会用到Streaming的通用API。

Hadoop Streaming使用流与程序进行交互。从STDIN输入数据,输出到STDOUT。数据必须为文本,而且每一行被视为一条记录。

用Streaming处理键-值

默认情况下,Streaming使用制表符分离记录中的键与值。当没有制表符时,整个记录被视为键,而值为空白文本。

Streaming API把reducer输出的每一行用制表符分开,并将键值对送入默认的TextOutputFormat中,即在结果被写入文件之前,默认的重新插入一个制表符

本文转自 virusswb 51CTO博客,原文链接:http://blog.51cto.com/virusswb/838607,如需转载请自行联系原作者