三十二、基于Hadoop伪分布式运行Hadoop自带wordcount案例

2023-04-18 06:46:50

环境背景：

Hadoop伪分布式已经搭建完成

Hadoop2.6.0

Hadoop伪分布搭建见：

Hadoop伪分布式的搭建详情https://blog.csdn.net/m0_54925305/article/details/118650350?spm=1001.2014.3001.5502

三十二、基于Hadoop伪分布式运行Hadoop自带wordcount案例

https://blog.csdn.net/m0_54925305/article/details/118650350?spm=1001.2014.3001.5502

案例实施：

1.启动集群：

三十二、基于Hadoop伪分布式运行Hadoop自带wordcount案例

2.进入虚拟机浏览器地址栏localhost:50070和localhost:8088查看集群状态：

三十二、基于Hadoop伪分布式运行Hadoop自带wordcount案例

注：Wordcount是MapReduce的入门示例程序，相当于我们在学某个编程语言时写的Hello World示例一样。这个程序可以统计某个文件中，各个单词出现的次数。Wordcount程序自带的jar包已经放置在hadoop安装目录下的 /share/hadoop/mapreduce 文件夹中。

3.配置wordcount环境：

（1）进入Hadoop安装路径下可以看到：图中的txt文件为Hadoop自带的测试文件，这里将进行自定义文件进行操作。

三十二、基于Hadoop伪分布式运行Hadoop自带wordcount案例

（2）在这里我们新建wordcount.txt文件进行测试，文本内容如下：

三十二、基于Hadoop伪分布式运行Hadoop自带wordcount案例

（3）在HDFS根目录下新建input目录：

三十二、基于Hadoop伪分布式运行Hadoop自带wordcount案例

（4）将本地的wordcount.txt上传到HDFS的input目录下:

三十二、基于Hadoop伪分布式运行Hadoop自带wordcount案例

（5）查看文件是否上传成功:

三十二、基于Hadoop伪分布式运行Hadoop自带wordcount案例

注：如图出现/input和/input/wordcount.txt文件即为上传成功

4.运行wordcount案例:

三十二、基于Hadoop伪分布式运行Hadoop自带wordcount案例

注：使用hadoop jar命令 +mapreduce自带的jar包路径(绝对路径)+文件名+输入路径+输出路径 #此处jar包根据自身实际情况进行修改

运行过程注意观察这几处字样，即为运行成功：

三十二、基于Hadoop伪分布式运行Hadoop自带wordcount案例

5.查看运行结果：

再次查看运行结果文件：

三十二、基于Hadoop伪分布式运行Hadoop自带wordcount案例

可以看到，程序运行产生了很多文件，其中/output/part -r -00000即为程序运行完成时的结果文件，如下图：

三十二、基于Hadoop伪分布式运行Hadoop自带wordcount案例

三十二、基于Hadoop伪分布式运行Hadoop自带wordcount案例

环境背景：

案例实施：

基于Hadoop伪分布式运行Hadoop自带wordcount案例完成

继续阅读

更改LYNC SIP地址

hadoop 用MR实现join操作

Centos7 下 Hadoop 2.6.4 分布式集群环境搭建摘要集群准备安装JDK 安装 Hadoop 2.6.4 部署 slaver1-slaver4 启动 hadoop 集群成功了

Storm编译打包过程中遇到的一些问题及解决方法

ansible配置文件说明及ad hoc命令

vsftpd dead but subsys locked 的解决方法

MapReduce的几个企业级经典面试案例MapReduce的几个企业级经典面试案例

Shell编程——sort排序、uniq忽略重复、tr替换压缩删除、cut指定删除字段、正则表达式元字符sort 命令uniq 命令tr 命令cut 命令正则表达式

ubuntu14.04下安装hbse1.0.1.1

Linxu常用命令技巧汇总

httpd服务的部署、启动、配置和简单优化一、部署二、启动三、配置文件

《Linux命令行与Shell脚本编程大全第2版.布卢姆》pdf

User Defined Hadoop DataType

nginx 安装错误信息解决

oracle安装笔记--win7 Windows server 2008 安装64位 oracle10g

Ambari介绍和架构原理