Hadoop自带WordCount进行词频统计（mapreduce）step1

2023-05-20 11:43:59

Hadoop自带WordCount进行词频统计

准备：

安装好的Hadoop
需要统计词频txt文件（用jieba分过词的

链接: pycharm 分词 jieba 结巴分词输出txt.

step1

启动Hadoop

cd /usr/local/hadoop

./sbin/start-all.sh

Hadoop自带WordCount进行词频统计（mapreduce）step1

用jps命令查看是否开启成功

Hadoop自带WordCount进行词频统计（mapreduce）step1

准备好需要统计词频的txt文件（也可以用filezilla传入Ubuntu）

链接: 如何用filezilla连接Ubuntu.

找到Hadoop文件所在位置

Hadoop自带WordCount进行词频统计（mapreduce）step1

把需要计算词频的文件放在Hadoop文件下（记得这个文件要用jieba分好词后的文件）

Hadoop自带WordCount进行词频统计（mapreduce）step1

step2

使用Hadoop自带的jar包用wordcount计算词频

创建一个文件夹存放需要计算词频的txt文件

bin/hdfs dfs -mkdir -p  /input

Hadoop自带WordCount进行词频统计（mapreduce）step1

把需要计算词频的文件放到刚刚所建的文件夹中（txt文件一定要放在Hadoop文件夹下嗷）

bin/hdfs dfs -put hlm.txt  /input

Hadoop自带WordCount进行词频统计（mapreduce）step1

查看 /input文件夹下面的文件

bin/hdfs dfs -ls  /input

Hadoop自带WordCount进行词频统计（mapreduce）step1

使用jar包中的wordcount计算词频

jar包的位置：

Hadoop自带WordCount进行词频统计（mapreduce）step1
share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar

Hadoop自带WordCount进行词频统计（mapreduce）step1
计算词频代码

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount  /input/hlm.txt  /out/hlmcount

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input/hlm.txt /out/hlmcount

注意每个人的Hadoop版本不同黄线上的文件名也不同

Hadoop自带WordCount进行词频统计（mapreduce）step1
敲下回车之后

Hadoop自带WordCount进行词频统计（mapreduce）step1

查看输出的结果

bin/hdfs dfs -cat /out/hlmcount/part-r-00000

Hadoop自带WordCount进行词频统计（mapreduce）step1

完美结束~

Hadoop自带WordCount进行词频统计（mapreduce）step1

step1

step2

继续阅读

MapReduce运行Wordcount时一直卡在INFO mapreduce.Job: Running job，web查看一直处于accepted阶段

ubuntu hadoop2.6.1，terminal下运行wordcount

MapReduce(一)：入门级程序wordcount及其分析

HiveQl语句应用实例：WordCount具体步骤如下：

hadoop操作遇到的问题问题一：输出文件已存在

用mapreduce计算wordCount和手机流量统计程序运行过程WordCount统计手机流量统计

Hadoop之运行wordcount

jdk1.7+Eclipse+Maven3.5+Hadoop2.7.3构建hadoop项目

Eclipse运行WordCount（详细版）相关连接Eclipse运行WordCount

专家访谈：搜索开源力量：Lucene技术前景

hadoop 用MR实现join操作

Centos7 下 Hadoop 2.6.4 分布式集群环境搭建摘要集群准备安装JDK 安装 Hadoop 2.6.4 部署 slaver1-slaver4 启动 hadoop 集群成功了

MapReduce的几个企业级经典面试案例MapReduce的几个企业级经典面试案例

ubuntu14.04下安装hbse1.0.1.1

User Defined Hadoop DataType

Ambari介绍和架构原理