Hadoop自带WordCount进行词频统计
准备:
- 安装好的Hadoop
-
需要统计词频txt文件(用jieba分过词的
链接: pycharm 分词 jieba 结巴分词输出txt.
step1
启动Hadoop
cd /usr/local/hadoop
./sbin/start-all.sh
![](https://img.laitimes.com/img/_0nNw4CM6IyYiwiM6ICdiwiIyVGduV2YfNWawNyZuBnL5kDO3IzNxgTM2ITMxAjMwIzLc52YucWbp5GZzNmLn9Gbi1yZtl2Lc9CX6MHc0RHaiojIsJye.png)
用jps命令查看是否开启成功
准备好需要统计词频的txt文件(也可以用filezilla传入Ubuntu)
链接: 如何用filezilla连接Ubuntu.
- 找到Hadoop文件所在位置
- 把需要计算词频的文件放在Hadoop文件下(记得这个文件要用jieba分好词后的文件)
Hadoop自带WordCount进行词频统计(mapreduce)step1
step2
使用Hadoop自带的jar包用wordcount计算词频
- 创建一个文件夹存放需要计算词频的txt文件
bin/hdfs dfs -mkdir -p /input
- 把需要计算词频的文件放到刚刚所建的文件夹中(txt文件一定要放在Hadoop文件夹下嗷)
bin/hdfs dfs -put hlm.txt /input
- 查看 /input文件夹下面的文件
bin/hdfs dfs -ls /input
-
使用jar包中的wordcount计算词频
jar包的位置:
Hadoop自带WordCount进行词频统计(mapreduce)step1 share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar
计算词频代码Hadoop自带WordCount进行词频统计(mapreduce)step1
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input/hlm.txt /out/hlmcount
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input/hlm.txt /out/hlmcount
注意每个人的Hadoop版本不同黄线上的文件名也不同
敲下回车之后![]()
Hadoop自带WordCount进行词频统计(mapreduce)step1 ![]()
Hadoop自带WordCount进行词频统计(mapreduce)step1
- 查看输出的结果
bin/hdfs dfs -cat /out/hlmcount/part-r-00000
完美结束~