天天看点

Hadoop自带WordCount进行词频统计(mapreduce)step1

Hadoop自带WordCount进行词频统计

准备:

  • 安装好的Hadoop
  • 需要统计词频txt文件(用jieba分过词的

    链接: pycharm 分词 jieba 结巴分词输出txt.

step1

启动Hadoop

cd /usr/local/hadoop

./sbin/start-all.sh

Hadoop自带WordCount进行词频统计(mapreduce)step1

用jps命令查看是否开启成功

Hadoop自带WordCount进行词频统计(mapreduce)step1

准备好需要统计词频的txt文件(也可以用filezilla传入Ubuntu)

链接: 如何用filezilla连接Ubuntu.

  • 找到Hadoop文件所在位置
Hadoop自带WordCount进行词频统计(mapreduce)step1
Hadoop自带WordCount进行词频统计(mapreduce)step1
Hadoop自带WordCount进行词频统计(mapreduce)step1
Hadoop自带WordCount进行词频统计(mapreduce)step1
  • 把需要计算词频的文件放在Hadoop文件下(记得这个文件要用jieba分好词后的文件)
    Hadoop自带WordCount进行词频统计(mapreduce)step1

step2

使用Hadoop自带的jar包用wordcount计算词频

  1. 创建一个文件夹存放需要计算词频的txt文件
bin/hdfs dfs -mkdir -p  /input
           
Hadoop自带WordCount进行词频统计(mapreduce)step1
  1. 把需要计算词频的文件放到刚刚所建的文件夹中(txt文件一定要放在Hadoop文件夹下嗷)
bin/hdfs dfs -put hlm.txt  /input
           
Hadoop自带WordCount进行词频统计(mapreduce)step1
  1. 查看 /input文件夹下面的文件
bin/hdfs dfs -ls  /input
           
Hadoop自带WordCount进行词频统计(mapreduce)step1
  1. 使用jar包中的wordcount计算词频

    jar包的位置:

    Hadoop自带WordCount进行词频统计(mapreduce)step1

    share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar

    Hadoop自带WordCount进行词频统计(mapreduce)step1
    计算词频代码
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount  /input/hlm.txt  /out/hlmcount
           

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input/hlm.txt /out/hlmcount

注意每个人的Hadoop版本不同黄线上的文件名也不同

Hadoop自带WordCount进行词频统计(mapreduce)step1
敲下回车之后
Hadoop自带WordCount进行词频统计(mapreduce)step1
  1. 查看输出的结果
bin/hdfs dfs -cat /out/hlmcount/part-r-00000
           
Hadoop自带WordCount进行词频统计(mapreduce)step1
Hadoop自带WordCount进行词频统计(mapreduce)step1

完美结束~

继续阅读