天天看點

Hadoop自帶WordCount進行詞頻統計(mapreduce)step1

Hadoop自帶WordCount進行詞頻統計

準備:

  • 安裝好的Hadoop
  • 需要統計詞頻txt檔案(用jieba分過詞的

    連結: pycharm 分詞 jieba 結巴分詞輸出txt.

step1

啟動Hadoop

cd /usr/local/hadoop

./sbin/start-all.sh

Hadoop自帶WordCount進行詞頻統計(mapreduce)step1

用jps指令檢視是否開啟成功

Hadoop自帶WordCount進行詞頻統計(mapreduce)step1

準備好需要統計詞頻的txt檔案(也可以用filezilla傳入Ubuntu)

連結: 如何用filezilla連接配接Ubuntu.

  • 找到Hadoop檔案所在位置
Hadoop自帶WordCount進行詞頻統計(mapreduce)step1
Hadoop自帶WordCount進行詞頻統計(mapreduce)step1
Hadoop自帶WordCount進行詞頻統計(mapreduce)step1
Hadoop自帶WordCount進行詞頻統計(mapreduce)step1
  • 把需要計算詞頻的檔案放在Hadoop檔案下(記得這個檔案要用jieba分好詞後的檔案)
    Hadoop自帶WordCount進行詞頻統計(mapreduce)step1

step2

使用Hadoop自帶的jar包用wordcount計算詞頻

  1. 建立一個檔案夾存放需要計算詞頻的txt檔案
bin/hdfs dfs -mkdir -p  /input
           
Hadoop自帶WordCount進行詞頻統計(mapreduce)step1
  1. 把需要計算詞頻的檔案放到剛剛所建的檔案夾中(txt檔案一定要放在Hadoop檔案夾下嗷)
bin/hdfs dfs -put hlm.txt  /input
           
Hadoop自帶WordCount進行詞頻統計(mapreduce)step1
  1. 檢視 /input檔案夾下面的檔案
bin/hdfs dfs -ls  /input
           
Hadoop自帶WordCount進行詞頻統計(mapreduce)step1
  1. 使用jar包中的wordcount計算詞頻

    jar包的位置:

    Hadoop自帶WordCount進行詞頻統計(mapreduce)step1

    share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar

    Hadoop自帶WordCount進行詞頻統計(mapreduce)step1
    計算詞頻代碼
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount  /input/hlm.txt  /out/hlmcount
           

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input/hlm.txt /out/hlmcount

注意每個人的Hadoop版本不同黃線上的檔案名也不同

Hadoop自帶WordCount進行詞頻統計(mapreduce)step1
敲下回車之後
Hadoop自帶WordCount進行詞頻統計(mapreduce)step1
  1. 檢視輸出的結果
bin/hdfs dfs -cat /out/hlmcount/part-r-00000
           
Hadoop自帶WordCount進行詞頻統計(mapreduce)step1
Hadoop自帶WordCount進行詞頻統計(mapreduce)step1

完美結束~

繼續閱讀