Hadoop自帶WordCount進行詞頻統計
準備:
- 安裝好的Hadoop
-
需要統計詞頻txt檔案(用jieba分過詞的
連結: pycharm 分詞 jieba 結巴分詞輸出txt.
step1
啟動Hadoop
cd /usr/local/hadoop
./sbin/start-all.sh
用jps指令檢視是否開啟成功
準備好需要統計詞頻的txt檔案(也可以用filezilla傳入Ubuntu)
連結: 如何用filezilla連接配接Ubuntu.
- 找到Hadoop檔案所在位置
- 把需要計算詞頻的檔案放在Hadoop檔案下(記得這個檔案要用jieba分好詞後的檔案)
step2
使用Hadoop自帶的jar包用wordcount計算詞頻
- 建立一個檔案夾存放需要計算詞頻的txt檔案
bin/hdfs dfs -mkdir -p /input
- 把需要計算詞頻的檔案放到剛剛所建的檔案夾中(txt檔案一定要放在Hadoop檔案夾下嗷)
bin/hdfs dfs -put hlm.txt /input
- 檢視 /input檔案夾下面的檔案
bin/hdfs dfs -ls /input
-
使用jar包中的wordcount計算詞頻
jar包的位置:
計算詞頻代碼share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input/hlm.txt /out/hlmcount
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input/hlm.txt /out/hlmcount
注意每個人的Hadoop版本不同黃線上的檔案名也不同
敲下回車之後
- 檢視輸出的結果
bin/hdfs dfs -cat /out/hlmcount/part-r-00000
完美結束~