hadoop wordCount運作

2021-11-07 23:35:46

本文以康哥的部落格為基礎進行修改和補充，詳見：http://kangfoo.github.io/article/2014/01/hadoop1.x-wordcount-fen-xi/

hadoop mapreduce 過程粗略的分為兩個階段：

1.map;

2.redurce(copy, sort, reduce)

具體的工作機制還是挺複雜的，這裡主要通過hadoop example

jar中提供的wordcount來對hadoop mapredurce做個簡單的了解。

wordcount程式輸入檔案類型，計算單詞的頻率。輸出是文本檔案：每行是單詞和它出現的頻率，用tab鍵隔開。

步驟：

首先確定hadoop叢集正常運作，并了解mapredurce工作時涉及到的基本的檔案備配。

<code>vi mapred-site.xml</code>

2. 上傳一個檔案到hdfs檔案系統

3. 執行workcount

<code> $ ./bin/hadoop jar hadoop-examples-1.2.1.jar wordcount /test/input /test/output</code>

繼續閱讀