本文以康哥的部落格為基礎進行修改和補充,詳見:http://kangfoo.github.io/article/2014/01/hadoop1.x-wordcount-fen-xi/
hadoop mapreduce 過程粗略的分為兩個階段:
1.map;
2.redurce(copy, sort, reduce)
具體的工作機制還是挺複雜的,這裡主要通過hadoop example
jar中提供的wordcount來對hadoop mapredurce做個簡單的了解。
wordcount程式輸入檔案類型,計算單詞的頻率。輸出是文本檔案:每行是單詞和它出現的頻率,用tab鍵隔開。
步驟:
首先確定hadoop叢集正常運作,并了解mapredurce工作時涉及到的基本的檔案備配。
<code>vi mapred-site.xml</code>
2. 上傳一個檔案到hdfs檔案系統
3. 執行workcount
<code> $ ./bin/hadoop jar hadoop-examples-1.2.1.jar wordcount /test/input /test/output</code>