天天看點

hadoop wordCount運作

本文以康哥的部落格為基礎進行修改和補充,詳見:http://kangfoo.github.io/article/2014/01/hadoop1.x-wordcount-fen-xi/

hadoop mapreduce 過程粗略的分為兩個階段:

       1.map;

       2.redurce(copy, sort, reduce)

具體的工作機制還是挺複雜的,這裡主要通過hadoop example

jar中提供的wordcount來對hadoop mapredurce做個簡單的了解。

wordcount程式輸入檔案類型,計算單詞的頻率。輸出是文本檔案:每行是單詞和它出現的頻率,用tab鍵隔開。

步驟:

首先確定hadoop叢集正常運作,并了解mapredurce工作時涉及到的基本的檔案備配。    

<code>vi mapred-site.xml</code>

      2. 上傳一個檔案到hdfs檔案系統       

     3. 執行workcount 

<code>      $ ./bin/hadoop jar hadoop-examples-1.2.1.jar wordcount /test/input /test/output</code>