一、Hadoop2.4.0環境下Eclipse平台的搭建
1.安裝Eclipse
對于hadoop叢集,我們将eclipse安裝在master節點上,首先下載下傳Eclipse安裝包(如:eclipse-jee-luna-SR1-linux-gtk.tar.gz)然後用tar -zxvf 指令解壓,并把解壓後的目錄移動到/usr/local路徑下,然後啟動eclipse:
Hadoop2.4.0 中Eclipse 平台的搭建一、Hadoop2.4.0環境下Eclipse平台的搭建

下載下傳網址:http://www.eclipse.org/downloads/?osType=linux&release=undefined
2.在eclipse上安裝hadoop插件
由于我們使用的是hadoop2.x版本的,是以插件我們也要下載下傳 相應的版本(下載下傳位址:http://pan.baidu.com/s/1mgiHFok)。下載下傳的zip檔案包含了源碼,我們使用使用編譯好的jar即可。解壓後,release目錄中的hadoop.eclipse-kepler-plugin-2.2.0.jar就是編譯好的插件。我們将該jar包移動到/usr/local/eclipse/plugins目錄下,然後重新開機eclipse:
當從上圖中左側"Project Explorer"下面發現"DFSLocations",說明eclipse已經識别剛才放入的HadoopEclipse插件了。
3.配置Hadoop installation directory
選擇"Window"菜單下的"Preference"(如上圖),然後彈出一個窗體,在窗體的左側,有一列選項,裡面會多出"HadoopMap/Reduce"選項,點選此選項,設定Hadoop的安裝目錄(如我的Hadoop目錄是:/usr/hadoop)。結果如下圖:
4.配置Map/Reduce Locations
打開Window—Open Perspective—Other,彈出一個窗體,從中選擇"Map/Reduce"選項即可進行切換:
點選OK按鈕後,在Eclipse軟體的右上角活着右下角,會有如圖所示的标志:
點選右下角标志:
選擇“小象”圖示,打開Hadoop Location配置視窗,并進行先關設定:
點選"finish"之後,會發現Eclipse軟體下面的"Map/Reduce Locations"出現一條資訊,即我們剛才建立的"Map/ReduceLocation".
檢視HDFS檔案系統,并嘗試建立檔案夾和上傳檔案。當我們在/usr/hadoop目錄下有input和output目錄時:
此時點選eclipse軟體左側的"DFS Locations"下面:我們也看到了input和output目錄,如圖:
到此為止,我們的 Hadoop Eclipse 開發環境已經配置完畢。
二、Eclipse調試及運作mapreduce程式
用eclipse運作mapreduce程式,便于mapreduce程式的編寫和調試。我們以用測試hadoop自帶的mapreduces程式WordCout為例(存放路徑/usr/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-example-2.4.0.jar)加以說明。
1.建立Mapreduce項目
從"File"菜單,選擇"Other",找到"Map/ReduceProject",然後選擇它:
2.建立WordCount類:
選擇 "WordCountProject" 工程,右擊彈出菜單,然後選擇 "New" ,接着選擇 "Class" ,然後填寫如下資訊:
然後在WordCount類中編寫Mapreduce程式。
3.運作WordCount程式
(1)在HDFS上建立目錄input1,并上傳檔案:
【注:檔案中的内容為:file1.txt:hello Word file2.txt: hello Hadoop】
(2)配置運作資訊:
點選WordCount.java,右鍵,點選Run As—>Run Configurations,配置運作參數,即輸入和輸出目錄:
hdfs://master:9000/user/hadoop/input1
hdfs://master:9000/user/hadoop/output1
如果點選run按鈕運作後,控制台出現:
那麼我們需要在該項目的src目錄下建立log4j.properties檔案,然後對其配置,配置内容如下即可:
注:log4j檔案的配置資訊詳見 http://blog.csdn.net/newhappy2008/article/details/2499250
4.結果檢視:
①通過指令檢視:
②在DFS Locations中檢視:
運作後Wordcount程式後,重新整理hadoop目錄,出現output1目錄,打開其目錄下的part-r-00000檔案,亦可得運作結果: