完成Hadoop僞分布式安裝與配置需要先在機器上完成JDK的安裝與配置、SSH免密登入本機的配置。
一、基礎環境自查
1、需先自查一下本機JDK是否安裝好
java -version
jdk版本檢視
如上圖可以正确檢視java的版本,則表示JDK安裝配置好了。
2、自查SSH免密登入本機是否成功
使用ssh 主機名 測試是否可以免密登入本機
ssh master
如上圖可以成功免密登入本機,就可以開始配置僞分布式了。如果不可以,可以參考另一篇文章 多台主機之間免密碼登入配置、免密傳輸檔案
二、下載下傳Hadoop安裝包
進入hadoop官網下載下傳位址,裡面有不同版本的hadoop可供下載下傳,這裡下載下傳的版本為2.7.7
https://archive.apache.org/dist/hadoop/common/
Index of /dist/hadoop/common
三、解壓Hadoop安裝包
進入Hadoop安裝包存放目錄
cd /mnt/bigdatacompetitionsoftwore
解壓Hadoop安裝包到/usr/local/src目錄下
解壓成功之後,可以在/usr/local/src中檢視到hadoop-2.7.7檔案夾
四、修改檔案夾權限
使用chown指令修改檔案夾權限,格式為:chown -R 使用者名 檔案夾,注意使用者名需為目前主機登入的使用者名。
chown -R root hadoop-2.7.7
五、配置Hadoop環境變量
環境變量配置檔案主檔案夾下的.bash_profile,将hadoop的安裝目錄及該目錄下的bin目錄、sbin目錄配置好
1)打開.bash_profile環境變量配置檔案
vi ~/.bash_profile
2)輸入hadoop的安裝目錄及該目錄下的bin目錄、sbin目錄相應的配置内容
3)應用環境變量
使用source指令使環境變量生效。
source ~/.bash_profile
4)驗證環境變量是否配置成功
使用hadoop指令檢視hadoop版本,成功檢視則表示環境變量配置成功。
hadoop version
六、配置core-site.xml
1)檔案位置
該檔案在hadoop安裝目錄下的etc/hadoop中,如下圖所示。
2)檔案配置
該檔案配置了通路Hadoop叢集的主要資訊。僞分布式需要指定分布式檔案系統預設的位址及端口号,一般為名稱節點的位址。
七、配置hdfs-site.xml
1)檔案位置,和core-site.xml在同一個位置。
2)檔案配置。
檔案檔案配置了HDFS相關的資訊,如檔案在HDFS中的副本數、NameNode和DataNode檔案的儲存目錄。
八、名稱節點NameNode格式化
1、使用hdfs指令進行名稱節點格式化,hdfs指令在hadoop安裝目錄的bin檔案夾下。
hdfs指令所在目錄
格式化指令如下:
hdfs namenode -format
輸入格式化指令
輸入指令之後回車,等待格式化結果,在最後輸出“Storage directory XXXXX has been successfully formatted.”表明格式化成功。
名稱節點格式化成功
2、名稱節點格式化成功之後
名稱節點格式化後會在hadoop.tmp.dir目錄産生fsiamge檔案
九、啟動Hadoop
1)指令介紹
啟動hadoop的指令全部在sbin目錄下,如下圖所示
start-all.sh=start-dfs.sh+start-yarn.sh
stop-all.sh=stop-dfs.sh+stop-yarn.sh
start-dfs.sh用于啟動名稱節點、資料節點和第二名稱節點程序
start-yarn.sh用于啟動資源高度節點和節點管理節點程序
2)使用start-dfs.sh啟動hadoop
3)使用jps指令檢視啟動後的程序,可以看到NameNode、DataNode和SecondaryNameNode程序,表示啟動成功。
4)使用stop-dfs.sh停止hadoop,将NameNode、DataNode和SecondaryNameNode程序同時停止。
5)使用start-all.sh全啟動hadoop,即将啟動NameNode、DataNode和SecondaryNameNode、ResourceManager、NodeManager共5個程序。
6)使用jps指令檢視啟動後的程序,可以看到NameNode、DataNode和SecondaryNameNode、ResourceManager、NodeManager共5個程序,表示啟動成功。
7)使用stop-all.sh停止hadoop,将NameNode、DataNode、SecondaryNameNode、ResourceManager、NodeManager共5個程序同時停止。
十、其他方式檢視hadoop啟動成功後的狀态
1、使用hdfs dfsadmin -report擷取叢集報表資訊,可以看到活動的資料節點(Live datanodes)為1,同時可以檢視到對應的IP位址和主機名等資訊
2、在浏覽器中輸入位址:http://名稱節點的IP位址:9000檢視hadoop叢集的WebUI監控界面,這裡的位址為http://192.168.100.60:9000,效果如下圖所示