Hadoop配置部分内容
Hadoop配置檔案
hadoop-env.sh
記錄腳本要用的環境變量,以運作Hadoop,比如:jdk的環境變量配置
core-site.xml
Hadoop Core的配置項,例如HAFD和Mapredure常用的I/O設定等。
hdfs-site.xml
Hadoop守護程序的配置項,包括namenode,輔助namenode和datanode等。
slaves
運作datanode和tasktracker的機器清單(每行一個)
配置管理
Hadoop沒有将所有配置資訊放在一個單獨的全局位置中。反之,叢集的Hadoop節點都各自儲存一系列配置檔案,并由管理者完成這些配置檔案的同步工作。
Hadoop支援為所有的主機器和工作機器采用同一套配置檔案 。
最大的優勢在于簡單,不僅展現在理論上(僅需要處理一套配置檔案),也展現在可操作性上(使用hadoop腳本就能進行管理)。
控制腳本
Hadoop内置一些腳本來運作指令、在叢集内啟動和終止守護程序。為了運作這些腳本(存放在bin目錄中),還需要指定叢集内的所有機器。有兩個檔案能達到這個目标,即masters和slaves。各檔案逐行記錄一些機器的名稱或ip位址。masters主要記錄拟運作輔助namenode的所有機器。slaves檔案記錄了運作datanode和tasktracker的所有機器。
這兩個檔案存放在配置目錄中。此外,這些檔案無需分發到各個工作節點,因為隻有運作在namenode或jobtracker上的控制腳本能使用這些檔案。
腳本start-dfs.sh腳本用于啟動叢集中所有的HAFS守護程序 ,但是該腳本運作時會在同一機器上運作namenode。詳細步驟如下:
1.在本地機器上啟動一個namenode(腳本所運作的機器)
2.在slaves檔案中記錄的各個機器上啟動一個datanode
3.在masters檔案中所記錄的各機器上啟動一個輔助namonode。