一、僞分布式的安裝
① 上傳hadoop安裝包 -->上傳至/soft //上傳到linux中
② 解壓hadoop
tar -zxvf hadoop-2.4.1.tar.gz -C /usr/local
③ 配置hadoop
配置HADOOP_HOME
vim /etc/profle
#set java jdk setup
export JAVA_HOME=/usr/local/jdk1.7.0_65
export HADOOP_HOME=/usr/local/hadoop-2.4.1
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
修改hadoop配置 cd /usr/local/hadoop-2.4.1/etc/hadoop
a. 修改hadoop-env.sh,配置JAVA_HOME
vim hadoop-env.sh
export JAVA_HOME=/usr/local/jdk1.7.0_65
b. 修改core-site.xml配置檔案,該檔案配置NameNode的主機名和端口号。
<configuration>
<!--指定hdfs的端口号與hdfs通路的名稱-->
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop001:9000</value> <!-- 預設為80020 -->
</property>
<!--hdfs的資料的緩存目錄-->
<property>
<name>hadoop.tmp.dir</name>
<value>/home/hadoop/tmp</value>
</property>
</configuration>
c. 修改hdfs-site.xml,在該檔案内配置分布式檔案系統的副本數量,本測試是僞分布式,是以副本數為1。replication副本
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
d. 修改mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
e. 修改yarn-site.xml檔案
<configuration>
<!-resourcemanager:資料總管主機名-->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop001</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
NM上還可以擴充自己的服務,yarn提供了一個yarn.nodemanager.aux-services的配置項,通過該配置,使用者可以自定義一些服務,例如Map-Reduce的shuffle功能就是采用這種方式實作的。
④ hadoop的啟動
a) 格式化NameNode,隻需要在第一次啟動的時候格式化
hadoop namenode -format
b) 啟動hadoop
cd /usr/local/hadoop-2.4.1/sbin
./start-all.sh
或者
./start-hdfs.sh 啟動hdfs
./start-yarn.sh 啟動yarn
jps
5066 NameNode 名稱節點
19031 QuorumPeerMain zookeeper程序
5588 NodeManager 節點管理器 NM
5287 SecondaryNameNode 輔助名稱節點
5159 DataNode 資料節點
5491 ResourceManager 資料總管RM
hadoop 用于執行hadoop腳本指令,可以單獨執行,一切指令的核心
hadoop-deamon.sh 通過執行hadoop指令來啟動/停止一個守護程序(deamon)該指令會被sbin目錄下面所有以start或stop的所的指令調用來執行指令hadoop-daemon.sh本身就是通過調用hadoop指令來執行任務
例如:hadoop-deamon.sh
start.all.sh 全部啟動,它會調用start-dfs.sh及start-yarn.sh
start-hdfs.sh 啟動hdfs 包括
NameNode DataNode SecondaryNameNode
start-yarn.sh 啟動yarn ResourceManager NodeManager