Hapoop概述

Apache™ Hadoop® 项目开发用于可靠、可扩展、分布式计算的开源软件
白话就是解决海量存储,海量计算的问题

大数据姊妹篇之HadoopHapoop概述Hadoop集群搭建执行WordCount程序

Hadoop集群搭建

Hadoop下载和安装
1. 先行创建opt/module和software目录,进入software目录,下载地址 , 我这里下载的是3.2.2版本
2. 解压: tar -xvf hadoop-3.2.2.tar.gz -C …/module/
3. 看解压后的文件目录
  
  大数据姊妹篇之HadoopHapoop概述Hadoop集群搭建执行WordCount程序
4. 修改环境变量,在/etc/profile最后边添加如下内容, source /etc/profile 使环境变量生效
```
# Hadoop Home
export HADOOP_HOME=/opt/module/hadoop-3.2.2
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
           
```

配置文件的修改

配置文件在/opt/module/hadoop-3.2.2/etc/hadoop目录下

修改core-site.xml

<configuration>
	 <!-- 指定 NameNode 的地址 -->
	 <property>
	 <name>fs.defaultFS</name>
	 <value>hdfs://server1:8020</value>
	 </property>
	 <!-- 指定 hadoop 数据的存储目录 -->
	 <property>
	 <name>hadoop.tmp.dir</name>
	 <value>/opt/module/hadoop-3.2.2/data</value>
	 </property>
	 <!-- 配置 HDFS 网页登录使用的静态用户为 tyvek -->
	 <property>
	 <name>hadoop.http.staticuser.user</name>
	 <value>tyvek</value>
	 </property>
</configuration>

配置 hdfs-site.xml

<configuration>
	<!-- nn web 端访问地址-->
	<property>
	 <name>dfs.namenode.http-address</name>
	 <value>server1:9870</value>
	 </property>
	<!-- 2nn web 端访问地址-->
	 <property>
	 <name>dfs.namenode.secondary.http-address</name>
	 <value>server3:9868</value>
	 </property>
</configuration>

配置 yarn-site.xml

<configuration>
	<!-- 指定 MR 走 shuffle -->
	 <property>
	 <name>yarn.nodemanager.aux-services</name>
	 <value>mapreduce_shuffle</value>
	 </property>
	 <!-- 指定 ResourceManager 的地址-->
	 <property>
	 <name>yarn.resourcemanager.hostname</name>
	 <value>server2</value>
	 </property>
	 <!-- 环境变量的继承 -->
	 <property>
	 <name>yarn.nodemanager.env-whitelist</name>	<value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
	 </property>
</configuration>

配置 mapred-site.xml

<configuration>
	<!-- 指定 MapReduce 程序运行在 Yarn 上 -->
	 <property>
	 <name>mapreduce.framework.name</name>
	 <value>yarn</value>
	 </property>
</configuration>

进入到 /opt/module/hadoop-3.2.2/etc/hadoop , 编辑workers,增加内容如下
```
server1
server2
server3
           
```
使用xsync命令实现分发: xsync /opt/module/hadoop-3.2.2

初始化hdfs
1. 如果集群是第一次启动，需要在server1 节点格式化 NameNode（注意：格式
  
  化 NameNode，会产生新的集群 id，导致 NameNode 和 DataNode 的集群 id 不一致，集群找不到已往数据。如果集群在运行过程中报错，需要重新格式化 NameNode 的话，一定要先停止 namenode 和 datanode 进程，并且要删除所有机器的 data 和 logs 目录，然后再进行格式
  
  化。）
2. 初始化命令: hdfs namenode -format
3. 启动命令: sbin/start-dfs.sh 结果报错: Attempting to operate on hdfs namenode as root but there is no HDFS_NAMENODE_USER defined. Aborting
4. 接着又报错:ERROR: JAVA_HOME is not set and could not be found.
5. 再次启动,终于好啦
  
  大数据姊妹篇之HadoopHapoop概述Hadoop集群搭建执行WordCount程序
6. 在server2启动yarn: sbin/start-yarn.sh
  
  大数据姊妹篇之HadoopHapoop概述Hadoop集群搭建执行WordCount程序
通过web访问
1. 在windows的hosts文件添加ip和服务的对应关系
2. 查看HDFS 的 NameNode: http://server1:9870
  
  大数据姊妹篇之HadoopHapoop概述Hadoop集群搭建执行WordCount程序
3. 查看YARN 的 ResourceManager: http://server2:8088
  
  大数据姊妹篇之HadoopHapoop概述Hadoop集群搭建执行WordCount程序
配置历史服务器
1. 查看程序的历史运行情况，需要配置一下历史服务器
2. 到$HADOOP_HOME/etc/hadoop目录下,修改mapred-site.xml
```

<property>
 <name>mapreduce.jobhistory.address</name>
 <value>server1:10020</value>
</property>

<property>
 <name>mapreduce.jobhistory.webapp.address</name>
 <value>server1:19888</value>
</property>
           
```
3. 启动历史服务器: mapred --daemon start historyserver
4. 查看 JobHistory: http://server1:19888/jobhistory
  
  大数据姊妹篇之HadoopHapoop概述Hadoop集群搭建执行WordCount程序

配置日志的聚集

概念: 应用运行完成以后，将程序运行日志信息上传到 HDFS 系统上
开启日志聚集功能，需要重新启动 NodeManager 、ResourceManager 和

HistoryServer

配置 yarn-site.xml,并分发到其它节点

<!-- 开启日志聚集功能 -->
<property>
 <name>yarn.log-aggregation-enable</name>
 <value>true</value>
</property>
<!-- 设置日志聚集服务器地址 -->
<property> 
 <name>yarn.log.server.url</name> 
 <value>http://server1:19888/jobhistory/logs</value>
</property>
<!-- 设置日志保留时间为 7 天 -->
<property>
 <name>yarn.log-aggregation.retain-seconds</name>
 <value>604800</value>
</property>

关闭 NodeManager(server2上) 、ResourceManager (server2上)和 HistoryServer(server1上)
1. sbin/stop-yarn.sh
2. mapred --daemon stop historyserver
3. start-yarn.sh
4. mapred --daemon start historyserver

执行WordCount程序

在hadoop上创建/input逻辑文件夹: hadoop fs -mkdir /user/root/input
创建文件夹和文件
1. mkdir -p /opt/module/wordcount
2. vim word.txt
```
hello canglaoshi
hello xzlaoshi
hi boy
           
```
上传文件到hadoop: hadoop fs -put /opt/module/wordcount/word.txt /input
运行大数据经典wordcount程序: hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.2.jar wordcount /input /output
查看输出结果: http://server1:9870/explorer.html#/output

大数据姊妹篇之HadoopHapoop概述Hadoop集群搭建执行WordCount程序

大数据姊妹篇之HadoopHapoop概述Hadoop集群搭建执行WordCount程序

Hadoop学习目录

Hapoop概述

Hadoop集群搭建

执行WordCount程序

继续阅读

nginx location中斜线的位置的重要性

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

Java String.format方法的简单使用

neo4j之cypher使用文档

Ambari介绍和架构原理

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

NOSQL安全攻击

mybatis_入门程序Mybatis入门

AOP编程_Android优雅权限框架(1)概念基础，2021金三银四前言正文大纲正文

Effective Java 8:通用程序设计

OOM三种类型

工厂模式-三种类型

【递归】高效率求2的n次幂

win10本地scala和spark安装安装scala安装spark

scala (3) Function 和 Method