Hapoop概述

Apache™ Hadoop® 項目開發用于可靠、可擴充、分布式計算的開源軟體
白話就是解決海量存儲,海量計算的問題

大資料姊妹篇之HadoopHapoop概述Hadoop叢集搭建執行WordCount程式

Hadoop叢集搭建

Hadoop下載下傳和安裝
1. 先行建立opt/module和software目錄,進入software目錄,下載下傳位址 , 我這裡下載下傳的是3.2.2版本
2. 解壓: tar -xvf hadoop-3.2.2.tar.gz -C …/module/
3. 看解壓後的檔案目錄
  
  大資料姊妹篇之HadoopHapoop概述Hadoop叢集搭建執行WordCount程式
4. 修改環境變量,在/etc/profile最後邊添加如下内容, source /etc/profile 使環境變量生效
```
# Hadoop Home
export HADOOP_HOME=/opt/module/hadoop-3.2.2
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
           
```

配置檔案的修改

配置檔案在/opt/module/hadoop-3.2.2/etc/hadoop目錄下

修改core-site.xml

<configuration>
	 <!-- 指定 NameNode 的位址 -->
	 <property>
	 <name>fs.defaultFS</name>
	 <value>hdfs://server1:8020</value>
	 </property>
	 <!-- 指定 hadoop 資料的存儲目錄 -->
	 <property>
	 <name>hadoop.tmp.dir</name>
	 <value>/opt/module/hadoop-3.2.2/data</value>
	 </property>
	 <!-- 配置 HDFS 網頁登入使用的靜态使用者為 tyvek -->
	 <property>
	 <name>hadoop.http.staticuser.user</name>
	 <value>tyvek</value>
	 </property>
</configuration>

配置 hdfs-site.xml

<configuration>
	<!-- nn web 端通路位址-->
	<property>
	 <name>dfs.namenode.http-address</name>
	 <value>server1:9870</value>
	 </property>
	<!-- 2nn web 端通路位址-->
	 <property>
	 <name>dfs.namenode.secondary.http-address</name>
	 <value>server3:9868</value>
	 </property>
</configuration>

配置 yarn-site.xml

<configuration>
	<!-- 指定 MR 走 shuffle -->
	 <property>
	 <name>yarn.nodemanager.aux-services</name>
	 <value>mapreduce_shuffle</value>
	 </property>
	 <!-- 指定 ResourceManager 的位址-->
	 <property>
	 <name>yarn.resourcemanager.hostname</name>
	 <value>server2</value>
	 </property>
	 <!-- 環境變量的繼承 -->
	 <property>
	 <name>yarn.nodemanager.env-whitelist</name>	<value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
	 </property>
</configuration>

配置 mapred-site.xml

<configuration>
	<!-- 指定 MapReduce 程式運作在 Yarn 上 -->
	 <property>
	 <name>mapreduce.framework.name</name>
	 <value>yarn</value>
	 </property>
</configuration>

進入到 /opt/module/hadoop-3.2.2/etc/hadoop , 編輯workers,增加内容如下
```
server1
server2
server3
           
```
使用xsync指令實作分發: xsync /opt/module/hadoop-3.2.2

初始化hdfs
1. 如果叢集是第一次啟動，需要在server1 節點格式化 NameNode（注意：格式
  
  化 NameNode，會産生新的叢集 id，導緻 NameNode 和 DataNode 的叢集 id 不一緻，叢集找不到已往資料。如果叢集在運作過程中報錯，需要重新格式化 NameNode 的話，一定要先停止 namenode 和 datanode 程序，并且要删除所有機器的 data 和 logs 目錄，然後再進行格式
  
  化。）
2. 初始化指令: hdfs namenode -format
3. 啟動指令: sbin/start-dfs.sh 結果報錯: Attempting to operate on hdfs namenode as root but there is no HDFS_NAMENODE_USER defined. Aborting
4. 接着又報錯:ERROR: JAVA_HOME is not set and could not be found.
5. 再次啟動,終于好啦
  
  大資料姊妹篇之HadoopHapoop概述Hadoop叢集搭建執行WordCount程式
6. 在server2啟動yarn: sbin/start-yarn.sh
  
  大資料姊妹篇之HadoopHapoop概述Hadoop叢集搭建執行WordCount程式
通過web通路
1. 在windows的hosts檔案添加ip和服務的對應關系
2. 檢視HDFS 的 NameNode: http://server1:9870
  
  大資料姊妹篇之HadoopHapoop概述Hadoop叢集搭建執行WordCount程式
3. 檢視YARN 的 ResourceManager: http://server2:8088
  
  大資料姊妹篇之HadoopHapoop概述Hadoop叢集搭建執行WordCount程式
配置曆史伺服器
1. 檢視程式的曆史運作情況，需要配置一下曆史伺服器
2. 到$HADOOP_HOME/etc/hadoop目錄下,修改mapred-site.xml
```

<property>
 <name>mapreduce.jobhistory.address</name>
 <value>server1:10020</value>
</property>

<property>
 <name>mapreduce.jobhistory.webapp.address</name>
 <value>server1:19888</value>
</property>
           
```
3. 啟動曆史伺服器: mapred --daemon start historyserver
4. 檢視 JobHistory: http://server1:19888/jobhistory
  
  大資料姊妹篇之HadoopHapoop概述Hadoop叢集搭建執行WordCount程式

配置日志的聚集

概念: 應用運作完成以後，将程式運作日志資訊上傳到 HDFS 系統上
開啟日志聚集功能，需要重新啟動 NodeManager 、ResourceManager 和

HistoryServer

配置 yarn-site.xml,并分發到其它節點

<!-- 開啟日志聚集功能 -->
<property>
 <name>yarn.log-aggregation-enable</name>
 <value>true</value>
</property>
<!-- 設定日志聚集伺服器位址 -->
<property> 
 <name>yarn.log.server.url</name> 
 <value>http://server1:19888/jobhistory/logs</value>
</property>
<!-- 設定日志保留時間為 7 天 -->
<property>
 <name>yarn.log-aggregation.retain-seconds</name>
 <value>604800</value>
</property>

關閉 NodeManager(server2上) 、ResourceManager (server2上)和 HistoryServer(server1上)
1. sbin/stop-yarn.sh
2. mapred --daemon stop historyserver
3. start-yarn.sh
4. mapred --daemon start historyserver

執行WordCount程式

在hadoop上建立/input邏輯檔案夾: hadoop fs -mkdir /user/root/input
建立檔案夾和檔案
1. mkdir -p /opt/module/wordcount
2. vim word.txt
```
hello canglaoshi
hello xzlaoshi
hi boy
           
```
上傳檔案到hadoop: hadoop fs -put /opt/module/wordcount/word.txt /input
運作大資料經典wordcount程式: hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.2.jar wordcount /input /output
檢視輸出結果: http://server1:9870/explorer.html#/output

大資料姊妹篇之HadoopHapoop概述Hadoop叢集搭建執行WordCount程式

大資料姊妹篇之HadoopHapoop概述Hadoop叢集搭建執行WordCount程式

Hadoop學習目錄

Hapoop概述

Hadoop叢集搭建

執行WordCount程式

繼續閱讀

nginx location中斜線的位置的重要性

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

Java String.format方法的簡單使用

neo4j之cypher使用文檔

Ambari介紹和架構原理

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

NOSQL安全攻擊

mybatis_入門程式Mybatis入門

AOP程式設計_Android優雅權限架構(1)概念基礎，2021金三銀四前言正文大綱正文

Effective Java 8:通用程式設計

OOM三種類型

工廠模式-三種類型

【遞歸】高效率求2的n次幂

win10本地scala和spark安裝安裝scala安裝spark

scala (3) Function 和 Method