天天看点

啃掉Hadoop系列笔记(04)-Hadoop运行模式之伪分布式模式

    伪分布式模式等同于完全分布式,只是她只有一个节点。

一) HDFS上运行MapReduce 程序

(1)配置集群

  (a)配置:hadoop-env.sh

    Linux系统中获取jdk的安装路径:

    修改JAVA_HOME 路径:

  (b)配置:core-site.xml

    原始该文件内容

    配置后该文件内容

  (c)配置:hdfs-site.xml

    该文件原始内容

    配置后该文件内容

(2)启动集群

  (a)格式化namenode(第一次启动时格式化,以后就不要总格式化)

  (b)启动namenode

  (c)启动datanode

(3)查看集群

  (a)查看是否启动成功

  (b)查看产生的log日志

  (c)web端查看HDFS文件系统

    在浏览器中输入 http://192.168.47.101:50070/

    至此一个Hadoop的伪分布模式即搭建完成

(4)操作集群

  (a)在hdfs文件系统上创建一个input文件夹

    进入Web查看是否创建成功

  (b)将测试文件内容上传到文件系统上

  (c)查看上传的文件是否正确

  (d)在Hdfs上运行mapreduce程序

  (e)查看输出结果

    命令行查看:

    浏览器查看

  (f)将测试文件内容下载到本地

    点击上一步浏览器查看中的part-r-00000

    将 part-r-00000文件下载后查看

  (g)删除输出结果

二) YARN上运行MapReduce 程序

(1)配置集群

  (a)配置yarn-env.sh

    配置JAVA_HOME

  (b)配置yarn-site.xml

    增加两个属性节点

  (c)配置:mapred-env.sh

            配置JAVA_HOME

  (d)配置: (对mapred-site.xml.template重新命名为) mapred-site.xml

            并配置相应节点

(2)启动集群

        启动集群之前先要保证namenode和datanode正常启动

  (a)启动resourcemanager

  (b)启动nodemanager

(3)集群操作

  (a)yarn的浏览器页面查看

            启动成功后在浏览器中输入对应地址可查看

  (b)执行mapreduce程序

  (c)查看运行结果

  (d)删除文件系统上的output文件

三) 修改本地临时文件存储目录

1)停止进程

        按照resourcemanager/nodemanager->datanode/namenode的先后顺停止进程

2)修改hadoop.tmp.dir

        hadoop默认生成的dfs等文件放在 /tmp/hadoop-{hostname} 下的当重启后 系统临时文件夹中内容被清除,因此需要重新配置临时文件夹

在hadoop-2.7.2中新建 data/tmp 文件夹

后修改 core-site.xml,增加属性节点

3)格式化NameNode

4)启动所有进程

        按照 namenode/datanode->resourcemanager/nodemanager顺序启动

5)查看/opt/module/hadoop-2.7.2/data/tmp这个目录下的内容

继续阅读