并行计算框架MapReduce编程模型

2018-02-10 23:50:00

map：对每一部分进行处理

reduce :汇总map结果

map是MapReduce最核心的。

一种分布式计算模型，解决海量数据计算问题

MapReduce把整个并行计算的过程抽象到两个函数，map和reduce函数。 map（映射）：对一些独立元素组成的列表的每一个元素进行指定操作，可以高度并行。（10T分解分解成1T ，1t就是独立元素） Reduce（化简）：对一个列表的元素进行合并。一个简单的mapreduce程序只需要指定map（），reduece（），input和output，剩下的事就是mapreduce框架的事。

put--map-reduce-output

在put第一个环节，就把文件以map key value形式处理了。当到第2，3,4环节map、的时候实际得到的是处理好的map key value数据。

map阶段 map阶段由一定数量的Maptask组成

数据数据的格式解析 InputFormat

数据数据处理 mapper

数据分组 partitioner

reduce阶段 reduce阶段由一定数量的reducetask组成

数据远程copy

数据按需排序

数据处理 reducer

数据输出格式 outputFormat

基于mapReduce模型编写分布式并行程序非常简单，程序员的主要编码工作就是实现map和Reduce函数。其他并行编程中种种复杂的问题，例如：分布式存储、工作调度、负载、容错、网络通信，均由yarn框架处理。

公式：input--->map-->reduece->output

bin/hdfs dfs jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar input output

hadoop yarn --> <0,hadoop yarn>

hadoop mapreduce --> <11,hadoop mapreduce>

hadoop hdfs

yarn nodemanager

hadoop resourcemanager

并行计算框架MapReduce编程模型

继续阅读

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

Java String.format方法的简单使用

neo4j之cypher使用文档

Ambari介绍和架构原理

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

【python】【数据处理】画多维数据分布图

mybatis_入门程序Mybatis入门

AOP编程_Android优雅权限框架(1)概念基础，2021金三银四前言正文大纲正文

面试题解析：你接口测试是怎么做的？

Effective Java 8:通用程序设计

OOM三种类型

工厂模式-三种类型

【递归】高效率求2的n次幂

win10本地scala和spark安装安装scala安装spark

scala (3) Function 和 Method