Hadoop MapReduce表关联

2023-08-07 13:44:28

假设有两个文件，分别对应要关联的两张表（部门表，员工表）

部门表文件格式如下：

部门ID 部门名称

1 技术部

2 市场部

员工表文件格式如下：

部门ID 员工ID 员工姓名

1 1 小明

1 2 张三

2 3 李四

2 4 王五

我们希望根据上面两个文件找出部门和员工的对应关系：

部门名称员工姓名

技术部小明

技术部张三

市场部李四

市场部王五

如果是关系型数据库，很容易通过表关联查询出上面的结果，通过Hadoop MapReduce也能实现同样的表关联。

思路：

关系型数据库是通过左右表的连接来实现两个表的关联，考虑到MapReduce的shuffle过程会将相同key值的value放在一起，

我们可以将左右表中待连接的列作为key值，左表和右表其余的数据放到value中，那么在reduce阶段，我们就能对values中的数据进行处理，找到我们需要的关联数据。

具体过程如下：

假设部门表作为左表，员工表作为右表，同时用一个标志位标识是左表还是右表（1代表左表，2代表右表）。

Map阶段：

输出的key是用于连接的列（部门ID），value是“左右表标识－其余列值”

对部门表的map操作将输出以下key－value对：

1:1-技术部

2:1-市场部

对员工表的map操作将输出以下key－value对：

1:2-小明

1:2-张三

2:2-李四

2:2-王五

Shuffle：

shuffle过程会将相同key值的value放在一起。

对上面map阶段输出的key－value对shuffle之后将输出以下key－values作为reduce的输入。

1:{1-技术部，2-小明，2-张三｝

2:{1-市场部，2-李四，2-王五}

Reduce阶段：

对每一个key对应的values进行如下处理：

如果是左表（1），则将value归到部门数组或列表，如果是右表（2），则将value归到员工，然后部门和员工求笛卡尔积，输出到结果集中：

对于key（1），部门有技术部，员工有小明和张三，则输出如下结果：

技术部小明

技术部张三

同理，对于key（2），会输出如下结果：

市场部李四

市场部王五

那么最终总的输出结果如下：

部门名称员工姓名

技术部小明

技术部张三

市场部李四

市场部王五

Hadoop MapReduce表关联

继续阅读

申请评分模型拒绝推断（RI）方法申请评分模型拒绝推断（RI）方法

专家访谈：搜索开源力量：Lucene技术前景

Sql优化一：sql语句优化

Nacos 2.0 升级前后性能对比压测

hadoop 用MR实现join操作

Centos7 下 Hadoop 2.6.4 分布式集群环境搭建摘要集群准备安装JDK 安装 Hadoop 2.6.4 部署 slaver1-slaver4 启动 hadoop 集群成功了

尚硅谷—韩顺平—图解 Java设计模式（结构型）（55～）

Storm编译打包过程中遇到的一些问题及解决方法

MapReduce的几个企业级经典面试案例MapReduce的几个企业级经典面试案例

9.spark Core 进阶2--Cashe

浅谈企业活动中进行数据分析的重要性

ubuntu14.04下安装hbse1.0.1.1

User Defined Hadoop DataType

Ambari介绍和架构原理

NOSQL安全攻击

win10本地scala和spark安装安装scala安装spark