Hive中使用MAP JOIN1 概述2 相关参数

2021-11-07 16:02:13

若所有表中只有一张小表，那可在最大的表通过mapper的时候将小表完全放到内存中，hive可以在map端执行连接过程，称为map-side join，这是因为hive可以和内存的小表逐一匹配，从而省略掉常规连接所需的reduce过程。即使对于很小的数据集，这个优化也明显地要快于常规的连接操作。其不仅减少了reduce过程，而且有时还可以同时减少map过程的执行步骤。

使用mapjoin可解决以下实际问题：

a 有一个极小的表<1000行（a是小表）

b 需要做不等值join操作（a.x<b.y或者a.x like b.y等）。普通join语法不支持不等于操作，hive语法解析会直接抛出错误。

2.1 小表自动选择mapjoin

set hive.auto.convert.join=true;

默认值：false。该参数为true时，hive自动对左边的表统计量，若是小表就加入内存，即对小表使用map join

2.2 小表阀值

set hive.mapjoin.smalltable.filesize=25000000;

默认值：25m

2.3 map join做group by操作时，可使用多大的内存来存储数据。若数据太大则不会保存在内存里

set hive.mapjoin.followby.gby.localtask.max.memory.usage;

默认值：0.55

2.4 本地任务可以使用内存的百分比

set hive.mapjoin.localtask.max.memory.usage;

默认值：0.90

参考地址：http://blog.csdn.net/kwu_ganymede/article/details/51365002

Hive中使用MAP JOIN1 概述2 相关参数

继续阅读

《Hive权威指南》第八章：HiveQL索引8 HiveQL：索引

龙珠训练营task04

阿里云天池龙珠计划SQL训练营打卡

阿里云天池龙珠计划SQL训练营day1

实验楼sql进阶之成绩管理系统的数据操作(window)

转详解C#数据库存取图片三大方式

HiveQl语句应用实例：WordCount具体步骤如下：

Oracle的基本操作

BMP文件结构及图像每行字节计算方法

磁盘结构及在Linux中的命名

SQL优化SQL语句优化的目的

JAVA高效编程指南

关于SQL语言

SQL语言基础：常用的数据查询语句

neo4j之cypher使用文档

sqlServer根据经纬查距离