Hive中使用MAP JOIN1 概述2 相關參數

2021-11-07 16:02:13

若所有表中隻有一張小表，那可在最大的表通過mapper的時候将小表完全放到記憶體中，hive可以在map端執行連接配接過程，稱為map-side join，這是因為hive可以和記憶體的小表逐一比對，進而省略掉正常連接配接所需的reduce過程。即使對于很小的資料集，這個優化也明顯地要快于正常的連接配接操作。其不僅減少了reduce過程，而且有時還可以同時減少map過程的執行步驟。

使用mapjoin可解決以下實際問題：

a 有一個極小的表<1000行（a是小表）

b 需要做不等值join操作（a.x<b.y或者a.x like b.y等）。普通join文法不支援不等于操作，hive文法解析會直接抛出錯誤。

2.1 小表自動選擇mapjoin

set hive.auto.convert.join=true;

預設值：false。該參數為true時，hive自動對左邊的表統計量，若是小表就加入記憶體，即對小表使用map join

2.2 小表閥值

set hive.mapjoin.smalltable.filesize=25000000;

預設值：25m

2.3 map join做group by操作時，可使用多大的記憶體來存儲資料。若資料太大則不會儲存在記憶體裡

set hive.mapjoin.followby.gby.localtask.max.memory.usage;

預設值：0.55

2.4 本地任務可以使用記憶體的百分比

set hive.mapjoin.localtask.max.memory.usage;

預設值：0.90

參考位址：http://blog.csdn.net/kwu_ganymede/article/details/51365002

Hive中使用MAP JOIN1 概述2 相關參數

繼續閱讀

《Hive權威指南》第八章：HiveQL索引8 HiveQL：索引

龍珠訓練營task04

阿裡雲天池龍珠計劃SQL訓練營打卡

阿裡雲天池龍珠計劃SQL訓練營day1

實驗樓sql進階之成績管理系統的資料操作(window)

轉詳解C#資料庫存取圖檔三大方式

HiveQl語句應用執行個體：WordCount具體步驟如下：

Oracle的基本操作

BMP檔案結構及圖像每行位元組計算方法

磁盤結構及在Linux中的命名

SQL優化SQL語句優化的目的

JAVA高效程式設計指南

關于SQL語言

SQL語言基礎：常用的資料查詢語句

neo4j之cypher使用文檔

sqlServer根據經緯查距離