Hive partition prune Failed

2017-11-14 23:50:00

昨天發現線上的HiveQuery：

<code>select</code> <code>* </code><code>from</code> <code>db1.t1where dt </code><code>between</code> <code>to_char(getdate(‘variables’,’-40’),’yyyymmdd’) </code><code>and</code> <code>‘variables’</code><code>and</code> <code>hour</code><code>=’xxx’(其中t1 partitioned bydt,</code><code>hour</code><code>)</code>

不能進行partition prune導緻執行效率非常的差，問題出現在哪裡呢？

把To_Char函數的代碼翻出來就一目了然了：

<code>@UDFType</code><code>(deterministic= </code><code>false</code><code>)</code>

<code>@Description</code><code>(name= </code><code>"to_char"</code><code>,</code>

<code> </code><code>value = </code><code>"_FUNC_(date, pattern) converts a string with yyyy-MM-dd HH:mm:sspattern "</code> <code>+</code>

<code> </code><code>"to a string with givenpattern.\n"</code>

<code> </code><code>+</code><code>"_FUNC_(datetime, pattern) converts a string with yyyy-MM-dd pattern"</code> <code>+</code>

<code> </code><code>+</code><code>"_FUNC_(number [,format]) convertsa number to a string\n"</code><code>,</code>

<code> </code><code>extended = </code><code>"Example:\n"</code>

<code> </code><code>+</code><code>" > SELECT to_char('2011-05-1110:00:12'.'yyyyMMdd') FROM src LIMIT 1;\n"</code>

注意到這個函數是一個“非确定性”函數，Hive在做partition prune時考慮三點不進行過濾處理：

1.如果是邏輯函數的話，若所有的child節點都為null則忽略

2.非确定性函數忽略

3.其他情況，隻要有child節點為null則忽略

而這裡的to_char正是第二種情況，這裡我們自己寫了個确定性UDF來解決該問題

注：另外一個類似的Case HIVE-1173

本文轉自MIKE老畢 51CTO部落格，原文連結：http://blog.51cto.com/boylook/1365734，如需轉載請自行聯系原作者

Hive partition prune Failed

繼續閱讀

MyBatis-Plus 之AR模式

ASP程式設計經典例子

ASP程式設計中20個非常有用的例子

《Hive權威指南》第八章：HiveQL索引8 HiveQL：索引

龍珠訓練營task04

阿裡雲天池龍珠計劃SQL訓練營打卡

阿裡雲天池龍珠計劃SQL訓練營day1

實驗樓sql進階之成績管理系統的資料操作(window)

HiveQl語句應用執行個體：WordCount具體步驟如下：

Oracle的基本操作

SQL優化SQL語句優化的目的

JAVA高效程式設計指南

關于SQL語言

SQL語言基礎：常用的資料查詢語句

neo4j之cypher使用文檔

sqlServer根據經緯查距離