hive中UDF、UDAF和UDTF使用

Hive進行UDF開發十分簡單，此處所說UDF為Temporary的function，是以需要hive版本在0.4.0以上才可以。

一、背景：Hive是基于Hadoop中的MapReduce，提供HQL查詢的資料倉庫。Hive是一個很開放的系統，很多内容都支援使用者定制，包括：

a）檔案格式：Text File，Sequence File

b）記憶體中的資料格式： Java Integer/String, Hadoop IntWritable/Text

c）使用者提供的 map/reduce 腳本：不管什麼語言，利用 stdin/stdout 傳輸資料

d）使用者自定義函數: Substr, Trim, 1 – 1

e）使用者自定義聚合函數: Sum, Average…… n – 1

2、定義：UDF(User-Defined-Function)，使用者自定義函數對資料進行處理。

二、用法

1、UDF函數可以直接應用于select語句，對查詢結構做格式化處理後，再輸出内容。

2、編寫UDF函數的時候需要注意一下幾點：

a）自定義UDF需要繼承org.apache.hadoop.hive.ql.UDF。

b）需要實作evaluate函。

c）evaluate函數支援重載。

3、以下是兩個數求和函數的UDF。evaluate函數代表兩個整型資料相加，兩個浮點型資料相加，可變長資料相加

Hive的UDF開發隻需要重構UDF類的evaluate函數即可。例：

package hive.connect;

import org.apache.hadoop.hive.ql.exec.UDF;

public final class Add extends UDF {

public Integer evaluate(Integer a, Integer b) {

if (null == a || null == b) {

return null;

} return a + b;

}

public Double evaluate(Double a, Double b) {

if (a == null || b == null)

return a + b;

}

public Integer evaluate(Integer... a) {

int total = 0;

for (int i = 0; i < a.length; i++)

if (a[i] != null)

total += a[i];

return total;

}

4、步驟

a）把程式打包放到目标機器上去；

b）進入hive用戶端，添加jar包：hive>add jar /run/jar/udf_test.jar;

c）建立臨時函數：hive>CREATE TEMPORARY FUNCTION add_example AS 'hive.udf.Add';

d）查詢HQL語句：

SELECT add_example(8, 9) FROM scores;

SELECT add_example(scores.math, scores.art) FROM scores;

SELECT add_example(6, 7, 8, 6.8) FROM scores;

e）銷毀臨時函數：hive> DROP TEMPORARY FUNCTION add_example;

5、細節在使用UDF的時候，會自動進行類型轉換，例如：

SELECT add_example(8,9.1) FROM scores;

注：

1. UDF隻能實作一進一出的操作，如果需要實作多進一出，則需要實作UDAF

下面來看下UDAF：

（二）、UDAF

1、Hive查詢資料時，有些聚類函數在HQL沒有自帶，需要使用者自定義實作。

2、使用者自定義聚合函數: Sum, Average…… n – 1

UDAF（User- Defined Aggregation Funcation）

一、用法

1、一下兩個包是必須的import org.apache.hadoop.hive.ql.exec.UDAF和 org.apache.hadoop.hive.ql.exec.UDAFEvaluator。

2、函數類需要繼承UDAF類，内部類Evaluator實UDAFEvaluator接口。

3、Evaluator需要實作 init、iterate、terminatePartial、merge、terminate這幾個函數。

a）init函數實作接口UDAFEvaluator的init函數。

b）iterate接收傳入的參數，并進行内部的輪轉。其傳回類型為boolean。

c）terminatePartial無參數，其為iterate函數輪轉結束後，傳回輪轉資料，terminatePartial類似于hadoop的Combiner。

d）merge接收terminatePartial的傳回結果，進行資料merge操作，其傳回類型為boolean。

e）terminate傳回最終的聚集函數結果。

package hive.udaf;

import org.apache.hadoop.hive.ql.exec.UDAF;

import org.apache.hadoop.hive.ql.exec.UDAFEvaluator;

public class Avg extends UDAF {

public static class AvgState {

private long mCount;

private double mSum;

public static class AvgEvaluator implements UDAFEvaluator {

AvgState state;

public AvgEvaluator() {

super();

state = new AvgState();

init();

/** * init函數類似于構造函數，用于UDAF的初始化 */

public void init() {

state.mSum = 0;

state.mCount = 0;

/** * iterate接收傳入的參數，并進行内部的輪轉。其傳回類型為boolean * * @param o * @return */

public boolean iterate(Double o) {

if (o != null) {

state.mSum += o;

state.mCount++;

} return true;

/** * terminatePartial無參數，其為iterate函數輪轉結束後，傳回輪轉資料， * terminatePartial類似于hadoop的Combiner * * @return */

public AvgState terminatePartial() {

// combiner

return state.mCount == 0 ? null : state;

/** * merge接收terminatePartial的傳回結果，進行資料merge操作，其傳回類型為boolean * * @param o * @return */

public boolean terminatePartial(Double o) {

state.mCount += o.mCount;

state.mSum += o.mSum;

}

return true;

/** * terminate傳回最終的聚集函數結果 * * @return */

public Double terminate() {

return state.mCount == 0 ? null : Double.valueOf(state.mSum / state.mCount);

5、執行求平均數函數的步驟

a）将java檔案編譯成Avg_test.jar。

b）進入hive用戶端添加jar包：

hive>add jar /run/jar/Avg_test.jar。

c）建立臨時函數：

hive>create temporary function avg_test 'hive.udaf.Avg';

d）查詢語句：

hive>select avg_test(scores.math) from scores;

e）銷毀臨時函數：

hive>drop temporary function avg_test;

五、總結

1、重載evaluate函數。

2、UDF函數中參數類型可以為Writable，也可為java中的基本資料對象。

3、UDF支援變長的參數。

4、Hive支援隐式類型轉換。

5、用戶端退出時，建立的臨時函數自動銷毀。

6、evaluate函數必須要傳回類型值，空的話傳回null，不能為void類型。

7、UDF是基于單條記錄的列進行的計算操作，而UDFA則是使用者自定義的聚類函數，是基于表的所有記錄進行的計算操作。

8、UDF和UDAF都可以重載。

9、檢視函數

SHOW FUNCTIONS;

1. UDTF介紹

UDTF(User-Defined Table-Generating Functions) 用來解決輸入一行輸出多行(On-to-many maping) 的需求。

2. 編寫自己需要的UDTF

繼承org.apache.hadoop.hive.ql.udf.generic.GenericUDTF。

實作initialize, process, close三個方法

UDTF首先會調用initialize方法，此方法傳回UDTF的傳回行的資訊（傳回個數，類型）。初始化完成後，會調用process方法，對傳入的參數進行處理，可以通過forword()方法把結果傳回。最後close()方法調用，對需要清理的方法進行清理。

下面是我寫的一個用來切分”key:value;key:value;”這種字元串，傳回結果為key, value兩個字段。供參考：

import java.util.ArrayList;

import org.apache.hadoop.hive.ql.udf.generic.GenericUDTF;

import org.apache.hadoop.hive.ql.exec.UDFArgumentException;

import org.apache.hadoop.hive.ql.exec.UDFArgumentLengthException;

import org.apache.hadoop.hive.ql.metadata.HiveException;

import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector;

import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspectorFactory;

import org.apache.hadoop.hive.serde2.objectinspector.StructObjectInspector;

import org.apache.hadoop.hive.serde2.objectinspector.primitive.PrimitiveObjectInspectorFactory;

public class ExplodeMap extends GenericUDTF{

@Override

public void close() throws HiveException {

// TODO Auto-generated method stub

}

public StructObjectInspector initialize(ObjectInspector[] args)

throws UDFArgumentException {

if (args.length != 1) {

throw new UDFArgumentLengthException("ExplodeMap takes only one argument");

}

if (args[0].getCategory() != ObjectInspector.Category.PRIMITIVE) {

throw new UDFArgumentException("ExplodeMap takes string as a parameter");

ArrayList<String> fieldNames = new ArrayList<String>();

ArrayList<ObjectInspector> fieldOIs = new ArrayList<ObjectInspector>();

fieldNames.add("col1");

fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);

fieldNames.add("col2");

return ObjectInspectorFactory.getStandardStructObjectInspector(fieldNames,fieldOIs);

@Override

public void process(Object[] args) throws HiveException {

String input = args[0].toString();

String[] test = input.split(";");

for(int i=0; i<test.length; i++) {

try {

String[] result = test[i].split(":");

forward(result);

} catch (Exception e) {

continue;

}

3. 使用方法

UDTF有兩種使用方法，一種直接放到select後面，一種和lateral view一起使用。

1：直接select中使用：select explode_map(properties) as (col1,col2) from src;

不可以添加其他字段使用：select a, explode_map(properties) as (col1,col2) from src

不可以嵌套調用：select explode_map(explode_map(properties)) from src

不可以和group by/cluster by/distribute by/sort by一起使用：select explode_map(properties) as (col1,col2) from src group by col1, col2

2：和lateral view一起使用：select src.id, mytable.col1, mytable.col2 from src lateral view explode_map(properties) mytable as col1, col2;

此方法更為友善日常使用。執行過程相當于單獨執行了兩次抽取，然後union到一個表裡。

本文轉自 yntmdr 51CTO部落格，原文連結：http://blog.51cto.com/yntmdr/1716943，如需轉載請自行聯系原作者

hive中UDF、UDAF和UDTF使用

繼續閱讀

無人機--飛控科普

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

Java String.format方法的簡單使用

neo4j之cypher使用文檔

Ambari介紹和架構原理

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

mybatis_入門程式Mybatis入門

AOP程式設計_Android優雅權限架構(1)概念基礎，2021金三銀四前言正文大綱正文

sqlServer根據經緯查距離

Effective Java 8:通用程式設計

OOM三種類型

工廠模式-三種類型

【遞歸】高效率求2的n次幂

win10本地scala和spark安裝安裝scala安裝spark

scala (3) Function 和 Method