hive常見自定義函數先來講一下hive自定義函數

1.1 為什麼需要自定義函數

hive的内置函數滿足不了所有的業務需求。hive提供很多的子產品可以自定義功能，比如：自定義函數、serde、輸入輸出格式等。

1.2 常見自定義函數有哪些

.UDF：使用者自定義函數，user defined function。一對一的輸入輸出。（最常用的）。

.UDTF：使用者自定義表生成函數。user defined table-generate function.一對多的輸入輸出。lateral view explode

.UDAF：使用者自定義聚合函數。user defined aggregate function。多對一的輸入輸出 count sum max。

2 自定義函數實作

2.1 UDF格式

先在工程下建立一個pom.xml,加入以下maven的依賴包請檢視code/pom.xml

定義UDF函數要注意下面幾點:

.繼承org.apache.hadoop.hive.ql.exec.UDF

.重寫evaluate()，這個方法不是由接口定義的,因為它可接受的參數的個數,資料類型都是不确定的。Hive會檢查UDF,看能否找到和函數調用相比對的evaluate()方法

2.1.1 自定義函數第一個案例

public class FirstUDF extends UDF {

public String evaluate(String str){
    String upper = null;
    //1、檢查輸入參數        if (StringUtils.isEmpty(str)){
    } else {
        upper = str.toUpperCase();
    }
    return upper;
}
//調試自定義函數    public static void main(String[] args){
    System.out.println(new firstUDF().evaluate("jiajingwen"));
}}

2.2 函數加載方式

2.2.1 指令加載

這種加載隻對本session有效

1、将編寫的udf的jar包上傳到伺服器上，并且将jar包添加到hive的class path中

進入到hive用戶端,執行下面指令

add jar /hivedata/udf.jar

2、建立一個臨時函數名,要跟上面hive在同一個session裡面：

create temporary function toUP as 'com.qf.hive.FirstUDF';

3、檢查函數是否建立成功

show functions;

測試功能
toUp('abcdef');

删除函數
temporary function if exists tolow;

2.2.2 啟動參數加載

(也是在本session有效，臨時函數)

1、将編寫的udf的jar包上傳到伺服器上

2、建立配置檔案

vi ./hive-init

add jar /hivedata/udf.jar;

create temporary function toup as 'com.qf.hive.FirstUDF';

3、啟動hive的時候帶上初始化檔案：

hive -i ./hive-init

select toup('abcdef')

2.2.3 配置檔案加載

通過配置檔案方式這種隻要用hive指令行啟動都會加載函數

2、在hive的安裝目錄的bin目錄下建立一個配置檔案，檔案名：.hiverc

vi ./bin/.hiverc

3、啟動hive

hive

2.3 UDTF格式

UDTF是一對多的輸入輸出,實作UDTF需要完成下面步驟

.繼承org.apache.hadoop.hive.ql.udf.generic.GenericUDF，

.重寫initlizer（）、getdisplay（）、evaluate()。

執行流程如下:

UDTF首先會調用initialize方法，此方法傳回UDTF的傳回行的資訊（傳回個數，類型）。

初始化完成後，會調用process方法,真正的處理過程在process函數中，在process中，每一次forward()調用産生一行；如果産生多列可以将多個列的值放在一個數組中，然後将該數組傳入到forward()函數。

最後close()方法調用，對需要清理的方法進行清理。

2.3.1 需求:

把"k1:v1;k2:v2;k3:v3"類似的的字元串解析成每一行多行,每一行按照key:value格式輸出

2.3.2 源碼

自定義函數如下:

package com.qf.hive;

public class ParseMapUDTF extends GenericUDTF{

@Override
 public void close() throws HiveException {
 }
 @Override
 public StructObjectInspector initialize(ObjectInspector[] args)
         throws UDFArgumentException {
     if (args.length != 1) {
         throw new UDFArgumentLengthException(" 隻能傳入一個參數");
     }
     ArrayList<String> fieldNameList = new ArrayList<String>();
     ArrayList<ObjectInspector> fieldOIs = new ArrayList<ObjectInspector>();
     fieldNameList.add("map");
     fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);
     fieldNameList.add("key");
     fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);
     return ObjectInspectorFactory.getStandardStructObjectInspector(fieldNameList,fieldOIs);
 }
 @Override
 public void process(Object[] args) throws HiveException {
     String input = args[0].toString();
     String[] paramString = input.split(";");
     for(int i=0; i<paramString.length; i++) {
         try {
             String[] result = paramString[i].split(":");
             forward(result);
         } catch (Exception e) {
             continue;
         }
     }
 }

}

2.3.3 打包加載

對上述指令源檔案打包為udf.jar,拷貝到伺服器的/hivedata/目錄

在Hive用戶端把udf.jar加入到hive中,如下:

2.3.4 建立臨時函數:

在Hive用戶端建立函數:

create temporary function parseMap as 'com.qf.hive.ParseMapUDTF'; # 建立一個臨時函數parseMap# 檢視函數是否加入show functions ;

2.3.5 測試臨時函數

select parseMap("name:zhang;age:30;address:shenzhen")

結果如下:

map key

name zhang

age 30

address shenzhen

2.4 UDAF格式

使用者自定義聚合函數。user defined aggregate function。多對一的輸入輸出 count sum max。定義一個UDAF需要如下步驟:

.UDF自定義函數必須是org.apache.hadoop.hive.ql.exec.UDAF的子類,并且包含一個火哥多個嵌套的的實作了org.apache.hadoop.hive.ql.exec.UDAFEvaluator的靜态類。

.函數類需要繼承UDAF類，内部類Evaluator實UDAFEvaluator接口。

.Evaluator需要實作 init、iterate、terminatePartial、merge、terminate這幾個函

這幾個函數作用如下:

函數說明init實作接口UDAFEvaluator的init函數iterate每次對一個新值進行聚集計算都會調用,計算函數要根據計算的結果更新其内部狀态terminatePartial無參數，其為iterate函數輪轉結束後，傳回輪轉資料merge接收terminatePartial的傳回結果，進行資料merge操作，其傳回類型為boolean。terminate傳回最終的聚集函數結果。

2.4.1 需求

計算一組整數的最大值

2.4.2 代碼

package com.qf.hive;public class MaxValueUDAF extends UDAF {

public static class MaximumIntUDAFEvaluator implements UDAFEvaluator {
    private IntWritable result;
    public void init() {
        result = null;
    }
    public boolean iterate(IntWritable value) {
        if (value == null) {
            return true;
        }
        if (result == null) {
            result = new IntWritable( value.get() );
        } else {
            result.set( Math.max( result.get(), value.get() ) );
        }
        return true;
    }
    public IntWritable terminatePartial() {
        return result;
    }
    public boolean merge(IntWritable other) {
        return iterate( other );
    }
    public IntWritable terminate() {
        return result;
    }
}}

2.4.3 打包加載

2.4.4 建立臨時函數:

create temporary function maxInt as 'com.qf.hive.MaxValueUDAF';# 檢視函數是否加入show functions ;

select maxInt(mgr) from emp

結果

7902

hive常見自定義函數1、将編寫的udf的jar包上傳到伺服器上，并且将jar包添加到hive的class path中進入到hive用戶端,執行下面指令2、建立一個臨時函數名,要跟上面hive在同一個session裡面：3、啟動hive的時候帶上初始化檔案：map key結果

1、将編寫的udf的jar包上傳到伺服器上，并且将jar包添加到hive的class path中

進入到hive用戶端,執行下面指令

2、建立一個臨時函數名,要跟上面hive在同一個session裡面：

3、啟動hive的時候帶上初始化檔案：

map key

結果

繼續閱讀

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

Java String.format方法的簡單使用

neo4j之cypher使用文檔

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

mybatis_入門程式Mybatis入門

maven No compiler is provided in this environment. Perhaps you are running on a JRE rather than a J

AOP程式設計_Android優雅權限架構(1)概念基礎，2021金三銀四前言正文大綱正文

sqlServer根據經緯查距離

Effective Java 8:通用程式設計

OOM三種類型

工廠模式-三種類型

【遞歸】高效率求2的n次幂

win10本地scala和spark安裝安裝scala安裝spark

scala (3) Function 和 Method

Opendaylight課堂之深度剖析toaster（一）