天天看點

hive常見自定義函數1、将編寫的udf的jar包上傳到伺服器上,并且将jar包添加到hive的class path中進入到hive用戶端,執行下面指令2、建立一個臨時函數名,要跟上面hive在同一個session裡面:3、啟動hive的時候帶上初始化檔案:map key結果

  hive常見自定義函數先來講一下hive自定義函數

1.1 為什麼需要自定義函數

hive的内置函數滿足不了所有的業務需求。hive提供很多的子產品可以自定義功能,比如:自定義函數、serde、輸入輸出格式等。

1.2 常見自定義函數有哪些

.UDF:使用者自定義函數,user defined function。一對一的輸入輸出。(最常用的)。

.UDTF:使用者自定義表生成函數。user defined table-generate function.一對多的輸入輸出。lateral view explode

.UDAF:使用者自定義聚合函數。user defined aggregate function。多對一的輸入輸出 count sum max。

2 自定義函數實作

2.1 UDF格式

先在工程下建立一個pom.xml,加入以下maven的依賴包 請檢視code/pom.xml

定義UDF函數要注意下面幾點:

.繼承org.apache.hadoop.hive.ql.exec.UDF

.重寫evaluate(),這個方法不是由接口定義的,因為它可接受的參數的個數,資料類型都是不确定的。Hive會檢查UDF,看能否找到和函數調用相比對的evaluate()方法

2.1.1 自定義函數第一個案例

public class FirstUDF extends UDF {

public String evaluate(String str){
    String upper = null;
    //1、檢查輸入參數        if (StringUtils.isEmpty(str)){​
    } else {
        upper = str.toUpperCase();
    }​
    return upper;
}​
//調試自定義函數    public static void main(String[] args){
    System.out.println(new firstUDF().evaluate("jiajingwen"));
}}           

2.2 函數加載方式

2.2.1 指令加載

這種加載隻對本session有效

1、将編寫的udf的jar包上傳到伺服器上,并且将jar包添加到hive的class path中

進入到hive用戶端,執行下面指令

add jar /hivedata/udf.jar

2、建立一個臨時函數名,要跟上面hive在同一個session裡面:

create temporary function toUP as 'com.qf.hive.FirstUDF';

3、檢查函數是否建立成功

show functions;

  1. 測試功能
  2. toUp('abcdef');
  1. 删除函數
  2. temporary function if exists tolow;

2.2.2 啟動參數加載

(也是在本session有效,臨時函數)

1、将編寫的udf的jar包上傳到伺服器上

2、建立配置檔案

vi ./hive-init

add jar /hivedata/udf.jar;

create temporary function toup as 'com.qf.hive.FirstUDF';

3、啟動hive的時候帶上初始化檔案:

hive -i ./hive-init

select toup('abcdef')

2.2.3 配置檔案加載

通過配置檔案方式這種隻要用hive指令行啟動都會加載函數

2、在hive的安裝目錄的bin目錄下建立一個配置檔案,檔案名:.hiverc

vi ./bin/.hiverc

3、啟動hive

hive

2.3 UDTF格式

UDTF是一對多的輸入輸出,實作UDTF需要完成下面步驟

.繼承org.apache.hadoop.hive.ql.udf.generic.GenericUDF,

.重寫initlizer()、getdisplay()、evaluate()。

執行流程如下:

UDTF首先會調用initialize方法,此方法傳回UDTF的傳回行的資訊(傳回個數,類型)。

初始化完成後,會調用process方法,真正的處理過程在process函數中,在process中,每一次forward()調用産生一行;如果産生多列可以将多個列的值放在一個數組中,然後将該數組傳入到forward()函數。

最後close()方法調用,對需要清理的方法進行清理。

2.3.1 需求:

把"k1:v1;k2:v2;k3:v3"類似的的字元串解析成每一行多行,每一行按照key:value格式輸出

2.3.2 源碼

自定義函數如下:

package com.qf.hive;​

public class ParseMapUDTF extends GenericUDTF{

@Override
 public void close() throws HiveException {
 }​
 @Override
 public StructObjectInspector initialize(ObjectInspector[] args)
         throws UDFArgumentException {
     if (args.length != 1) {
         throw new UDFArgumentLengthException(" 隻能傳入一個參數");
     }​
     ArrayList<String> fieldNameList = new ArrayList<String>();
     ArrayList<ObjectInspector> fieldOIs = new ArrayList<ObjectInspector>();
     fieldNameList.add("map");
     fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);
     fieldNameList.add("key");
     fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);​
     return ObjectInspectorFactory.getStandardStructObjectInspector(fieldNameList,fieldOIs);
 }​
 @Override
 public void process(Object[] args) throws HiveException {
     String input = args[0].toString();
     String[] paramString = input.split(";");
     for(int i=0; i<paramString.length; i++) {
         try {
             String[] result = paramString[i].split(":");
             forward(result);
         } catch (Exception e) {
             continue;
         }
     }
 }           

}

2.3.3 打包加載

對上述指令源檔案打包為udf.jar,拷貝到伺服器的/hivedata/目錄

在Hive用戶端把udf.jar加入到hive中,如下:

2.3.4 建立臨時函數:

在Hive用戶端建立函數:

create temporary function parseMap as 'com.qf.hive.ParseMapUDTF'; # 建立一個臨時函數parseMap​# 檢視函數是否加入show functions ;

2.3.5 測試臨時函數

select parseMap("name:zhang;age:30;address:shenzhen")

結果如下:

map key

name zhang

age 30

address shenzhen

2.4 UDAF格式

使用者自定義聚合函數。user defined aggregate function。多對一的輸入輸出 count sum max。定義一個UDAF需要如下步驟:

.UDF自定義函數必須是org.apache.hadoop.hive.ql.exec.UDAF的子類,并且包含一個火哥多個嵌套的的實作了org.apache.hadoop.hive.ql.exec.UDAFEvaluator的靜态類。

.函數類需要繼承UDAF類,内部類Evaluator實UDAFEvaluator接口。

.Evaluator需要實作 init、iterate、terminatePartial、merge、terminate這幾個函

這幾個函數作用如下:

函數說明init實作接口UDAFEvaluator的init函數iterate每次對一個新值進行聚集計算都會調用,計算函數要根據計算的結果更新其内部狀态terminatePartial無參數,其為iterate函數輪轉結束後,傳回輪轉資料merge接收terminatePartial的傳回結果,進行資料merge操作,其傳回類型為boolean。terminate傳回最終的聚集函數結果。

2.4.1 需求

計算一組整數的最大值

2.4.2 代碼

package com.qf.hive;​public class MaxValueUDAF extends UDAF {

public static class MaximumIntUDAFEvaluator implements UDAFEvaluator {
    private IntWritable result;
    public void init() {
        result = null;
    }
    public boolean iterate(IntWritable value) {
        if (value == null) {
            return true;
        }
        if (result == null) {
            result = new IntWritable( value.get() );
        } else {
            result.set( Math.max( result.get(), value.get() ) );
        }
        return true;
    }
    public IntWritable terminatePartial() {
        return result;
    }
    public boolean merge(IntWritable other) {
        return iterate( other );
    }
    public IntWritable terminate() {
        return result;
    }
}}           

2.4.3 打包加載

2.4.4 建立臨時函數:

create temporary function maxInt as 'com.qf.hive.MaxValueUDAF';​# 檢視函數是否加入show functions ;

select maxInt(mgr) from emp

結果

7902