hive常见自定义函数先来讲一下hive自定义函数

1.1 为什么需要自定义函数

hive的内置函数满足不了所有的业务需求。hive提供很多的模块可以自定义功能，比如：自定义函数、serde、输入输出格式等。

1.2 常见自定义函数有哪些

.UDF：用户自定义函数，user defined function。一对一的输入输出。（最常用的）。

.UDTF：用户自定义表生成函数。user defined table-generate function.一对多的输入输出。lateral view explode

.UDAF：用户自定义聚合函数。user defined aggregate function。多对一的输入输出 count sum max。

2 自定义函数实现

2.1 UDF格式

先在工程下新建一个pom.xml,加入以下maven的依赖包请查看code/pom.xml

定义UDF函数要注意下面几点:

.继承org.apache.hadoop.hive.ql.exec.UDF

.重写evaluate()，这个方法不是由接口定义的,因为它可接受的参数的个数,数据类型都是不确定的。Hive会检查UDF,看能否找到和函数调用相匹配的evaluate()方法

2.1.1 自定义函数第一个案例

public class FirstUDF extends UDF {

public String evaluate(String str){
    String upper = null;
    //1、检查输入参数        if (StringUtils.isEmpty(str)){
    } else {
        upper = str.toUpperCase();
    }
    return upper;
}
//调试自定义函数    public static void main(String[] args){
    System.out.println(new firstUDF().evaluate("jiajingwen"));
}}

2.2 函数加载方式

2.2.1 命令加载

这种加载只对本session有效

1、将编写的udf的jar包上传到服务器上，并且将jar包添加到hive的class path中

进入到hive客户端,执行下面命令

add jar /hivedata/udf.jar

2、创建一个临时函数名,要跟上面hive在同一个session里面：

create temporary function toUP as 'com.qf.hive.FirstUDF';

3、检查函数是否创建成功

show functions;

测试功能
toUp('abcdef');

删除函数
temporary function if exists tolow;

2.2.2 启动参数加载

(也是在本session有效，临时函数)

1、将编写的udf的jar包上传到服务器上

2、创建配置文件

vi ./hive-init

add jar /hivedata/udf.jar;

create temporary function toup as 'com.qf.hive.FirstUDF';

3、启动hive的时候带上初始化文件：

hive -i ./hive-init

select toup('abcdef')

2.2.3 配置文件加载

通过配置文件方式这种只要用hive命令行启动都会加载函数

2、在hive的安装目录的bin目录下创建一个配置文件，文件名：.hiverc

vi ./bin/.hiverc

3、启动hive

hive

2.3 UDTF格式

UDTF是一对多的输入输出,实现UDTF需要完成下面步骤

.继承org.apache.hadoop.hive.ql.udf.generic.GenericUDF，

.重写initlizer（）、getdisplay（）、evaluate()。

执行流程如下:

UDTF首先会调用initialize方法，此方法返回UDTF的返回行的信息（返回个数，类型）。

初始化完成后，会调用process方法,真正的处理过程在process函数中，在process中，每一次forward()调用产生一行；如果产生多列可以将多个列的值放在一个数组中，然后将该数组传入到forward()函数。

最后close()方法调用，对需要清理的方法进行清理。

2.3.1 需求:

把"k1:v1;k2:v2;k3:v3"类似的的字符串解析成每一行多行,每一行按照key:value格式输出

2.3.2 源码

自定义函数如下:

package com.qf.hive;

public class ParseMapUDTF extends GenericUDTF{

@Override
 public void close() throws HiveException {
 }
 @Override
 public StructObjectInspector initialize(ObjectInspector[] args)
         throws UDFArgumentException {
     if (args.length != 1) {
         throw new UDFArgumentLengthException(" 只能传入一个参数");
     }
     ArrayList<String> fieldNameList = new ArrayList<String>();
     ArrayList<ObjectInspector> fieldOIs = new ArrayList<ObjectInspector>();
     fieldNameList.add("map");
     fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);
     fieldNameList.add("key");
     fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);
     return ObjectInspectorFactory.getStandardStructObjectInspector(fieldNameList,fieldOIs);
 }
 @Override
 public void process(Object[] args) throws HiveException {
     String input = args[0].toString();
     String[] paramString = input.split(";");
     for(int i=0; i<paramString.length; i++) {
         try {
             String[] result = paramString[i].split(":");
             forward(result);
         } catch (Exception e) {
             continue;
         }
     }
 }

}

2.3.3 打包加载

对上述命令源文件打包为udf.jar,拷贝到服务器的/hivedata/目录

在Hive客户端把udf.jar加入到hive中,如下:

2.3.4 创建临时函数:

在Hive客户端创建函数:

create temporary function parseMap as 'com.qf.hive.ParseMapUDTF'; # 创建一个临时函数parseMap# 查看函数是否加入show functions ;

2.3.5 测试临时函数

select parseMap("name:zhang;age:30;address:shenzhen")

结果如下:

map key

name zhang

age 30

address shenzhen

2.4 UDAF格式

用户自定义聚合函数。user defined aggregate function。多对一的输入输出 count sum max。定义一个UDAF需要如下步骤:

.UDF自定义函数必须是org.apache.hadoop.hive.ql.exec.UDAF的子类,并且包含一个火哥多个嵌套的的实现了org.apache.hadoop.hive.ql.exec.UDAFEvaluator的静态类。

.函数类需要继承UDAF类，内部类Evaluator实UDAFEvaluator接口。

.Evaluator需要实现 init、iterate、terminatePartial、merge、terminate这几个函

这几个函数作用如下:

函数说明init实现接口UDAFEvaluator的init函数iterate每次对一个新值进行聚集计算都会调用,计算函数要根据计算的结果更新其内部状态terminatePartial无参数，其为iterate函数轮转结束后，返回轮转数据merge接收terminatePartial的返回结果，进行数据merge操作，其返回类型为boolean。terminate返回最终的聚集函数结果。

2.4.1 需求

计算一组整数的最大值

2.4.2 代码

package com.qf.hive;public class MaxValueUDAF extends UDAF {

public static class MaximumIntUDAFEvaluator implements UDAFEvaluator {
    private IntWritable result;
    public void init() {
        result = null;
    }
    public boolean iterate(IntWritable value) {
        if (value == null) {
            return true;
        }
        if (result == null) {
            result = new IntWritable( value.get() );
        } else {
            result.set( Math.max( result.get(), value.get() ) );
        }
        return true;
    }
    public IntWritable terminatePartial() {
        return result;
    }
    public boolean merge(IntWritable other) {
        return iterate( other );
    }
    public IntWritable terminate() {
        return result;
    }
}}

2.4.3 打包加载

2.4.4 创建临时函数:

create temporary function maxInt as 'com.qf.hive.MaxValueUDAF';# 查看函数是否加入show functions ;

select maxInt(mgr) from emp

结果

7902

hive常见自定义函数1、将编写的udf的jar包上传到服务器上，并且将jar包添加到hive的class path中进入到hive客户端,执行下面命令2、创建一个临时函数名,要跟上面hive在同一个session里面：3、启动hive的时候带上初始化文件：map key结果

1、将编写的udf的jar包上传到服务器上，并且将jar包添加到hive的class path中

进入到hive客户端,执行下面命令

2、创建一个临时函数名,要跟上面hive在同一个session里面：

3、启动hive的时候带上初始化文件：

map key

结果

继续阅读

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

Java String.format方法的简单使用

neo4j之cypher使用文档

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

mybatis_入门程序Mybatis入门

maven No compiler is provided in this environment. Perhaps you are running on a JRE rather than a J

AOP编程_Android优雅权限框架(1)概念基础，2021金三银四前言正文大纲正文

sqlServer根据经纬查距离

Effective Java 8:通用程序设计

OOM三种类型

工厂模式-三种类型

【递归】高效率求2的n次幂

win10本地scala和spark安装安装scala安装spark

scala (3) Function 和 Method

Opendaylight课堂之深度剖析toaster（一）