如何在Hive中建立自定義函數UDF及如何直接通過Impala的同步中繼資料重用UDF的jar檔案如何在Hive中建立自定義函數UDF及使用如何在Impala中使用Hive的自定義函數UDF函數開發

2019-10-13 23:50:00

如何在Hive中建立自定義函數UDF及使用

如何在Impala中使用Hive的自定義函數

UDF函數開發

使用Intellij工具開發Hive的UDF函數，進行編譯；

1.使用Intellij工具通過Maven建立一個Java工程，并添加pom.xml依賴

<dependency>
            <groupId>org.apache.hive</groupId>
            <artifactId>hive-exec</artifactId>
            <version>${hive.version}</version>
        </dependency>

2.Java示例代碼如下

import org.apache.hadoop.hive.ql.exec.UDF;
/**
 * @Auther:  截取2018023 前五位（簡單的udf對列的字元串處理）
 * @Date: 2019/3/11 10:00
 * @Description:
 */
public class SubStrUdf extends UDF {
    public static String evaluate(String str) {
        if(null == str || str.length()==0){
            return "";
        }else{
            return str.substring(0,5);
        }
    }
}

此處使用一個簡單的日期截取來做示例，注意此處需要內建UDF類，重寫evaluate方法，來實作自己定義函數。

3.編譯jar包

前提條件是已配置Maven的環境變量，指令行進入工程目錄，執行如下指令：

mvn clean package

或者

直接在IDE maven 的插件裡面進行打包

clean
package
install

3.Hive使用自定義函數（UDF）

将章節2中編譯好的sql-udf-demo-1.0.jar上傳到叢集伺服器；

3.1建立臨時UDF

1.進入Hive的shell指令行，執行如下指令，建立臨時函數

hive> add jar /var/lib/hadoop-hdfs/sql-udf-demo-1.0.jar;
hive> create temporary function SubStrUdf as 'com.demo.hive.SubStrUdf';

2.在指令行測試該UDF函數

hive> select SubStrUdf (send_erp_time), send_erp_time from erp_goods.order_goods limit 10 ;
hive會進行分布式的運算

3.2建立永久UDF

1.在HDFS中建立相應目錄，将sql-udf-demo-1.0.jar包上傳至該目錄

[hdfs@cdh21 ~]$ hadoop fs -mkdir /udf
[hdfs@cdh21 ~]$ hadoop fs -put sql-udf-demo-1.0.jar /udf

2.進入Hive的shell指令行，執行如下指令建立永久的UDF

hive> create function SubStrUdf as 'com.demo.hive.SubStrUdf' using jar  'hdfs://cdh21:8020/udf/sql-udf-demo-1.0.jar';

注意：在建立的時候如果帶有資料庫名，則該UDF函數隻對該庫生效，其它庫無法使用該UDF函數。

在指令行測試該函數是否可用，測試與上面一樣

3.驗證永久UDF函數是否生效

重新打開Hive CLI能正常使用建立的UDF函數。

hive> select SubStrUdf (send_erp_time), send_erp_time from erp_goods.order_goods limit 10 ;

4.Impala使用Hive的UDF（直接使用hive中的java的jar檔案中函數，同步中繼資料即可,可以直接複用哦）

1.在Impala shell指令行執行中繼資料同步指令

impala> invalidate metadata;

測試：

重新同步中繼資料之後再次進行測試：

注意，如果這邊在第一個impala-shell進去的時候，同步中繼資料之後還是不能使用hive建立的UDF函數的話，關閉用戶端連接配接，重新進入就可以使用了

删除UDF函數指令：

impala> drop function SubStrUdf;

且重新開機也生效

如何在Hive中建立自定義函數UDF及如何直接通過Impala的同步中繼資料重用UDF的jar檔案如何在Hive中建立自定義函數UDF及使用如何在Impala中使用Hive的自定義函數UDF函數開發

如何在Hive中建立自定義函數UDF及使用

如何在Impala中使用Hive的自定義函數

UDF函數開發

繼續閱讀

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

NOSQL安全攻擊

mybatis_入門程式Mybatis入門

maven No compiler is provided in this environment. Perhaps you are running on a JRE rather than a J

AOP程式設計_Android優雅權限架構(1)概念基礎，2021金三銀四前言正文大綱正文

登入plsql 報錯 the account is locked --使用者被鎖

sqlServer根據經緯查距離

Effective Java 8:通用程式設計

SequoiaDB巨杉資料庫C++驅動概述

OOM三種類型

工廠模式-三種類型

【遞歸】高效率求2的n次幂

win10本地scala和spark安裝安裝scala安裝spark

scala (3) Function 和 Method

Opendaylight課堂之深度剖析toaster（一）