【SparkSQL】Spark SQL自定义函数的介绍及其使用

2023-03-20 00:56:36

介绍

自定义UDF

自定义UDAF

介绍

类似于hive当中的自定义函数， spark同样可以使用自定义函数来实现新的功能。spark中的自定义函数有如下3类

UDF(User-Defined-Function)：输入一行，输出一行

UDAF(User-Defined Aggregation Funcation)：输入多行，输出一行

UDTF(User-Defined Table-Generating Functions)：输入一行，输出多行

自定义UDF

数据

Hello
abc
study
small

通过自定义UDF函数将每一行数据转换成大写

//创建SparkSession
val spark: SparkSession = SparkSession.builder().master("local[*]").appName("SparkSQL").getOrCreate()

//根据SparkSession创建SparkContext
val sc: SparkContext = spark.sparkContext
sc.setLogLevel("WARN")

//读取文件
val fileDS: Dataset[String] = spark.read.textFile("C:\\Users\\86132\\Desktop\\555\\udf.txt")


//将每一行数据转换成大写
//注册一个函数名称为smallToBig,功能是传入一个String,返回一个大写的String
spark.udf.register("smallToBig", (str: String) => str.toUpperCase())
fileDS.createOrReplaceTempView("t_word")

//使用我们自己定义的函数
spark.sql("select value,smallToBig(value) from t_word").show()

sc.stop()
spark.stop()

自定义UDAF

数据

{"name":"Michael","salary":3000}
{"name":"Andy","salary":4500}
{"name":"Justin","salary":3500}
{"name":"Berta","salary":4000}

继承UserDefinedAggregateFunction方法重写说明

inputSchema：输入数据的类型

bufferSchema：产生中间结果的数据类型

dataType：最终返回的结果类型

deterministic：确保一致性，一般用true

initialize：指定初始值

update：每有一条数据参与运算就更新一下中间结果(update相当于在每一个分区中的运算)

merge：全局聚合(将每个分区的结果进行聚合)

evaluate：计算最终的结果

求取平均工资

def main(args: Array[String]): Unit = {
    //创建SparkSession
    val spark: SparkSession = SparkSession.builder().appName("SparkSQL").master("local[*]").getOrCreate()

    //根据SparkSession创建SparkContext
    val sc: SparkContext = spark.sparkContext
    sc.setLogLevel("WARN")

    //读取文件
    val employeeDF: DataFrame = spark.read.json("C:\\Users\\86132\\Desktop\\555\\udaf.json")

    //创建临时表
    employeeDF.createOrReplaceTempView("t_employee")

    //注册UDAF函数
    spark.udf.register("myavg", new MyUDAF)

    //使用自定义UDAF函数
    spark.sql("select myavg(salary) from t_employee").show()

    //使用内置的avg函数
    spark.sql("select avg(salary) from t_employee").show()
  }
}

class MyUDAF extends UserDefinedAggregateFunction {
  //输入的数据类型的schema
  override def inputSchema: StructType = {
    //:: Nil 创建一个不可变的列表
    StructType(StructField("input", LongType) :: Nil)
  }

  //缓冲区数据类型schema，就是转换之后的数据的schema
  override def bufferSchema: StructType = {
    StructType(StructField("sum", LongType) :: StructField("total", LongType) :: Nil)
  }

  //返回值的数据类型
  override def dataType: DataType = {
    DoubleType
  }

  //确定是否相同的输入会有相同的输出
  override def deterministic: Boolean = {
    true
  }

  //初始化内部数据结构
  override def initialize(buffer: MutableAggregationBuffer): Unit = {
    buffer(0) = 0L
    buffer(1) = 0L
  }

  //更新数据内部结构,区内计算
  override def update(buffer: MutableAggregationBuffer, input: Row): Unit = {
    //所有的金额相加
    buffer(0) = buffer.getLong(0) + input.getLong(0)
    //一共有多少条数据
    buffer(1) = buffer.getLong(1) + 1
  }

  //来自不同分区的数据进行合并,全局合并
  override def merge(buffer1: MutableAggregationBuffer, buffer2: Row): Unit = {
    buffer1(0) = buffer1.getLong(0) + buffer2.getLong(0)
    buffer1(1) = buffer1.getLong(1) + buffer2.getLong(1)
  }

  //计算输出数据值
  override def evaluate(buffer: Row): Any = {
    buffer.getLong(0).toDouble / buffer.getLong(1)
  }

【SparkSQL】Spark SQL自定义函数的介绍及其使用

介绍

自定义UDF

自定义UDAF

继续阅读

用写sql的思路写 pyspark

pyspark学习(一)—pyspark的安装与基础语法一 Pysaprk的安装二：pyspark的简单语法END

【Spark Mllib】K-均值聚类——电影类型K-均值聚类数据特征提取

Oracle自定义函数示例

一篇文章让你精通Java JSP规范

世界因大数据而改变

Spark的RDD转换算子-双value型Spark的RDD转换算子-双value型

SparkSQL项目练习1 准备数据2 需求：各区域热门商品Top3

延云行业搜索数据库在大数据生态中位置和重要性大数据的挑战大数据技术的现状延云行业搜索数据库

Spark在windows环境里跑时报错找不到org.apache.hadoop.fs.FSDataInputStream

Spark流式分析系统实现流式实时日志分析系统

Scala和Java二种方式实战Spark Streaming开发

Spark基础:Spark简介及特点,运行模式,安装Spark,Driver与Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark运行模式第3章案例实操

Spark实现wordcount

大数据排错SparkSpark集群启动时候，JAVA_HOME is not sethadoop集群，某台服务器jps无任何输出IDEAkafkahadoopspark sqlfile permissionsIDEA本地测试 - OutOfMemoryError: GC overhead limit exceededhdfs负载均衡

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结