SparkSQL注册自定义函数

2023-03-10 01:30:49

SparkSql可以方便地使用sql来处理数据，实际中经常会大量使用。在处理复杂逻辑时，为了避免写出又长又难以理解的SQL，可以实现自定义函数，再将其注册后，供sql调用。不仅减少sql的复杂度，还增加了代码的重用。下面就实现一个例子来说明,目的是以15分钟为统计周期，统计订单量。

import java.util.Calendar

import java.text.SimpleDateFormat

//时间加减函数

def addSeconds(strDateTime:String,seconds:Int):String={

val simpleDateFormat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss")

val date = simpleDateFormat .parse(strDateTime)

val c = Calendar.getInstance()

c.setTime(date)

c.add(Calendar.SECOND,seconds)

simpleDateFormat .format(c.getTime())

}

//时间转换函数，如将2016-10-10 00:08:08 转换到2016-10-10 00:15:00

def endTime(date:String,minute:Int,dur:Int):String={

dur match{

case 15 =>

minute match{

case x if (x >=0 && x <15) => date.substring(0,14) + "15:00"

case x if (x >=15 && x <30) => date.substring(0,14) + "30:00"

case x if (x >=30 && x <45) => date.substring(0,14) + "45:00"

case x if (x >=45) => addSeconds(date,3600).substring(0,14) + "00:00"

}

import org.apache.spark._

val conf = new SparkConf()

val sc = new SparkContext(conf)

val sqlContext = new SqlContext(sc)

//注册自定义函数, _默认传参

sqlContext .udf.register("endTime",endTime _)

val querySQL = """select count(t.order_id) totalNum,t,newtime

from (

select order_id,time,endTime(time,minute(time),15) newtime

from orders

order by time

) t

group by t.order_id,t,newtime

order by t.order_id,t,newtime

"""

val results = sqlContext .sql(querySQL ).show()

//如有疑问或不当之处，欢迎交流！

SparkSQL注册自定义函数

继续阅读

pyspark调用spark以及执行带in语句参数的hql示例

用写sql的思路写 pyspark

pyspark学习(一)—pyspark的安装与基础语法一 Pysaprk的安装二：pyspark的简单语法END

【Spark Mllib】K-均值聚类——电影类型K-均值聚类数据特征提取

一篇文章让你精通Java JSP规范

世界因大数据而改变

Spark的RDD转换算子-双value型Spark的RDD转换算子-双value型

SparkSQL项目练习1 准备数据2 需求：各区域热门商品Top3

延云行业搜索数据库在大数据生态中位置和重要性大数据的挑战大数据技术的现状延云行业搜索数据库

Spark在windows环境里跑时报错找不到org.apache.hadoop.fs.FSDataInputStream

Spark流式分析系统实现流式实时日志分析系统

Scala和Java二种方式实战Spark Streaming开发

Spark基础:Spark简介及特点,运行模式,安装Spark,Driver与Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark运行模式第3章案例实操

Spark实现wordcount

大数据排错SparkSpark集群启动时候，JAVA_HOME is not sethadoop集群，某台服务器jps无任何输出IDEAkafkahadoopspark sqlfile permissionsIDEA本地测试 - OutOfMemoryError: GC overhead limit exceededhdfs负载均衡

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结