SparkSql_UDF_UDAF_Mysql_Hive

文章目录

1.UDF
2.UDAF
3.Mysql数据源
4.Hive

1.UDF

object Spark03 {
  def main(args: Array[String]): Unit = {
    val sparkConf = new SparkConf().setAppName("Sql").setMaster("local")
    val spark = SparkSession.builder().config(sparkConf).getOrCreate()
    val df = spark.read.json("data/input.json")
    df.createOrReplaceTempView("user")
    // TODO
    // UDF
    spark.udf.register("prefixName", (name: String) => {
        "Name" + name
    })
    spark.sql("select name, prefixName(age) from user").show()
    spark.close()
  }


}

2.UDAF

1.弱类型函数实现

UserDefinedAggregateFunction 抽象类

object Spark04_UDAF {
  def main(args: Array[String]): Unit = {
    val sparkConf = new SparkConf().setMaster("local").setAppName("Sql")
    val spark = SparkSession.builder().config(sparkConf).getOrCreate()

    val df = spark.read.json("data/input.json")
    df.createOrReplaceTempView("user")

    spark.udf.register("avgAge", new MyAvgUDAF())

    spark.sql("select avgAge(age) from user").show()
    spark.close()
  }
  // 弱类型函数实现
  class MyAvgUDAF extends UserDefinedAggregateFunction{
    override def inputSchema: StructType = {
      StructType(
        Array(
          StructField("age", LongType)
        )
      )
    }

    override def bufferSchema: StructType = {
      StructType(
        Array(
          StructField("total", LongType),
          StructField("count", LongType)
        )
      )
    }
    // 输出
    override def dataType: DataType = LongType
    // 函数稳定性
    override def deterministic: Boolean = true
    // 缓冲区初始化
    override def initialize(buffer: MutableAggregationBuffer): Unit = {
      buffer.update(0, 0L)
      buffer.update(1, 0L)

    }

    override def update(buffer: MutableAggregationBuffer, input: Row): Unit = {
      buffer.update(0, buffer.getLong(0) + input.getLong(0))
      buffer.update(1, buffer.getLong(1) + 1)
    }

    override def merge(buffer1: MutableAggregationBuffer, buffer2: Row): Unit = {
      buffer1.update(0, buffer1.getLong(0) + buffer2.getLong(0))
      buffer1.update(1, buffer1.getLong(1) + buffer2.getLong(1))
    }
    // 计算
    override def evaluate(buffer: Row): Any = {
      buffer.getLong(0)/buffer.getLong(1)
    }
  }

}

2.强类型函数实现

Aggregator 抽象类

object Spark05_UDAF {
  def main(args: Array[String]): Unit = {
    val sparkConf = new SparkConf().setMaster("local").setAppName("Sql")
    val spark = SparkSession.builder().config(sparkConf).getOrCreate()
    val df = spark.read.json("data/input.json")
    df.createOrReplaceTempView("user")
    // 强转弱
    spark.udf.register("avgAge", functions.udaf(new MyAvgUDAF1))
    spark.sql("select avgAge(age) from user").show()

    spark.close()
  }
  case class Buff(var total:Long, var count: Long)
  class MyAvgUDAF1 extends Aggregator[Long, Buff, Long]{
    override def zero: Buff = {
      Buff(0L, 0L)
    }

    override def reduce(b: Buff, a: Long): Buff = {
      b.total = b.total + a
      b.count = b.count + 1
      b
    }

    override def merge(b1: Buff, b2: Buff): Buff = {
      b1.total = b1.total + b2.total
      b1.count = b1.count + b2.count
      b1
    }

    override def finish(reduction: Buff): Long = {
      reduction.total / reduction.count
    }
    // 缓冲区的编码
    override def bufferEncoder: Encoder[Buff] = Encoders.product
    // 输入的编码
    override def outputEncoder: Encoder[Long] = Encoders.scalaLong
  }

}

3.Mysql数据源

object Spark06 {
  def main(args: Array[String]): Unit = {
    // spark.read.format("json").load
    // df.write.format("json").save()
    // Mysql

    val sparkConf = new SparkConf().setMaster("local").setAppName("Sql")
    val spark = SparkSession.builder().config(sparkConf).getOrCreate()
    import spark.implicits._

    val df = spark.read.format("jdbc")
      .option("url", "jdbc:mysql:///test")
      .option("driver", "com.mysql.jdbc.Driver")
      .option("user", "root")
      .option("password", "root")
      .option("dbtable", "user9")
      .load()
    df.show()

    df.write.format("jdbc")
      .option("url", "jdbc:mysql:///test")
      .option("driver", "com.mysql.jdbc.Driver")
      .option("user", "root")
      .option("password", "root")
      .option("dbtable", "user8")
      .mode(SaveMode.Append)
        .save()


    spark.close()
  }

}

4.Hive

maven

mysql
            mysql-connector-java
            5.1.27
        

        
            org.apache.spark
            spark-hive_2.12
            3.0.0

object Spark07_Hive {
  def main(args: Array[String]): Unit = {
    val sparkConf = new SparkConf().setMaster("local").setAppName("Sql")
    val spark = SparkSession.builder().enableHiveSupport().config(sparkConf).getOrCreate()
    import spark.implicits._
    spark.sql("show tables").show()
    spark.close()
  }

}

SparkSql_UDF_UDAF_Mysql_Hive

文章目录

1.UDF

2.UDAF

3.Mysql数据源

4.Hive

继续阅读

宝塔面板mysql恢复2018.1.8更新

Centos7 MySQL 5.7 安装MySQL 5.7 安装

尚硅谷—韩顺平—图解 Java设计模式（结构型）（55～）

查找入职员工时间排名倒数第三的员工所有信息

Hibernate使用Hibernate的“3个准备，7个步骤”Hibernate API简介操作实体对象对象识别

云计算面试题——mysql/存储引擎/备份

关于SQL语言

SQL语言基础：常用的数据查询语句

大数据排错SparkSpark集群启动时候，JAVA_HOME is not sethadoop集群，某台服务器jps无任何输出IDEAkafkahadoopspark sqlfile permissionsIDEA本地测试 - OutOfMemoryError: GC overhead limit exceededhdfs负载均衡

2021-2025年中国运动疗法（KT）带行业市场供需与战略研究报告

Ubuntu16.04安装Apache+MySQL+PHP1. 安装Apache2. 安装MySQL3. 安装PHP4. 安装phpMyAdmin

MySQL的4种隔离级别？出现问题

neo4j之cypher使用文档

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

mysql使用source命令导入.sql文件

sqlServer根据经纬查距离