SparkSQL 自定義聚合函數UDAF實戰應用

2022-07-01 17:28:03

package sparkSql

import org.apache.spark.sql.{Row, SparkSession}
import org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFunction}
import org.apache.spark.sql.types.{DataType, DataTypes, StructField, StructType}

/**
 * @Author yqq
 * @Date 2021/12/14 14:34
 * @Version 1.0
 * 與聚合函數同時出現在Select後的字段，需要跟在 group by 後面
 */
object SparkSQLUDAF {
  def main(args: Array[String]): Unit = {
    val session = SparkSession.builder().master("local").appName("test02").getOrCreate()
    session.sparkContext.setLogLevel("Error")
    val list = List[String]("kobe", "james", "kobe", "durant", "kobe","kobe","james","james","durant")
    import session.implicits._
    val frame = list.toDF("name")
    frame.createTempView("t")

    /**
     * 自定義聚合函數UDAF
     */
    session.udf.register("nameCount",new UserDefinedAggregateFunction {
      //調用UDF函數時，傳參的類型
      override def inputSchema: StructType = StructType(List[StructField](
        StructField("name",DataTypes.StringType)
      ))
      //設定在計算過程中，更新的資料類型
      override def bufferSchema: StructType = StructType(List[StructField](
        StructField("name",DataTypes.IntegerType)
      ))
      //指定調用函數最後傳回類型
      override def dataType: DataType = DataTypes.IntegerType
      //多次運作，結果順序保持一緻
      override def deterministic: Boolean = true
      //作用在map,reduce兩側給每個分區内的每個分組的資料做初始值
      override def initialize(buffer: MutableAggregationBuffer): Unit = buffer.update(0,0)
      //作用在map端每個分區的每個分組上
      override def update(buffer: MutableAggregationBuffer, input: Row): Unit = buffer.update(0,buffer.getInt(0)+1)
      //作用在reduce端，每個分區的每個分組上，對map的結果做聚合
      override def merge(buffer1: MutableAggregationBuffer, buffer2: Row): Unit = buffer1.update(0,buffer1.getInt(0)+buffer2.getInt(0))
      //調用函數最後傳回的資料結果
      override def evaluate(buffer: Row): Any = buffer.getInt(0)
    })
    session.sql(
      """
        |select name,nameCount(name) as totalCount from t group by name
        |""".stripMargin).show()
  }
}

SparkSQL 自定義聚合函數UDAF實戰應用

繼續閱讀

SQL優化SQL語句優化的目的

JAVA高效程式設計指南

hadoop 用MR實作join操作

Centos7 下 Hadoop 2.6.4 分布式叢集環境搭建摘要叢集準備安裝JDK 安裝 Hadoop 2.6.4 部署 slaver1-slaver4 啟動 hadoop 叢集成功了

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

關于SQL語言

SQL語言基礎：常用的資料查詢語句

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

ubuntu14.04下安裝hbse1.0.1.1

User Defined Hadoop DataType

neo4j之cypher使用文檔

Ambari介紹和架構原理

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

sqlServer根據經緯查距離