[Spark应用]-- 自定义spark udf计算单词的长度

2022-11-03 14:33:18

Spark Sql的UDF函数非常好用，相比Hive，很简洁

import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import org.apache.spark.sql.SQLContext
import org.apache.spark.sql.types.StructType
import org.apache.spark.sql.types.StringType
import org.apache.spark.sql.types.StructField
import org.apache.spark.sql.Row
/**
 * scala内置函数，用户自定义函数
 * 统计单词的长度
 * 
 */
object UDF {
  def main(args:Array[String]):Unit={
    //1\获取context
    val sc=new SparkContext(new SparkConf().setAppName("UDFTest").setMaster("local[1]"))
    //2\获取sqlContext
    val sqlContext=new SQLContext(sc)
    //3\创建测试数据Array
    val datas=Array("tim","jony","cassis","fang")
    //4\并行化，创建RDD
    val dataRDD=sc.parallelize(datas,4)
    //5\转换为row
    val rows=dataRDD.map { x => Row(x) }
    //6\创建structType
    val structType=StructType(Array(StructField("name",StringType,true)))
    //7\创建Dataframe
    val df=sqlContext.createDataFrame(rows, structType)
    //8\注册表
    df.registerTempTable("t_test")
    //9\注册统计长度的函数
    sqlContext.udf.register("str_len", (str:String)=>str.length())
    //10\sql语句,打印输出
//    sqlContext.sql("select str_len(name) from t_test").collect().foreach { x => println("长度是："+x) }
    sqlContext.sql("select str_len(name) from t_test").show()
    //关闭资源
    sc.stop()    
  }
}
/**

结果：
+---+
|_c0|
+---+
|  3|
|  4|
|  6|
|  4|
+---+

*/

以上测试已经通过，可以根据自己需要做修改！如有不足之处，请各位批评指正！

[Spark应用]-- 自定义spark udf计算单词的长度

继续阅读

SQL语言基础：常用的数据查询语句

Linux 7 中配置Apache服务，及禁止ip访问，删除apache广告页面。

Apache配置文件中的deny和allow的使用

Apache 配置默认编码

服务器配置——Apache

Apache静态文件访问配置（书封服务器）

apache httpd 配置

大数据排错SparkSpark集群启动时候，JAVA_HOME is not sethadoop集群，某台服务器jps无任何输出IDEAkafkahadoopspark sqlfile permissionsIDEA本地测试 - OutOfMemoryError: GC overhead limit exceededhdfs负载均衡

Ubuntu16.04安装Apache+MySQL+PHP1. 安装Apache2. 安装MySQL3. 安装PHP4. 安装phpMyAdmin

Apache配置SSLApache配置SSL

Windows下配置Apache的SSL服务

Apache2.4.x 配置文件详解Apache配置需要了解如下：开始讲解：

配置apache支持PHP（win7）

neo4j之cypher使用文档

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

sqlServer根据经纬查距离