[Spark應用]-- 自定義spark udf計算單詞的長度

2022-11-03 14:33:18

Spark Sql的UDF函數非常好用，相比Hive，很簡潔

import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import org.apache.spark.sql.SQLContext
import org.apache.spark.sql.types.StructType
import org.apache.spark.sql.types.StringType
import org.apache.spark.sql.types.StructField
import org.apache.spark.sql.Row
/**
 * scala内置函數，使用者自定義函數
 * 統計單詞的長度
 * 
 */
object UDF {
  def main(args:Array[String]):Unit={
    //1\擷取context
    val sc=new SparkContext(new SparkConf().setAppName("UDFTest").setMaster("local[1]"))
    //2\擷取sqlContext
    val sqlContext=new SQLContext(sc)
    //3\建立測試資料Array
    val datas=Array("tim","jony","cassis","fang")
    //4\并行化，建立RDD
    val dataRDD=sc.parallelize(datas,4)
    //5\轉換為row
    val rows=dataRDD.map { x => Row(x) }
    //6\建立structType
    val structType=StructType(Array(StructField("name",StringType,true)))
    //7\建立Dataframe
    val df=sqlContext.createDataFrame(rows, structType)
    //8\系統資料庫
    df.registerTempTable("t_test")
    //9\注冊統計長度的函數
    sqlContext.udf.register("str_len", (str:String)=>str.length())
    //10\sql語句,列印輸出
//    sqlContext.sql("select str_len(name) from t_test").collect().foreach { x => println("長度是："+x) }
    sqlContext.sql("select str_len(name) from t_test").show()
    //關閉資源
    sc.stop()    
  }
}
/**

結果：
+---+
|_c0|
+---+
|  3|
|  4|
|  6|
|  4|
+---+

*/

以上測試已經通過，可以根據自己需要做修改！如有不足之處，請各位批評指正！

[Spark應用]-- 自定義spark udf計算單詞的長度

繼續閱讀

SQL語言基礎：常用的資料查詢語句

Linux 7 中配置Apache服務，及禁止ip通路，删除apache廣告頁面。

Apache配置檔案中的deny和allow的使用

Apache 配置預設編碼

伺服器配置——Apache

Apache靜态檔案通路配置（書封伺服器）

apache httpd 配置

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

Ubuntu16.04安裝Apache+MySQL+PHP1. 安裝Apache2. 安裝MySQL3. 安裝PHP4. 安裝phpMyAdmin

Apache配置SSLApache配置SSL

Windows下配置Apache的SSL服務

Apache2.4.x 配置檔案詳解Apache配置需要了解如下：開始講解：

配置apache支援PHP（win7）

neo4j之cypher使用文檔

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

sqlServer根據經緯查距離