测试数据

{"name":"aaa", "age":20}
{"name":"lbbb", "age":30, "facevalue":80}
{"name":"ccc", "age":28, "facevalue":80}
{"name":"ddd", "age":28, "facevalue":90}

DSL风格语法

import org.apache.spark.sql.{DataFrame, SparkSession}
import org.apache.spark.{SparkConf, SparkContext}

object DSLStyle {
  def main(args:Array[String]):Unit = {
    //创建SparkConf()并设置App名称
    val conf = new SparkConf().setAppName("SparkSQLDemo").setMaster("local")
    val spark = SparkSession.builder().config(conf).getOrCreate()
    val df: DataFrame = spark.read.json("people.json")
    //DSL风格语法:
    df.show()
//      +---+---------+--------+
//      |age|facevalue|    name|
//      +---+---------+--------+
//      | 20|     null|     aaa|
//      | 30|       80|     bbb|
//      | 28|       80|     ccc|
//      | 28|       90|     ddd|
//      +---+---------+--------+
    import spark.implicits._
    // 打印Schema信息
    df.printSchema()
//    root
//    |-- age: long (nullable = true)
//    |-- facevalue: long (nullable = true)
//    |-- name: string (nullable = true)

    //直接对DataFrame进行操作
    df.select("name").show()
    df.select($"name", $"age" + 1).show()
    df.filter($"age" > 21).show()
    df.groupBy($"age").count().show()
    spark.stop()
  }

SQL风格语法

import org.apache.spark.sql.{DataFrame, SQLContext, SparkSession}
import org.apache.spark.{SparkConf, SparkContext}
object SqlStyle {
  def main(args:Array[String]):Unit = {
    //创建SparkConf()并设置App名称
    val conf = new SparkConf().setAppName("SparkSQLDemo").setMaster("local")
    val spark = SparkSession.builder().config(conf).getOrCreate()
    val df: DataFrame = spark.read.json("people.json")
   
    //临时表是Session范围内的，Session退出后，表就失效了
    //一个SparkSession结束后,表自动删除
    df.createOrReplaceTempView("people")
    spark.sql("SELECT * FROM people").show()
    spark.sql("SELECT * FROM people where age>20").show()

    //如果想应用范围内有效，可以使用全局表。注意使用全局表时需要全路径访问，如：global_temp.people
    //应用级别内可以访问,一个SparkContext结束后,表自动删除 一个SparkContext可以多次创建SparkSession
    //使用的比较少
    df.createGlobalTempView("people")
    //创建名后需要必须添加global_temp才可以
    spark.sql("SELECT * FROM global_temp.people").show()
    spark.newSession().sql("SELECT * FROM global_temp.people").show()
    spark.stop()
  }
}

SparkSql------两种操作数据的方式（DSL和SQL）测试数据DSL风格语法SQL风格语法

测试数据

DSL风格语法

SQL风格语法

继续阅读

Spark SparkSQL的数据加载和落地

sparksql读取mysql表的两种方式

避免在Spark 2.x版本中使用sparkSQL，关于CTAS bug的发现过程避免在Spark 2.x版本中使用sparkSQL，关于CTAS bug的发现过程1. 背景2. 问题发现过程3. 尝试解决问题4 解决方案5 最后结论

自定义SparkSql语法的一般步骤

SparkCore / SparkSQL中窗口函数RANK, DENSE_RANK, ROW_NUMBER的区别

Spark SQL和Hive中的函数（四）常用的开窗函数

为Catalyst创建用户自定义的优化规则

Spark：SparkSQL与Hive on Spark（Shark）的比较Shark与Spark SQL关系spark SQL和hive到底什么关系

Spark Sql用户权限异常记录

SparkSql如何创建DataFrame

SparkSQL中DataFrame常用API

SparkSQL（1）-SQL/DataFrame/Datasets（course58）

[使用SparkSQL操作DataFrame]一、SparkSession二、SparkSQL

SparkSql------RDD、DataFrame、DataSet之间的相互转化SparkSession的三种创建方式RDD转换为DataFrameRDD转换为DataSetDataSet转化到RDDDataSet转换DataFrameDataFrame转换DataSet

在spark-shell中解决error: not found: value StructType/StructField/StringType问题

Spark基础:Spark简介及特点,运行模式,安装Spark,Driver与Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark运行模式第3章案例实操