Spark-Sql（RDD----DataFrame3种方式)

DataFrame是什么

在Spark中，DataFrame是一种按列组织的分布式数据集，概念上等价于关系数据库中一个表或者是Python中的

data frame，但是在底层进行了更丰富的优化。
DataFrame与RDD的对比以及联系

DataFrame里面存放的结构化数据的描述信息，DataFrame要有表头（表的描述信息），描述了有多少列，每一

列数叫什么名字、什么类型、能不能为空？

DataFrame是特殊的RDD（RDD+Schema信息就变成了DataFrame）DataFrame是一种以RDD为基础的分布式数

据集，类似于传统数据库中的二维表格。

与RDD的主要区别在于：前者带有Schema元数据，即DataFrame所表示的二维数据集的每一列都有名称和类型。

由于无法知道RDD数据集内部的结构，Spark执行作业只能在调度阶段进行简单通用的优化，而DataFrame带有数

据集内部的结构，可以根据这些信息进行针对性的优化，最终实现优化运行效率。

DataFrame带来的好处：

精简代码

提升执行效率

减少数据读取：忽略无关数据，根据查询条件进行适当裁剪。

Spark-Sql（RDD----DataFrame3种方式)
RDD----DataFrame3种方式
1. 直接手动确定
  
  手动创建其实就在在已有的RDD上给定一个标签的名称，因为RDD本身就带有数据格式，再给定一个标签就满足了DataFrame的格式要求

package sparksql

import org.apache.spark.rdd.RDD
import org.apache.spark.sql.{DataFrame, SparkSession}
import org.apache.spark
object RDDtoDataFrame1 {
  def main(args: Array[String]): Unit = {
    val ss:SparkSession=SparkSession.builder().appName("RDDtoDataFrame1").master("local[*]").getOrCreate()
    val rdd1:RDD[(String, Int)] =ss.sparkContext.parallelize(List("xiaowanzi"->23,"zhangsan"->25,"lisi"->30))
    import  ss.implicits._
    val df:DataFrame=rdd1.toDF("name","age")
    df.createOrReplaceTempView("person")
    ss.sql("select name,age from person").show()
    ss.stop()
  }
}

利用反射创建

利用反射创建Dataframe的前提是已经知道了Schema(即表的内部结构)，首先要定义一个case class(这个class其实就是Schema),然后要获取一个RDD，这个RDD的类型要为已经定义过的class，最后直接RDD.toDF()

package sparksql

import org.apache.spark.rdd.RDD
import org.apache.spark.sql.{DataFrame, SparkSession}

object RDDtoDataFrame2 {
  case class person(name:String,age:Int){}
  def main(args: Array[String]): Unit = {
    val ss:SparkSession=SparkSession.builder().appName("RDDtoDataFrame1").master("local[*]").getOrCreate()
    val rdd2:RDD[person]=ss.sparkContext.parallelize(List("xiaowanzi"->23,"zhangsan"->25,"lisi"->30)).map(x=>{
      val name=x._1
      val age=x._2
      person(name,age)
    })
    import  ss.implicits._
    val df2:DataFrame=rdd2.toDF()
    df2.createOrReplaceTempView("person")
    ss.sql("select name,age from person").show()
    ss.stop()
  }
}

利用接口编程实现

在事先不知道表的Schema的情况，可以利用接口编程来创建，首先创建一个Row类型的RDD，然后定义一个StructType类型的Schema，即给Row标签和数据类型。最后使用sparksession.createDataFrame(rdd,schema1)即可

package sparksql


import org.apache.spark.rdd.RDD
import org.apache.spark.sql.catalyst.ScalaReflection.Schema
import org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType}
import org.apache.spark.sql.{DataFrame, Row, SparkSession}

object RDDtoDataFrame {
  def main(args: Array[String]): Unit = {
    val ss:SparkSession=SparkSession.builder().appName("RDDtoDataFrame1").master("local[*]").getOrCreate()
    val rdd:RDD[Row]=ss.sparkContext.parallelize(List("xiaowanzi"->23,"zhangsan"->25,"lisi"->30)).map(x=>{
      val name=x._1
      val age=x._2
      Row(name,age)
    })
    val filed="name,age".split(",").map(x=>{StructField(x,StringType,true)})
    val schema=StructType(filed)
    val schema1:StructType = StructType(List(
      StructField("name",StringType,true),
      StructField("age",IntegerType,true)
    ))
    val df:DataFrame=ss.createDataFrame(rdd,schema1)
    df.createOrReplaceTempView("person")
    ss.sql("select name,age from person").show()
    ss.stop()
  }
}

总结：3种方法虽然表面看起来不太一样，但其根本就是拼凑出一个有标签，有类型的Row,只要满足这2个条件，RDD就可以转换为DataFrame。

Spark-Sql（RDD----DataFrame3种方式)

继续阅读

pyspark调用spark以及执行带in语句参数的hql示例

用写sql的思路写 pyspark

pyspark学习(一)—pyspark的安装与基础语法一 Pysaprk的安装二：pyspark的简单语法END

【Spark Mllib】K-均值聚类——电影类型K-均值聚类数据特征提取

一篇文章让你精通Java JSP规范

世界因大数据而改变

Spark的RDD转换算子-双value型Spark的RDD转换算子-双value型

SparkSQL项目练习1 准备数据2 需求：各区域热门商品Top3

延云行业搜索数据库在大数据生态中位置和重要性大数据的挑战大数据技术的现状延云行业搜索数据库

Spark在windows环境里跑时报错找不到org.apache.hadoop.fs.FSDataInputStream

Spark流式分析系统实现流式实时日志分析系统

Scala和Java二种方式实战Spark Streaming开发

Spark基础:Spark简介及特点,运行模式,安装Spark,Driver与Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark运行模式第3章案例实操

Spark实现wordcount

大数据排错SparkSpark集群启动时候，JAVA_HOME is not sethadoop集群，某台服务器jps无任何输出IDEAkafkahadoopspark sqlfile permissionsIDEA本地测试 - OutOfMemoryError: GC overhead limit exceededhdfs负载均衡

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结