spark的DataFrame的schema模式：读时模式，指定模式

2023-05-14 13:33:18

读时模式

val path="/Volumes/Data/BigData_code/data/"

//读取json⽣成dataframe

val df = spark.read.format("json").load(path + "flight-data/json/2015-summary.json")
df.printSchema()

读时模式是通过前几行的数据，来对各个列进行推断各个列的数据类型。优点是方便。但是，读时模式会造成精度损失。因为在前几行推断出是int类型，但是，实际是long类型

指定模式

方法1：使用StructType实现指定

val path="/Volumes/Data/BigData_code/data/"
//⾃定义schema模式    
val mySchema = StructType(Array(
      StructField("DEST_COUNTRY_NAME", StringType, true),                      
      StructField("ORIGIN_COUNTRY_NAME", StringType, true),
      StructField("count", LongType, false, Metadata.fromJson("{\"home\":\"world\"}"))    ))    
//⽣成DataFrame    
val df = spark.read.format("json").schema(mySchema) //使⽤⾃定义的schema模式
   .load(path + "flight-data/json/2015-summary.json")    
df.printSchema()

方法2:使用case class实现指定

val path="/Volumes/Data/BigData_code/data/"
//自定义schema模式
case class myClass (
    DEST_COUNTRY_NAME:String,ORIGIN_COUNTRY_NAME:String,count:Long
)
val mySchema = Encoders.product[myClass].schema
//生成DataFrame
val df = spark.read.format("json").schema(mySchema)/使用自定义的schema模式
              .load(path + "flight-data/json/2015-summary.json")
df.printSchema()

假如，不需要指定列名可以使用以下方法:

val path="/Volumes/Data/BigData_code/data/"
//自定义schema模式
val mySchema = Encoders.product[(String,String, Long)].schema
//生成DataFrame
val df = spark.read.format("json").schema(mySchema)//使用自定义的schema模式
              .load(path + "flight-data/json/2015-summary.json")
df.printSchema()

注意:这里有给默认的列名: _1，_2，_3。自己可以使用printSchema输出一下。

spark的DataFrame的schema模式：读时模式，指定模式

读时模式

指定模式

继续阅读

jdk1.7+Eclipse+Maven3.5+Hadoop2.7.3构建hadoop项目

HDFS命令行工具

【51CTO学院三周年】自学路上的伴侣

在线教育巨头多邻国Duolingo入华一周年，中国市场马力全开

【分类算法】什么是分类算法定义分类与聚类分类过程方法

申请评分模型拒绝推断（RI）方法申请评分模型拒绝推断（RI）方法

Sql优化一：sql语句优化

Nacos 2.0 升级前后性能对比压测

尚硅谷—韩顺平—图解 Java设计模式（结构型）（55～）

Storm编译打包过程中遇到的一些问题及解决方法

MapReduce的几个企业级经典面试案例MapReduce的几个企业级经典面试案例

9.spark Core 进阶2--Cashe

浅谈企业活动中进行数据分析的重要性

Ambari介绍和架构原理

NOSQL安全攻击

win10本地scala和spark安装安装scala安装spark