pyspark创建数据
在日常工作我们经常需要制造数据,证明写的代码与自己的预期相同,借助excel创建数据就不赘述,纯粹代码构建数据代码如下。
spark_rdd = spark.sparkContext.parallelize([
(123, "Katie", 19, "brown"),
(456, "Michael", 22, "green"),
(789, "Simone", 23, "blue")])
# 设置dataFrame将要使用的数据模型,定义列名,类型和是否为能为空
schema = StructType([StructField("id", LongType(), True),
StructField("name", StringType(), True),
StructField("age", LongType(), True),
StructField("eyeColor", StringType(), True)])
# 创建DataFrame
spark_df_from_rdd = spark.createDataFrame(spark_rdd, schema)
spark_df_from_rdd.show()
结果展示如下