天天看点

pyspark创建数据

pyspark创建数据

在日常工作我们经常需要制造数据,证明写的代码与自己的预期相同,借助excel创建数据就不赘述,纯粹代码构建数据代码如下。

spark_rdd = spark.sparkContext.parallelize([
    (123, "Katie", 19, "brown"),
    (456, "Michael", 22, "green"),
    (789, "Simone", 23, "blue")])

# 设置dataFrame将要使用的数据模型,定义列名,类型和是否为能为空
schema = StructType([StructField("id", LongType(), True),
                     StructField("name", StringType(), True),
                     StructField("age", LongType(), True),
                     StructField("eyeColor", StringType(), True)])
# 创建DataFrame
spark_df_from_rdd = spark.createDataFrame(spark_rdd, schema)
spark_df_from_rdd.show()
           

结果展示如下

pyspark创建数据

继续阅读