天天看點

pyspark建立資料

pyspark建立資料

在日常工作我們經常需要制造資料,證明寫的代碼與自己的預期相同,借助excel建立資料就不贅述,純粹代碼建構資料代碼如下。

spark_rdd = spark.sparkContext.parallelize([
    (123, "Katie", 19, "brown"),
    (456, "Michael", 22, "green"),
    (789, "Simone", 23, "blue")])

# 設定dataFrame将要使用的資料模型,定義列名,類型和是否為能為空
schema = StructType([StructField("id", LongType(), True),
                     StructField("name", StringType(), True),
                     StructField("age", LongType(), True),
                     StructField("eyeColor", StringType(), True)])
# 建立DataFrame
spark_df_from_rdd = spark.createDataFrame(spark_rdd, schema)
spark_df_from_rdd.show()
           

結果展示如下

pyspark建立資料

繼續閱讀