pyspark建立資料
在日常工作我們經常需要制造資料,證明寫的代碼與自己的預期相同,借助excel建立資料就不贅述,純粹代碼建構資料代碼如下。
spark_rdd = spark.sparkContext.parallelize([
(123, "Katie", 19, "brown"),
(456, "Michael", 22, "green"),
(789, "Simone", 23, "blue")])
# 設定dataFrame将要使用的資料模型,定義列名,類型和是否為能為空
schema = StructType([StructField("id", LongType(), True),
StructField("name", StringType(), True),
StructField("age", LongType(), True),
StructField("eyeColor", StringType(), True)])
# 建立DataFrame
spark_df_from_rdd = spark.createDataFrame(spark_rdd, schema)
spark_df_from_rdd.show()
結果展示如下
![](https://img.laitimes.com/img/__Qf2AjLwojIjJCLyojI0JCLiAzNfRHLGZkRGZkRfJ3bs92YsYTMfVmepNHL5dGVNd3aq1UNNpHW4Z0MMBjVtJWd0ckW65UbM5WOHJWa5kHT20ESjBjUIF2X0hXZ0xCMx81dvRWYoNHLrdEZwZ1Rh5WNXp1bwNjW1ZUba9VZwlHdssmch1mclRXY39CXldWYtlWPzNXZj9mcw1ycz9WL49zZuBnL3gTN4UTO0QTM1AjMwEjMwIzLc52YucWbp5GZzNmLn9Gbi1yZtl2Lc9CX6MHc0RHaiojIsJye.png)