RDD定義:
任何資料在Spark中都被轉換為RDD。
一個RDD可以看成是一個數組
不過是分到各個分區,分布在不同的機器上,可并行處理。
分區的定義:
一個RDD有多個RDD分區
一個RDD分區隻在一個機器上
一個機器可有多個RDD分區
http://stackoverflow.com/questions/31359219/relationship-between-rdd-partitions-and-nodes
由資料轉換為RDD:
舉例:從普通數組建立RDD,裡面包含了1到9這9個數字,它們分别在3個分區中。這個RDD一共9個元素,每個元素含有一個數字
val a = sc.parallelize(1 to 9, 3)
舉例:讀取本地檔案README.md來建立RDD,檔案中的每一行就是RDD中的一個元素,分區是2
val b = sc.textFile("README.md",2)
count( )
傳回RDD的元素個數