天天看點

Spark API 詳解/大白話解釋 之 RDD、partition、count、collect

RDD定義:

任何資料在Spark中都被轉換為RDD。

一個RDD可以看成是一個數組

不過是分到各個分區,分布在不同的機器上,可并行處理。

分區的定義:

一個RDD有多個RDD分區

一個RDD分區隻在一個機器上

一個機器可有多個RDD分區

​​​http://stackoverflow.com/questions/31359219/relationship-between-rdd-partitions-and-nodes​​

由資料轉換為RDD:

舉例:從普通數組建立RDD,裡面包含了1到9這9個數字,它們分别在3個分區中。這個RDD一共9個元素,每個元素含有一個數字

val a = sc.parallelize(1 to 9, 3)      

舉例:讀取本地檔案README.md來建立RDD,檔案中的每一行就是RDD中的一個元素,分區是2

val b = sc.textFile("README.md",2)      

count( )

傳回RDD的元素個數

繼續閱讀