Spark API 詳解/大白話解釋之 RDD、partition、count、collect

2022-07-19 19:40:25

RDD定義：

任何資料在Spark中都被轉換為RDD。

一個RDD可以看成是一個數組

不過是分到各個分區，分布在不同的機器上，可并行處理。

分區的定義：

一個RDD有多個RDD分區

一個RDD分區隻在一個機器上

一個機器可有多個RDD分區

http://stackoverflow.com/questions/31359219/relationship-between-rdd-partitions-and-nodes

由資料轉換為RDD：

舉例：從普通數組建立RDD，裡面包含了1到9這9個數字，它們分别在3個分區中。這個RDD一共9個元素，每個元素含有一個數字

val a = sc.parallelize(1 to 9, 3)

舉例：讀取本地檔案README.md來建立RDD，檔案中的每一行就是RDD中的一個元素，分區是2

val b = sc.textFile("README.md",2)

count( )

傳回RDD的元素個數