Spark學習之RDDs（一）

2022-11-04 09:38:40

Spark學習之RDDs介紹

什麼是RDDS？

RDDS即Resilient distributed datasets（彈性分布式資料集）。

Spark中，所有計算都是通過RDDs的建立，轉換，操作完成的。

一個RDD是一個不可改變的分布式集合對象。

Driver Program

包含程式的main方法，RDDs的定義和操作。

它管理很多節點，我們稱之為excetor。

Spark Context

Driver Program是通過SparkContext對象通路spark。

SparkContext對象代表和一個叢集的連接配接。

在Shell中SparkContext自動建立好了，就是sc。

分片

每個分片包含一部分資料，partitions可在叢集的不同節點上計算。

分片是spark并行執行的單元，spark是順序的，并行的處理分片。

RDDs的建立方法

把一個存在的集合傳給Sprakcontext的parallelize（）方法，用于測試

var rdd = sc.parallelize(Array(1,2,2,4),4)

其中，第一個參數表示待并行化處理的集合，第二個參數：分片的個數。

val rddText = sc.textFile('helloSpark.txt')