SparkCore：RDD特性詳細解讀

文章目錄

- 1、RDD源碼定義
- 2、RDD五大特性
- - 2.1 each RDD is characterized by five main properties:
  - 2.2 RDD五大特性和RDD源碼的對應關系
- 3、RDD圖解

1、RDD源碼定義

RDD源碼位址：

https://github.com/apache/spark/tree/master/core/src/main/scala/org/apache/spark/rdd

打開

RDD.scala

源碼檔案

斜杠後面的單詞就是目錄層次，逐級往下就行

A Resilient Distributed Dataset (RDD), the basic abstraction in Spark.

基于Spark，彈性分布式資料集（RDD）

彈性展現在計算上，在Spark分布式計算的時候，可以容錯，比如計算過程中某一部分資料丢失，可以通過一些機制修複。
Represents an immutable,partitioned collection of elements that can be operated on in parallel.

代表不可變的，以并行的方式操作分區的元素集合。

that can be operated on in parallel.這裡that，指partitioned collection of elements

不可變說明RDD一旦生成，就不可變的。

分區的元素集合，就是把一個大的拆分成很多個小的，可以了解為HDFS的Block/InputSplit

舉例：

RDDA:(1,2,3,4,5,6,7,8,9) --> RDDA生成不可變

hadoop001:Partition1:(1,2,3) -->三個分區，每個分區分布在不同節點上

hadoop002:Partition1:(4,5,6)

hadoop003:Partition1:(7,8,9)

如果要睿RDDA做一個 operated +1，應該是對所有Partition上的元素做了 +1的操作，并且是在每個節點

是同時進行的(并行處理)
RDD的定義

abstract class RDD[T: ClassTag](

@transient private var sc: SparkContext,

@transient private var deps: Seq[Dependency[]]

) extends Serializable with Logging {}

抽象類:RDD必然是有子類實作，使用時調用子類即可
Serializable序列化，比如網絡的傳輸
Logging特質
[T: ClassTag]泛型，說明RDD存儲的資料類型時不确定的
SparkContext
@transient 指定該屬性或字段不是永久的。

2、RDD五大特性

2.1 each RDD is characterized by five main properties:

A list of partitions

分區清單
A function for computing each split(了解成partition)

函數作用在每個分區上
A list of dependencies on other RDDs

RDD之間有依賴關系

RDDA=>RDDB=>RDDC=>RDDD
Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned)

分區器是作用在K,V格式的RDD上，預設是hash-partitioned
Optionally, a list of preferred locations to compute each split on (e.g. block locations for

an HDFS file)

preferred locations 優先位置

每一個分區在計算時會選擇最佳的計算位置(展現了資料本地性，要運作的計算或操作，最要是把task放到

對應資料的那台)

2.2 RDD五大特性和RDD源碼的對應關系

打開這個檔案RDD.scala

對應第二個特性

def compute(split: Partition, context: TaskContext): Iterator[T]

計算：其實是對RDD立面的每個分區做計算

傳入的參數：split類型是Partition

context類型是TaskContext

對應第一個特性

protected def getPartitions: Array[Partition]

得到分區，傳回的類型Array[Partition]，是一個數組或集合，數組或集合的類型是Partition

對應第三個特點

protected def getDependencies: Seq[Dependency[_]] = deps

得到一個Dependencies

對應第五個特點

protected def getPreferredLocations(split: Partition): Seq[String] = Nil

對應第四個特點

@transient val partitioner: Option[Partitioner] = None

其他RDD源碼

打開JdbcRDD.scala

override def getPartitions: Array[Partition] = {}

override def compute(thePart: Partition, context: TaskContext): Iterator[T] = new NextIterator[T]

打開JdbcRDD.scala

override def getPartitions: Array[Partition]

override def compute(theSplit: Partition, context: TaskContext): InterruptibleIterator[(K, V)]

override def getPreferredLocations(split: Partition): Seq[String]

3、RDD圖解

SparkCore：RDD特性詳細解讀

SparkCore：RDD特性詳細解讀

文章目錄

1、RDD源碼定義

2、RDD五大特性

2.1 each RDD is characterized by five main properties:

2.2 RDD五大特性和RDD源碼的對應關系

3、RDD圖解

繼續閱讀

SparkCore / SparkSQL中視窗函數RANK, DENSE_RANK, ROW_NUMBER的差別

Spark RDD緩存操作的小坑

SparkCore_spark安裝啟動測試

SparkCore>RDD基礎練習[快速示範]叢集模式啟動

第37課：Task執行内幕與結果處了解密

RDD的五大特性RDD(Resilient Distributed Dataset)

有人第一次把SparkCore說的這麼明白!!!!

spark核心源碼解析

SparkCore 簡單總結一下三大資料結構：常用算子

愛不釋手的Spark之(一)入門簡介 1.什麼是Spark2.總體技術棧 3. Spark的演變曆史4.Spark和MapReduce的差別 5.Spark運作模式6.SparkCore請聽下回分解

Spark之RDD的持久化SparkCore之RDD的持久化

SparkCore>RDD的持久化/緩存

【SparkCore】 RDD介紹

oozie on spark2:運作Oozie中自帶的Yarn出現問題

再探spark之二