SparkCore：RDD特性详细解读

文章目录

- 1、RDD源码定义
- 2、RDD五大特性
- - 2.1 each RDD is characterized by five main properties:
  - 2.2 RDD五大特性和RDD源码的对应关系
- 3、RDD图解

1、RDD源码定义

RDD源码地址：

https://github.com/apache/spark/tree/master/core/src/main/scala/org/apache/spark/rdd

打开

RDD.scala

源码文件

斜杠后面的单词就是目录层次，逐级往下就行

A Resilient Distributed Dataset (RDD), the basic abstraction in Spark.

基于Spark，弹性分布式数据集（RDD）

弹性体现在计算上，在Spark分布式计算的时候，可以容错，比如计算过程中某一部分数据丢失，可以通过一些机制修复。
Represents an immutable,partitioned collection of elements that can be operated on in parallel.

代表不可变的，以并行的方式操作分区的元素集合。

that can be operated on in parallel.这里that，指partitioned collection of elements

不可变说明RDD一旦生成，就不可变的。

分区的元素集合，就是把一个大的拆分成很多个小的，可以理解为HDFS的Block/InputSplit

举例：

RDDA:(1,2,3,4,5,6,7,8,9) --> RDDA生成不可变

hadoop001:Partition1:(1,2,3) -->三个分区，每个分区分布在不同节点上

hadoop002:Partition1:(4,5,6)

hadoop003:Partition1:(7,8,9)

如果要睿RDDA做一个 operated +1，应该是对所有Partition上的元素做了 +1的操作，并且是在每个节点

是同时进行的(并行处理)
RDD的定义

abstract class RDD[T: ClassTag](

@transient private var sc: SparkContext,

@transient private var deps: Seq[Dependency[]]

) extends Serializable with Logging {}

抽象类:RDD必然是有子类实现，使用时调用子类即可
Serializable序列化，比如网络的传输
Logging特质
[T: ClassTag]泛型，说明RDD存储的数据类型时不确定的
SparkContext
@transient 指定该属性或字段不是永久的。

2、RDD五大特性

2.1 each RDD is characterized by five main properties:

A list of partitions

分区列表
A function for computing each split(理解成partition)

函数作用在每个分区上
A list of dependencies on other RDDs

RDD之间有依赖关系

RDDA=>RDDB=>RDDC=>RDDD
Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned)

分区器是作用在K,V格式的RDD上，默认是hash-partitioned
Optionally, a list of preferred locations to compute each split on (e.g. block locations for

an HDFS file)

preferred locations 优先位置

每一个分区在计算时会选择最佳的计算位置(体现了数据本地性，要运行的计算或操作，最要是把task放到

对应数据的那台)

2.2 RDD五大特性和RDD源码的对应关系

打开这个文件RDD.scala

对应第二个特性

def compute(split: Partition, context: TaskContext): Iterator[T]

计算：其实是对RDD立面的每个分区做计算

传入的参数：split类型是Partition

context类型是TaskContext

对应第一个特性

protected def getPartitions: Array[Partition]

得到分区，返回的类型Array[Partition]，是一个数组或集合，数组或集合的类型是Partition

对应第三个特点

protected def getDependencies: Seq[Dependency[_]] = deps

得到一个Dependencies

对应第五个特点

protected def getPreferredLocations(split: Partition): Seq[String] = Nil

对应第四个特点

@transient val partitioner: Option[Partitioner] = None

其他RDD源码

打开JdbcRDD.scala

override def getPartitions: Array[Partition] = {}

override def compute(thePart: Partition, context: TaskContext): Iterator[T] = new NextIterator[T]

打开JdbcRDD.scala

override def getPartitions: Array[Partition]

override def compute(theSplit: Partition, context: TaskContext): InterruptibleIterator[(K, V)]

override def getPreferredLocations(split: Partition): Seq[String]

3、RDD图解

SparkCore：RDD特性详细解读

SparkCore：RDD特性详细解读

文章目录

1、RDD源码定义

2、RDD五大特性

2.1 each RDD is characterized by five main properties:

2.2 RDD五大特性和RDD源码的对应关系

3、RDD图解

继续阅读

SparkCore / SparkSQL中窗口函数RANK, DENSE_RANK, ROW_NUMBER的区别

Spark RDD缓存操作的小坑

SparkCore_spark安装启动测试

SparkCore>RDD基础练习[快速演示]集群模式启动

SparkCore之RDD算子transformation1、map vs mapPartition2、filter：过滤3、zip：拉链要求元素分数和分区数相同4、差并交5、distinct：去重 6、排序7、reduceByKey vs groupByKey8、join：连接：内连接、左连接、右连接、全连接9、重分区

第37课：Task执行内幕与结果处理解密

RDD的五大特性RDD(Resilient Distributed Dataset)

有人第一次把SparkCore说的这么明白!!!!

spark核心源码解析

SparkCore 简单总结一下三大数据结构：常用算子

爱不释手的Spark之(一)入门简介 1.什么是Spark2.总体技术栈 3. Spark的演变历史4.Spark和MapReduce的区别 5.Spark运行模式6.SparkCore请听下回分解

Spark之RDD的持久化SparkCore之RDD的持久化

SparkCore>RDD的持久化/缓存

【SparkCore】 RDD介绍

oozie on spark2:运行Oozie中自带的Yarn出现问题

再探spark之二