天天看点

RDD的宽依赖和窄依赖

1、RDD的宽依赖和窄依赖的区别

是否有shuffle操作,也叫洗牌操作

RDD的宽依赖和窄依赖
RDD的宽依赖和窄依赖

窄依赖:

一对一 或者 多对一

RDD的宽依赖和窄依赖
RDD的宽依赖和窄依赖

宽依赖:

一对多

RDD的宽依赖和窄依赖

窄依赖可以进行流水线优化,宽依赖不可以

优化:fork/join 机制

RDD的宽依赖和窄依赖
RDD的宽依赖和窄依赖
RDD的宽依赖和窄依赖

一个作业可以划分成多个阶段 每个阶段都是一次fork/join,多次fork/join就是宽依赖

一个作业也可以直接一个阶段完成,这就是窄依赖

宽依赖:有shuffle操作的时候 需要落到磁盘,需要等待,没有办法形成管道型的流水化处理。

RDD的宽依赖和窄依赖

RDD的运行过程:

RDD的宽依赖和窄依赖

继续阅读