天天看點

RDD依賴關系

RDD和它依賴的父RDD(s)的關系有兩種不同的類型,即窄依賴(narrow dependency)和寬依賴(wide dependency)。

一般有shuffle過程即寬依賴,無shuffle過程就窄依賴但是窄依賴也有可能産生資料在網絡傳輸。

RDD依賴關系

2.1、窄依賴

窄依賴指的是每一個父RDD的Partition最多被子RDD的一個Partition使用任務可以在本地執行,不需要shuffle。

RDD依賴關系

常見算子:map flatmap filter union sample

2.2、寬依賴

寬依賴指的是多個子RDD的Partition會依賴同一個父RDD的Partition;除非父RDD是hash-partitioned, 需要shuffle。

RDD依賴關系

常見算子:groupByKey reduceByKey sortByKey join cartesian

繼續閱讀