天天看點

Spark 操作算子本質、RDD 容錯_1 | 學習筆記

開發者學堂課程【大資料實時計算架構 Spark 快速入門: Spark 操作算子本質、RDD 容錯_1】學習筆記,與課程緊密聯系,讓使用者快速學習知識。

課程位址:

https://developer.aliyun.com/learning/course/100/detail/1662

Spark 操作算子本質、RDD 容錯_1

内容介紹:

一、RDD 是基礎

二、五大特性

三、流程示意

Resilient Distributed dataset

彈性分布式資料集

A list of partitions

A function for computing each split

A list of dependencies on other RDDs

Optionally, a Partitioner for key-value RDDs

Optionally, a list of preferred locations to compute each split on

Spark 進行時:

Spark 操作算子本質、RDD 容錯_1 | 學習筆記

分布式檔案系統( File system )-加載資料集

transformations 延遲執行-針對 RDD 的操作

Action 觸發執行

繼續閱讀