天天看點

Spark性能調優之RDD持久化

RDD持久化

在同一個spark作業中,如果有某個RDD被複用,那麼該RDD就需要持久化。

為什麼要持久化RDD呢?

如下圖:如果RDD3到RDD4的計算完成後;下面要開始RDD3到RDD5的運算時,如果之前RDD3沒做持久化,那麼從RDD1到RDD3的運算又會再重複執行,浪費資源,浪費時間。

Spark性能調優之RDD持久化

如果對RDD3做了持久化,那麼RDD3到RDD5時直接運算。

RDD持久化分為:

記憶體持久化

記憶體持久化 + 序列化

記憶體持久化 + 磁盤持久化

記憶體持久化 + 磁盤持久化 + 序列化

繼續閱讀