RDD持久化
在同一個spark作業中,如果有某個RDD被複用,那麼該RDD就需要持久化。
為什麼要持久化RDD呢?
如下圖:如果RDD3到RDD4的計算完成後;下面要開始RDD3到RDD5的運算時,如果之前RDD3沒做持久化,那麼從RDD1到RDD3的運算又會再重複執行,浪費資源,浪費時間。
如果對RDD3做了持久化,那麼RDD3到RDD5時直接運算。
RDD持久化分為:
記憶體持久化
記憶體持久化 + 序列化
記憶體持久化 + 磁盤持久化
記憶體持久化 + 磁盤持久化 + 序列化