Spark-Caching /Checkpointing

cacheing和checkpointing這2種操作是都是用來防止rdd(彈性分布式資料集)每次被引用時被重複計算帶來的時間和空間上不必要的損失。

Caching

cache 機制保證了需要通路重複資料的應用（如疊代型算法和互動式應用）可以運作的更快。有多種級别的持久化政策讓開發者選擇，使開發者能夠對空間和計算成本進行權衡，同時能指定out of memory時對rdd的操作（緩存在記憶體或者磁盤，并且可以指定在記憶體不夠的情況下按照FIFO的政策選取一部分block交換到磁盤來産生空餘空間）。是以Spark不但可以對rdd重複計算還能在節點發生故障時重新計算丢失的分區。最後，被緩存的rdd存在于一個running的應用的生命周期内，如果這個應用終止了，那麼緩存的rdd也會同時被删除。

Checkpointing

checkpointing把rdd存儲到一個可靠的存儲系統（例如HDFS,S3）。checkpoint一個rdd有點類似于Hadoop中把中間計算結果存儲到磁盤，損失部分執行性能來獲得更好的從運作過程中出現failures時recover的能力。因為rdd是checkpoint在外部的存儲系統（磁盤，HDFS,S3等），是以checkpoint過的rdd能夠被其他的應用重用。

由rdd的計算路徑來了解caching和checkpointing的互相作用。 Spark engine的核心是DAGScheduler。它把一個spark job分解成由若幹個stages組成的DAG。每一個shuffle或者result stage再分解成一個個在RDD的分區中獨立運作的task。一個RDD的iterator方法是一個task通路基礎資料分區的入口：

如果設定了存儲級别，表明rdd可能被緩存，它首先嘗試調用getOrCompute方法從block manager中得到分區。

=computeOrReadCheckpoint這個方法會從checkpoint中尋找對應的資料，如果rdd沒有被checkpoint，那麼就從目前計算的分區開始計算。

cache 機制是每計算出一個要 cache 的 partition 就直接将其 cache 到記憶體了。但是checkpoint 沒有使用這種第一次計算得到就存儲的方法，而是等到 job 結束後另外啟動專門的 job 去完成 checkpoint 。也就是說需要 checkpoint 的 RDD 會被計算兩次。

是以，在使用 rdd.checkpoint() 的時候，建議加上 rdd.cache()，這樣第二次運作的 job 就不用再去計算該 rdd 了，直接讀取 cache 寫磁盤。其實 Spark 提供了 rdd.persist(StorageLevel.DISK_ONLY) 這樣的方法，相當于 cache 到磁盤上，這樣可以做到 rdd 第一次被計算得到時就存儲到磁盤上，但這個 persist 和 checkpoint 有很多不同。前者雖然可以将 RDD 的 partition 持久化到磁盤，但該 partition 由 blockManager 管理。

一旦 driver program 執行結束，也就是 executor 所在程序 CoarseGrainedExecutorBackend stop，blockManager 也會 stop，被 cache 到磁盤上的 RDD 也會被清空（整個 blockManager 使用的 local 檔案夾被删除）。

而 checkpoint 将 RDD 持久化到 HDFS 或本地檔案夾，如果不被手動 remove 掉，是一直存在的，也就是說可以被下一個 driver program 使用，而 cached RDD 不能被其他 dirver program 使用。

使用checkpoint*會消耗更多的時間在rdd的讀寫*上（因為要使用外部存儲系統HDFS,S3，或者磁盤），但是Spark worker的一些failures不一定導緻重新計算。

另一方面，caching的rdd 不會永久占用存儲空間，但是重新計算在Spark worker出現一些failures的時候是必要的。

綜上，這2個都是取決于開發者自己的角度結合業務場景來使用，一般情況下，綜合計算任務的性能來進行2者的選擇（大部分情況用cache就夠了，如果感覺 job 可能會出錯可以手動去 checkpoint 一些 critical 的 RDD）。

Spark-Caching /Checkpointing

繼續閱讀

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

C++ 第十五周報告1--《冒泡法排序》

ubuntu14.04下安裝hbse1.0.1.1

筆試面試題目：滑動視窗(二)

User Defined Hadoop DataType

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

Ambari介紹和架構原理

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

hdu7108哈希