Spark：持久化存儲等級選取政策 /persist() / cache() /Storage Level

2023-03-20 18:16:16

那麼我們應該如何選取持久化的存儲級别呢?

實際上存儲級别的選取就是Memory與CPU之間的雙重權衡，可以參考下述内容：

(1)如果RDD的資料量對于叢集記憶體容量壓力較小，可以很好地相容預設存儲級别(MEMORY ONLY),那麼優先使用它，這是CPU工作最為高效的種方式，可以很好地提高運作速度。

(2)如果(1)不能滿足，即叢集的記憶體資源相較于cpu資源十分匮乏，則嘗試使用MEMORY_ ONLY_ SER，且選擇一種快速的序列化工具，也可以達到一種不錯的效果。

(3)一般情況下不要把資料持久化到磁盤，除非計算是非常“昂貴”的或者計算過程會過濾掉大量資料，因為重新計算一個分區資料的速度可能要高于從磁盤讀取一個分區資料的速度。

(4)如果需要快速的失敗恢複機制，則使用備份的存儲級别，如MEMORY_ONLY_2.MEMORY_AND_DISK_2；雖然所有的存儲級别都可以通過重新計算丢失的資料實作容錯，但是備份機制使得大部分情況下應用無須中斷，即資料丢失情況下，直接使用備份資料，而不需要重新計算資料的過程；

(5)如果處于大記憶體或多應用的場景下，OFF_ HEAP可以帶來以下的好處：

它允許Spark Executors可以共享Tachyon的記憶體資料；

它在很大程度上減少JVM垃圾回收帶來的性能開銷；

Spark Executors故障不會導緻資料丢失。

如果要緩存的資料太多，記憶體中放不下，Spark 會自動利用最近最少使用(LRU)的緩存政策把最老的分區從記憶體中移除。對于僅把資料存放在記憶體中的緩存級别，下一次要用到已經被移除的分區時，這些分區就需要重新計算。但是對于使用記憶體與磁盤的緩存級别的分區來說，被移除的分區都會寫入磁盤。不論哪種情況，都不必擔心你的作業因為緩存了太多資料而被打斷。不過，緩存不必要的資料會導緻有用的資料被移出記憶體，帶來更多重算的時間開銷。最後，RDD還有一個方法叫作unpersist()，調用該方法可以手動把持久化的RDD從緩存中移除。

Spark：持久化存儲等級選取政策 /persist() / cache() /Storage Level

繼續閱讀

一篇文章讓你精通Java JSP規範

世界因大資料而改變

dsp的gel檔案認識

Spark的RDD轉換算子-雙value型Spark的RDD轉換算子-雙value型

SparkSQL項目練習1 準備資料2 需求：各區域熱門商品Top3

timesten系列五：如何定義cache，和背景oracle資料庫同步資料

西部資料的新品PCIe4.0SSD固态硬碟WDBlueSN580，速度真的不錯！1TB順序讀取速度高達4150MB/s6

HP Proliant 系列伺服器使用 SmartStart CD光牒配置陣列卡過程

延雲行業搜尋資料庫在大資料生态中位置和重要性大資料的挑戰大資料技術的現狀延雲行業搜尋資料庫

Spark在windows環境裡跑時報錯找不到org.apache.hadoop.fs.FSDataInputStream

Spark流式分析系統實作流式實時日志分析系統

Scala和Java二種方式實戰Spark Streaming開發

Spark基礎:Spark簡介及特點,運作模式,安裝Spark,Driver與Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark運作模式第3章案例實操

Spark實作wordcount

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結