Spark官方性能調優指南資料序列化

2023-03-09 07:43:21

本文根據官方性能優化指南和自身經驗總結。

官方性能優化指南連結：http://spark.apache.org/docs/1.6.0/tuning.html

tunnig：名詞，調諧；調整；調音。(music) calibrating something (an instrument or electronic circuit) to a standard frequency

鑒于Spark基于記憶體計算這一天性，以下叢集資源可能會造成Spark程式的瓶頸：CPU，帶寬和記憶體。通常情況下，如果記憶體足夠的情況下，瓶頸隻可能出現在網絡帶寬方面；但有時，你也需要做一些例如序列化優化來降低記憶體使用率。這份指導主要集中于兩方面：資料序列化，這是充分提升網絡表現和降低記憶體消耗、記憶體優化的關鍵；我們也會簡要闡述一些小技巧。

資料序列化

序列化在任何分布式應用的運作中扮演了重要的角色。采用那些序列化慢的格式、或者消費巨量位元組時将會嚴重拖慢計算效率。通常情況下，調整資料的序列化方式是你優化Spark程式時首先需要做的事。Spark程式試圖在簡潔（循序你在代碼中使用任何Java的資料類型）和效率之間取得一種平衡。Spark提供了兩種序列化庫。

Java serialization:預設情況下，Spark序列話一個對象時使用Java自帶的 ObjectOutputStream架構，對于任何實作了java.io.Serializable接口的類都有效。有也可以通過繼承java.io.Externalizable來自定義你的序列化過程。Java serialization是靈活的，但通常相當緩慢并且導緻很多類的序列化格式很臃腫。
Kryo serializ

Spark官方性能調優指南資料序列化

資料序列化

繼續閱讀

pyspark調用spark以及執行帶in語句參數的hql示例

用寫sql的思路寫 pyspark

pyspark學習(一)—pyspark的安裝與基礎文法一 Pysaprk的安裝二：pyspark的簡單文法END

【Spark Mllib】K-均值聚類——電影類型K-均值聚類資料特征提取

一篇文章讓你精通Java JSP規範

世界因大資料而改變

Spark的RDD轉換算子-雙value型Spark的RDD轉換算子-雙value型

SparkSQL項目練習1 準備資料2 需求：各區域熱門商品Top3

延雲行業搜尋資料庫在大資料生态中位置和重要性大資料的挑戰大資料技術的現狀延雲行業搜尋資料庫

Spark在windows環境裡跑時報錯找不到org.apache.hadoop.fs.FSDataInputStream

Spark流式分析系統實作流式實時日志分析系統

Scala和Java二種方式實戰Spark Streaming開發

Spark基礎:Spark簡介及特點,運作模式,安裝Spark,Driver與Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark運作模式第3章案例實操

Spark實作wordcount

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結