Spark Catalyst 緩存機制

2023-07-16 09:21:02

1、背景

Spark SQL 用thriftserver去接，使用的時候，經常會出現找不到hdfs上xxx檔案，需要手動refresh table相關的表的情況。

今天偶然看到Spark Catalyst中的相關代碼，突然眼前一亮，摸索着看下去，終于得到了真香。

2、代碼中的實作步驟

位于org.apache.spark.sql.catalyst.catalog包下的SessionCatalog.scala :

Spark Catalyst 緩存機制

這邊定義的tableRelationCache就是Spark在執行SQL時，緩存的LogicalPlan，其中key為某個HiveTableRelation中讀取出來的databaseName.tableName，value就是LogicalPlan。

而cacheSize配置了該緩存Map的容量，可通過參數spark.sql.filesourceTableRelationCacheSize調節，(預設緩存1000個)。

Spark Catalyst 緩存機制

cacheTable為緩存LogicalPlan的入口：

Spark Catalyst 緩存機制

在org.apache.spark.sql.hive包下的HiveMetastoreCatalog.scala：

Spark Catalyst 緩存機制

convertToLogicalRelation将HiveTableRelation提取出QualifiedTableName并生成LogicalRelation

Spark Catalyst 緩存機制

3、問題的解決

發現Parquet格式的表會在加載時通過Spark自帶的SerDe，通過參數spark.sql.hive.convertMetastoreParquet控制，預設為true，設定為false時，Spark SQL會使用Hive SerDe來處理Parquet表，而不是使用the built in support。

至此，将spark.sql.hive.convertMetastoreParquet=false，問題解決。

而spark.sql.filesourceTableRelationCacheSize則是控制了緩存LogicalPlan的個數，預設為1000。

結尾附帶一篇掃盲：解釋了Why a `LogicalPlan` represents a hive table?

https://jaceklaskowski.gitbooks.io/mastering-spark-sql/spark-sql-LogicalPlan-HiveTableRelation.html

Spark Catalyst 緩存機制

繼續閱讀

一篇文章讓你精通Java JSP規範

世界因大資料而改變

dsp的gel檔案認識

Spark的RDD轉換算子-雙value型Spark的RDD轉換算子-雙value型

SparkSQL項目練習1 準備資料2 需求：各區域熱門商品Top3

timesten系列五：如何定義cache，和背景oracle資料庫同步資料

西部資料的新品PCIe4.0SSD固态硬碟WDBlueSN580，速度真的不錯！1TB順序讀取速度高達4150MB/s6

HP Proliant 系列伺服器使用 SmartStart CD光牒配置陣列卡過程

延雲行業搜尋資料庫在大資料生态中位置和重要性大資料的挑戰大資料技術的現狀延雲行業搜尋資料庫

Spark在windows環境裡跑時報錯找不到org.apache.hadoop.fs.FSDataInputStream

Spark流式分析系統實作流式實時日志分析系統

Scala和Java二種方式實戰Spark Streaming開發

Spark基礎:Spark簡介及特點,運作模式,安裝Spark,Driver與Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark運作模式第3章案例實操

Spark實作wordcount

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結