记一次Spark读取多个kudu表的优化经历

2023-08-06 11:00:34

程序原逻辑是从一张kudu表读数据进行后续统计，

需求是修改为从另外两张不同的kudu表读数据，合并两张表的数据进行后续统计。

于是修改的逻辑简化后是如下两个步骤：

1、从两张kudu表读数据，并且分别注册成临时表

import org.apache.kudu.spark.kudu._
val kudu_table1 = spark.read.options(
                  Map("kudu.master" -> kuduMaster,
                      "kudu.table" -> Table1)
                     ).kudu
                .select("col1", "col2", "col3")
                .where(s"col3= substr(${Time},1,8)")
                .distinct()
kudu_table1.createOrReplaceTempView("kudu_table1")

val kudu_table2 = spark.read.options(
                  Map("kudu.master" -> kuduMaster,
                      "kudu.table" -> Table2)
                     ).kudu
                .select("col1", "col2", "col3")
                .where(s"col3= substr(${Time},1,8)")
                .distinct()
kudu_table2.createOrReplaceTempView("kudu_table2")

2、使用sparkSQL，合并两张表进行统计，通过phoenix写入Hbase

val DF1 = spark.sql("""
      |with union_data as (
      |  select col1,
      |         col2,
      |         col3
      |  from kudu_table1
      |  union all
      |  select col1,
      |         col2,
      |         col3
      |  from kudu_table2
      |)
      |select ... 
      |  from ... 
      | where ... 
      | group by ... 
      |	grouping sets(...)
      |	 )""".stripMargin
     ).persist()
PhoenixJdbcUtil.saveToPhoenix(DF1 , phoenixTable, phoenixZk)

测试后发现，运行时间极慢，原本运行一个批次只需要十几秒，现在修改后需要八九分钟。

后优化如下：

1、从两张kudu表读数据，对两个DataFrame先进行DF的union，union后注册成一个临时表

import org.apache.kudu.spark.kudu._
val kudu_table1 = spark.read.options(
                  Map("kudu.master" -> kuduMaster,
                      "kudu.table" -> Table1)
                     ).kudu
                .select("col1", "col2", "col3")
                .where(s"col3= substr(${Time},1,8)")
                .distinct()

val kudu_table2 = spark.read.options(
                  Map("kudu.master" -> kuduMaster,
                      "kudu.table" -> Table2)
                     ).kudu
                .select("col1", "col2", "col3")
                .where(s"col3= substr(${Time},1,8)")
                .distinct()

//主要修改点：对DF进行union，并去重以减少后续sparkSQL计算的数据量，注册成一张临时表
val union = kudu_table1.union(kudu_table2).distinct()
union.createOrReplaceTempView("kudu_table")

2、使用sparkSQL，使用上述的一张临时表kudu_table直接进行统计，通过phoenix写入Hbase

val DF1 = spark.sql("""
      |select ... 
      |  from kudu_table
      | where ... 
      | group by ... 
      |	grouping sets(...)
      |	 )""".stripMargin
     ).persist()
PhoenixJdbcUtil.saveToPhoenix(DF1 , phoenixTable, phoenixZk)

经测试，优化后的程序运行一个批次只需1分钟左右，运行时间减少好几倍。

具体原理不明(有知道原理的小伙伴可以在下面评论一下，嘿嘿)。但应该是SparkSQL由于要解析SQL，效率上不如dataFrame操作效率高。

2019.10.30补充：

运行慢有可能是sql的问题，之前where条件中使用到了从concat(day,min) = '...'，经测试，此做法计算极慢。现在是where day='...' and min='...'，该方式效率提高很多。

记一次Spark读取多个kudu表的优化经历

继续阅读

【51CTO学院三周年】自学路上的伴侣

在线教育巨头多邻国Duolingo入华一周年，中国市场马力全开

【分类算法】什么是分类算法定义分类与聚类分类过程方法

申请评分模型拒绝推断（RI）方法申请评分模型拒绝推断（RI）方法

Sql优化一：sql语句优化

Nacos 2.0 升级前后性能对比压测

尚硅谷—韩顺平—图解 Java设计模式（结构型）（55～）

Storm编译打包过程中遇到的一些问题及解决方法

MapReduce的几个企业级经典面试案例MapReduce的几个企业级经典面试案例

9.spark Core 进阶2--Cashe

大数据排错SparkSpark集群启动时候，JAVA_HOME is not sethadoop集群，某台服务器jps无任何输出IDEAkafkahadoopspark sqlfile permissionsIDEA本地测试 - OutOfMemoryError: GC overhead limit exceededhdfs负载均衡

浅谈企业活动中进行数据分析的重要性

Ambari介绍和架构原理

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

NOSQL安全攻击

win10本地scala和spark安装安装scala安装spark