1、背景

A任务在凌晨1点到3点，平均耗时1.5h,且是核心公共任务，急需优化。

整体代码逻辑示意：

// 从tableA读取一次数据，放到临时表t1
DROP TABLE IF EXISTS temp.tmp_xx_$date_1;
CREATE TABLE IF NOT EXISTS temp.tmp_xxx_$date_1
as 
select 
xxx
from  tableA
where xxxx;

// 从临时表t1读取和转换数据，得临时表t2
DROP TABLE IF EXISTS temp.tmp_xx_$date_2;
CREATE TABLE IF NOT EXISTS temp.tmp_xxx_$date_2
as 
select 
xxx
from  temp.tmp_xx_$date_1
where xxxx;

// 从临时表t1读取和转换数据，得临时表t3
DROP TABLE IF EXISTS temp.tmp_xx_$date_3;
CREATE TABLE IF NOT EXISTS temp.tmp_xxx_$date_3
as 
select 
xxx
from  temp.tmp_xx_$date_1
where xxxx;

//合并t2,t3结果写入最终结果表
INSERT OVERWRITE TABLE biads.xxxx
PARTITION (pt_d='$date')
select 
xxx
from  temp.tmp_xx_$date_2
union all 
select 
xxx
from  temp.tmp_xx_$date_3

2、排查思路

2.1 stage耗时分布

问题1：读取tableA耗时20min , 读取时间较长

问题2：写入临时表t1耗时20min，写入临时表时间较长

问题3：创建和写入临时表t2,t3 耗时近20min，临时表冗余，

2.2 executor资源负载

问题4： executor中task分布不均，存在部分exectuor运行了20-30个task，而其余只运行了1个task

3、解决方法

问题1，2，4—参数优化

// 增大读取task数量
spark.hadoop.mapreduce.input.fileinputformat.split.maxsize  67108864
spark.hadoop.mapreduce.input.fileinputformat.split.minsize 1

// 减小合并小文件的大小,注意自研spark的合并小文件大小参数
spark.sql.mergefile.maxSize 134217728

// 增大driver资源，减轻gc
spark.driver.memory 8G
spark.driver.cores 4

// 避免executor中task倾斜
spark.locality.wait.process 200
spark.locality.wait.node 200
spark.locality.wait.rack 200

问题3-- 逻辑优化

// 从tableA读取一次数据，放到临时表t1
DROP TABLE IF EXISTS temp.tmp_xx_$date_1;
CREATE TABLE IF NOT EXISTS temp.tmp_xxx_$date_1
as 
select 
xxx
from  tableA
where xxxx;

//消除中间临时表，直接读取t1, 写入最终结果表
INSERT OVERWRITE TABLE biads.xxxx
PARTITION (pt_d='$date')
select 
xxx
from  temp.tmp_xx_$date_1
where xxxx;
union all 
select 
xxx
from  temp.tmp_xx_$date_1
where xxxx;

4、优化后效果

问题1，2耗时分布降低至10min左右；

问题3耗时直接消除。

问题4 task倾斜缓解。

总体耗时从100min减少为50min

Spark性能调优案例-千亿大表读取，数据倾斜和task倾斜1、背景2、排查思路3、解决方法4、优化后效果

1、背景

2、排查思路

2.1 stage耗时分布

2.2 executor资源负载

3、解决方法

4、优化后效果

继续阅读

pyspark调用spark以及执行带in语句参数的hql示例

用写sql的思路写 pyspark

pyspark学习(一)—pyspark的安装与基础语法一 Pysaprk的安装二：pyspark的简单语法END

【Spark Mllib】K-均值聚类——电影类型K-均值聚类数据特征提取

一篇文章让你精通Java JSP规范

世界因大数据而改变

Spark的RDD转换算子-双value型Spark的RDD转换算子-双value型

SparkSQL项目练习1 准备数据2 需求：各区域热门商品Top3

延云行业搜索数据库在大数据生态中位置和重要性大数据的挑战大数据技术的现状延云行业搜索数据库

Spark在windows环境里跑时报错找不到org.apache.hadoop.fs.FSDataInputStream

Spark流式分析系统实现流式实时日志分析系统

Scala和Java二种方式实战Spark Streaming开发

Spark基础:Spark简介及特点,运行模式,安装Spark,Driver与Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark运行模式第3章案例实操

Spark实现wordcount

大数据排错SparkSpark集群启动时候，JAVA_HOME is not sethadoop集群，某台服务器jps无任何输出IDEAkafkahadoopspark sqlfile permissionsIDEA本地测试 - OutOfMemoryError: GC overhead limit exceededhdfs负载均衡

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结