Spark-SparkSQL深入學習系列五（轉自OopsOutOfMemory）

SQL的Optimizer的優化思想以及Optimizer在Catalyst裡的表現方式，并加上自己的實踐，對Optimizer有一個直覺的認識。

Optimizer的主要職責是将Analyzer給Resolved的Logical Plan根據不同的優化政策Batch，來對文法樹進行優化，優化邏輯計劃節點(Logical Plan)以及表達式(Expression)，也是轉換成實體執行計劃的前置。如下圖：

Spark-SparkSQL深入學習系列五（轉自OopsOutOfMemory）

Optimizer裡的batches包含了3類優化政策：1、Combine Limits 合并Limits 2、ConstantFolding 常量合并 3、Filter Pushdown 過濾器下推,每個Batch裡定義的優化伴随對象都定義在Optimizer裡了：

object Optimizer extends RuleExecutor[LogicalPlan] {

val batches =

Batch("Combine Limits", FixedPoint(100),

CombineLimits) ::

Batch("ConstantFolding", FixedPoint(100),

NullPropagation,

ConstantFolding,

BooleanSimplification,

SimplifyFilters,

SimplifyCasts,

SimplifyCaseConversionExpressions) ::

Batch("Filter Pushdown", FixedPoint(100),

CombineFilters,

PushPredicateThroughProject,

PushPredicateThroughJoin,

ColumnPruning) :: Nil

}

另外提一點，Optimizer裡不但對Logical Plan進行了優化，而且對Logical Plan中的Expression也進行了優化，是以有必要了解一下Expression相關類，主要是用到了references和outputSet，references主要是Logical Plan或Expression節點的所依賴的那些Expressions，而outputSet是Logical Plan所有的Attribute的輸出：

如：Aggregate是一個Logical Plan，它的references就是group by的表達式和 aggreagate的表達式的并集去重。

case class Aggregate(

groupingExpressions: Seq[Expression],

aggregateExpressions: Seq[NamedExpression],

child: LogicalPlan)

extends UnaryNode {

override def output = aggregateExpressions.map(_.toAttribute)

override def references =

(groupingExpressions ++ aggregateExpressions).flatMap(_.references).toSet

Optimizer的優化政策不僅有對plan進行transform的，也有對expression進行transform的，究其原理就是周遊樹，然後應用優化的Rule，但是注意一點，對Logical Plantransfrom的是先序周遊(pre-order)，而對Expression transfrom的時候是後序周遊(post-order)：

如果出現了2個Limit，則将2個Limit合并為一個，這個要求一個Limit是另一個Limit的grandChild。

/**

* Combines two adjacent [[Limit]] operators into one, merging the

* expressions into one single expression.

object CombineLimits extends Rule[LogicalPlan] {

def apply(plan: LogicalPlan): LogicalPlan = plan transform {

case ll @ Limit(le, nl @ Limit(ne, grandChild)) => //ll為目前Limit,le為其expression， nl是ll的grandChild，ne是nl的expression

Limit(If(LessThan(ne, le), ne, le), grandChild) //expression比較，如果ne比le小則表達式為ne，否則為le

}

給定SQL：val query = sql("select * from (select * from temp_shengli limit 100)a limit 10 ")

scala> query.queryExecution.analyzed

res12: org.apache.spark.sql.catalyst.plans.logical.LogicalPlan =

Limit 10

Project [key#13,value#14]

Limit 100

Project [key#13,value#14]

MetastoreRelation default, temp_shengli, None

子查詢裡limit100,外層查詢limit10，這裡我們當然可以在子查詢裡不必查那麼多，因為外層隻需要10個，是以這裡會合并Limit10，和Limit100 為 Limit 10。

這個Batch裡包含了Rules：NullPropagation，ConstantFolding，BooleanSimplification，SimplifyFilters，SimplifyCasts，SimplifyCaseConversionExpressions。

這裡先提一下Literal字面量，它其實是一個能比對任意基本類型的類。(為下文做鋪墊)

object Literal {

def apply(v: Any): Literal = v match {

case i: Int => Literal(i, IntegerType)

case l: Long => Literal(l, LongType)

case d: Double => Literal(d, DoubleType)

case f: Float => Literal(f, FloatType)

case b: Byte => Literal(b, ByteType)

case s: Short => Literal(s, ShortType)

case s: String => Literal(s, StringType)

case b: Boolean => Literal(b, BooleanType)

case d: BigDecimal => Literal(d, DecimalType)

case t: Timestamp => Literal(t, TimestampType)

case a: Array[Byte] => Literal(a, BinaryType)

case null => Literal(null, NullType)

注意Literal是一個LeafExpression，核心方法是eval，給定Row，計算表達式傳回值：

case class Literal(value: Any, dataType: DataType) extends LeafExpression {

override def foldable = true

def nullable = value == null

def references = Set.empty

override def toString = if (value != null) value.toString else "null"

type EvaluatedType = Any

override def eval(input: Row):Any = value

現在來看一下NullPropagation都做了什麼。

NullPropagation是一個能将Expression Expressions替換為等價的Literal值的優化，并且能夠避免NULL值在SQL文法樹的傳播。

/**

* Replaces [[Expression Expressions]] that can be statically evaluated with

* equivalent [[Literal]] values. This rule is more specific with

* Null value propagation from bottom to top of the expression tree.

object NullPropagation extends Rule[LogicalPlan] {

case q: LogicalPlan => q transformExpressionsUp {

case e @ Count(Literal(null, _)) => Cast(Literal(0L), e.dataType) //如果count(null)則轉化為count(0)

case e @ Sum(Literal(c, _)) if c == 0 => Cast(Literal(0L), e.dataType)//如果sum(null)則轉化為sum(0)

case e @ Average(Literal(c, _)) if c == 0 => Literal(0.0, e.dataType)

case e @ IsNull(c) if !c.nullable => Literal(false, BooleanType)

case e @ IsNotNull(c) if !c.nullable => Literal(true, BooleanType)

case e @ GetItem(Literal(null, _), _) => Literal(null, e.dataType)

case e @ GetItem(_, Literal(null, _)) => Literal(null, e.dataType)

case e @ GetField(Literal(null, _), _) => Literal(null, e.dataType)

case e @ Coalesce(children) => {

val newChildren = children.filter(c => c match {

case Literal(null, _) => false

case _ => true

})

if (newChildren.length == 0) {

Literal(null, e.dataType)

} else if (newChildren.length == 1) {

newChildren(0)

} else {

Coalesce(newChildren)

}

case e @ If(Literal(v, _), trueValue, falseValue) => if (v == true) trueValue else falseValue

case e @ In(Literal(v, _), list) if (list.exists(c => c match {

case Literal(candidate, _) if candidate == v => true

case _ => false

})) => Literal(true, BooleanType)

// Put exceptional cases above if any

case e: BinaryArithmetic => e.children match {

case Literal(null, _) :: right :: Nil => Literal(null, e.dataType)

case left :: Literal(null, _) :: Nil => Literal(null, e.dataType)

case _ => e

case e: BinaryComparison => e.children match {

case e: StringRegexExpression => e.children match {

}

給定SQL: val query = sql("select count(null) from temp_shengli where key is not null")

res6: org.apache.spark.sql.catalyst.plans.logical.LogicalPlan =

Aggregate [], [COUNT(null) AS c0#5L] //這裡count的是null

Filter IS NOT NULL key#7

MetastoreRelation default, temp_shengli, None

調用NullPropagation

scala> NullPropagation(query.queryExecution.analyzed)

res7: org.apache.spark.sql.catalyst.plans.logical.LogicalPlan =

Aggregate [], [CAST(0, LongType) AS c0#5L] //優化後為0了

常量合并是屬于Expression優化的一種，對于可以直接計算的常量，不用放到實體執行裡去生成對象來計算了，直接可以在計劃裡就計算出來：

object ConstantFolding extends Rule[LogicalPlan] {

def apply(plan: LogicalPlan): LogicalPlan = plan transform { //先對plan進行transform

case q: LogicalPlan => q transformExpressionsDown { //對每個plan的expression進行transform

// Skip redundant folding of literals.

case l: Literal => l

case e if e.foldable => Literal(e.eval(null), e.dataType) //調用eval方法計算結果

}

給定SQL： val query = sql("select 1+2+3+4 from temp_shengli")

res23: org.apache.spark.sql.catalyst.plans.logical.LogicalPlan =

Project [(((1 + 2) + 3) + 4) AS c0#21] //這裡還是常量表達式

MetastoreRelation default, src, None

優化後：

scala> query.queryExecution.optimizedPlan

res24: org.apache.spark.sql.catalyst.plans.logical.LogicalPlan =

Project [10 AS c0#21] //優化後，直接合并為10

看看布爾表達式2邊能不能通過隻計算1邊，而省去計算另一邊而提高效率，稱為簡化布爾表達式。

解釋請看我寫的注釋：

* Simplifies boolean expressions where the answer can be determined without evaluating both sides.

* Note that this rule can eliminate expressions that might otherwise have been evaluated and thus

* is only safe when evaluations of expressions does not result in side effects.

object BooleanSimplification extends Rule[LogicalPlan] {

case and @ And(left, right) => //如果布爾表達式是AND操作，即exp1 and exp2

(left, right) match { //（左邊表達式，右邊表達式）

case (Literal(true, BooleanType), r) => r // 左邊true，傳回右邊的bool值

case (l, Literal(true, BooleanType)) => l //右邊true，傳回左邊的bool值

case (Literal(false, BooleanType), _) => Literal(false)//左邊都false，右邊随便，反正是傳回false

case (_, Literal(false, BooleanType)) => Literal(false)//隻要有1邊是false了，都是false

case (_, _) => and

case or @ Or(left, right) =>

(left, right) match {

case (Literal(true, BooleanType), _) => Literal(true) //隻要左邊是true了，不用判斷右邊都是true

case (_, Literal(true, BooleanType)) => Literal(true) //隻要有一邊是true，都傳回true

case (Literal(false, BooleanType), r) => r //希望右邊r是true

case (l, Literal(false, BooleanType)) => l

case (_, _) => or

Filter Pushdown下包含了CombineFilters、PushPredicateThroughProject、PushPredicateThroughJoin、ColumnPruning

Ps：感覺Filter Pushdown的名字起的有點不能涵蓋全部比如ColumnPruning列裁剪。

合并兩個相鄰的Filter,這個和上述Combine Limit差不多。合并2個節點，就可以減少樹的深度進而減少重複執行過濾的代價。

* Combines two adjacent [[Filter]] operators into one, merging the

* conditions into one conjunctive predicate.

object CombineFilters extends Rule[LogicalPlan] {

case ff @ Filter(fc, nf @ Filter(nc, grandChild)) => Filter(And(nc, fc), grandChild)

給定SQL：val query = sql("select key from (select key from temp_shengli where key >100)a where key > 80 ")

優化前：我們看到一個filter 是另一個filter的grandChild

res25: org.apache.spark.sql.catalyst.plans.logical.LogicalPlan =

Project [key#27]

Filter (key#27 > 80) //filter>80

Project [key#27]

Filter (key#27 > 100) //filter>100

MetastoreRelation default, src, None

優化後：其實filter也可以表達為一個複雜的boolean表達式

res26: org.apache.spark.sql.catalyst.plans.logical.LogicalPlan =

Filter ((key#27 > 100) && (key#27 > 80)) //合并為1個

MetastoreRelation default, src, None

Filter Pushdown，過濾器下推。

原理就是更早的過濾掉不需要的元素來減少開銷。

給定SQL：val query = sql("select key from (select * from temp_shengli)a where key>100")

生成的邏輯計劃為：

scala> scala> query.queryExecution.analyzed

res29: org.apache.spark.sql.catalyst.plans.logical.LogicalPlan =

Project [key#31]

Filter (key#31 > 100) //先select key, value，然後再Filter

Project [key#31,value#32]

MetastoreRelation default, src, None

優化後的計劃為：

query.queryExecution.optimizedPlan

res30: org.apache.spark.sql.catalyst.plans.logical.LogicalPlan =

Filter (key#31 > 100) //先filter,然後再select

列裁剪用的比較多，就是減少不必要select的某些列。

列裁剪在3種地方可以用：

1、在聚合操作中，可以做列裁剪

2、在join操作中，左右孩子可以做列裁剪

3、合并相鄰的Project的列

object ColumnPruning extends Rule[LogicalPlan] {

// Eliminate attributes that are not needed to calculate the specified aggregates.

case a @ Aggregate(_, _, child) if (child.outputSet -- a.references).nonEmpty => ////如果project的outputSet中減去a.references的元素如果不同，那麼就将Aggreagte的child替換為a.references

a.copy(child = Project(a.references.toSeq, child))

// Eliminate unneeded attributes from either side of a Join.

case Project(projectList, Join(left, right, joinType, condition)) =>// 消除join的left 和 right孩子的不必要屬性，将join的左右子樹的列進行裁剪

// Collect the list of off references required either above or to evaluate the condition.

val allReferences: Set[Attribute] =

projectList.flatMap(_.references).toSet ++ condition.map(_.references).getOrElse(Set.empty)

/** Applies a projection only when the child is producing unnecessary attributes */

def prunedChild(c: LogicalPlan) =

if ((c.outputSet -- allReferences.filter(c.outputSet.contains)).nonEmpty) {

Project(allReferences.filter(c.outputSet.contains).toSeq, c)

Project(projectList, Join(prunedChild(left), prunedChild(right), joinType, condition))

// Combine adjacent Projects.

case Project(projectList1, Project(projectList2, child)) => //合并相鄰Project的列

// Create a map of Aliases to their values from the child projection.

// e.g., 'SELECT ... FROM (SELECT a + b AS c, d ...)' produces Map(c -> Alias(a + b, c)).

val aliasMap = projectList2.collect {

case a @ Alias(e, _) => (a.toAttribute: Expression, a)

}.toMap

// Substitute any attributes that are produced by the child projection, so that we safely

// eliminate it.

// e.g., 'SELECT c + 1 FROM (SELECT a + b AS C ...' produces 'SELECT a + b + 1 ...'

// TODO: Fix TransformBase to avoid the cast below.

val substitutedProjection = projectList1.map(_.transform {

case a if aliasMap.contains(a) => aliasMap(a)

}).asInstanceOf[Seq[NamedExpression]]

Project(substitutedProjection, child)

// Eliminate no-op Projects

case Project(projectList, child) if child.output == projectList => child

分别舉三個例子來對應三種情況進行說明：

1、在聚合操作中，可以做列裁剪

給定SQL：val query = sql("SELECT 1+1 as shengli, key from (select key, value from temp_shengli)a group by key")

優化前：

res57: org.apache.spark.sql.catalyst.plans.logical.LogicalPlan =

Aggregate [key#51], [(1 + 1) AS shengli#49,key#51]

Project [key#51,value#52] //優化前預設select key 和 value兩列

scala> ColumnPruning1(query.queryExecution.analyzed)

MetastoreRelation default, temp_shengli, None

res59: org.apache.spark.sql.catalyst.plans.logical.LogicalPlan =

Project [key#51] //優化後，列裁剪掉了value，隻select key

2、在join操作中，左右孩子可以做列裁剪

給定SQL：val query = sql("select a.value qween from (select * from temp_shengli) a join (select * from temp_shengli)b on a.key =b.key ")

沒有優化之前：

res51: org.apache.spark.sql.catalyst.plans.logical.LogicalPlan =

Project [value#42 AS qween#39]

Join Inner, Some((key#41 = key#43))

Project [key#41,value#42] //這裡多select了一列，即value

MetastoreRelation default, temp_shengli, None

Project [key#43,value#44] //這裡多select了一列，即value

優化後：（ColumnPruning2是我自己調試用的）

scala> ColumnPruning2(query.queryExecution.analyzed)

allReferences is -> Set(key#35, key#37)

res47: org.apache.spark.sql.catalyst.plans.logical.LogicalPlan =

Project [key#35 AS qween#33]

Join Inner, Some((key#35 = key#37))

Project [key#35] //經過列裁剪之後，left Child隻需要select key這一個列

Project [key#37] //經過列裁剪之後，right Child隻需要select key這一個列

3、合并相鄰的Project的列，裁剪

給定SQL：val query = sql("SELECT c + 1 FROM (SELECT 1 + 1 as c from temp_shengli ) a ")

res61: org.apache.spark.sql.catalyst.plans.logical.LogicalPlan =

Project [(c#56 + 1) AS c0#57]

Project [(1 + 1) AS c#56]

res62: org.apache.spark.sql.catalyst.plans.logical.LogicalPlan =

Project [(2 AS c#56 + 1) AS c0#57] //将子查詢裡的c 代入到外層select裡的c，直接計算結果

MetastoreRelation default, temp_shengli, None

本文介紹了Optimizer在Catalyst裡的作用即将Analyzed Logical Plan 經過對Logical Plan和Expression進行Rule的應用transfrom，進而達到樹的節點進行合并和優化。其中主要的優化的政策總結起來是合并、列裁剪、過濾器下推幾大類。

Catalyst應該在不斷疊代中，本文隻是基于spark1.0.0進行研究，後續如果新加入的優化政策也會在後續補充進來。

歡迎大家讨論，共同進步！

——EOF——

原創文章，轉載請注明：

Spark-SparkSQL深入學習系列五（轉自OopsOutOfMemory）

繼續閱讀

Apache2.4.x 配置檔案詳解Apache配置需要了解如下：開始講解：

配置apache支援PHP（win7）

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

Java String.format方法的簡單使用

neo4j之cypher使用文檔

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

mybatis_入門程式Mybatis入門

AOP程式設計_Android優雅權限架構(1)概念基礎，2021金三銀四前言正文大綱正文

sqlServer根據經緯查距離

Effective Java 8:通用程式設計

OOM三種類型

工廠模式-三種類型

【遞歸】高效率求2的n次幂

win10本地scala和spark安裝安裝scala安裝spark

scala (3) Function 和 Method