spark源码action系列-foreach与foreachPartition

2023-03-19 22:20:09

RDD.foreachPartition/foreach的操作

在这个action的操作中:

这两个action主要用于对每个partition中的iterator时行迭代的处理.通过用户传入的function对iterator进行内容的处理.

首先我们先看看foreach的操作:

在fureach中,传入一个function,这个函数的传入参数就是每个partition中,每次的foreach得到的一个rdd的kv实例,也就是具体的内容,这种处理你并不知道这个iterator的foreach什么时候结果,只能是foreach的过程中,你得到一条数据,就处理一条数据.

由下面的红色部分可以看出,foreach操作是直接调用了partition中数据的foreach操作.

def foreach(f: T => Unit): Unit = withScope {

val cleanF = sc.clean(f)

sc.runJob(this, (iter: Iterator[T]) => iter.foreach(cleanF))

}

示例说明:

val list = new ArrayBuffer()

Rdd.foreach(record => {

list += record

If (list.size >= 10000) {

list.flush....

}

})

上面这段示例代码中,如果这么使用就会存在一个问题,

迭代的最后,list的结果可能还没有达到10000条,这个时候,你在内部的处理的flush部分就不会执行,也就是迭代的最后如果没有达到10000的数据就会丢失.

所以在foreach中,一般就是拿到一条数据进行下处理Rdd.foreach(record => {record._1 == a return})

然后接下来看看foreachPartition:

这个函数也是根据传入的function进行处理,但不同处在于,这里function的传入参数是一个partition对应数据的iterator.而不是直接使用iterator的foreach,

这种情况下,如果是上面foreach的示例代码中list这个片段在这个action中就能够正常的去处理.

def foreachPartition(f: Iterator[T] => Unit): Unit = withScope {

val cleanF = sc.clean(f)

sc.runJob(this, (iter: Iterator[T]) => cleanF(iter))

}

示例代码:

Val list = new ArrayBuffer

rdd.foreachPartition(it => {

It.foreach(r => {

List += r

If (list.size > 10000) flush

})

If (list.size > 0) flush

})

最后说下这两个action的区别:

Foreach与foreachPartition都是在每个partition中对iterator进行操作,

不同的是,foreach是直接在每个partition中直接对iterator执行foreach操作,而传入的function只是在foreach内部使用,

而foreachPartition是在每个partition中把iterator给传入的function,让function自己对iterator进行处理.

spark源码action系列-foreach与foreachPartition

RDD.foreachPartition/foreach的操作

继续阅读

spark中的动态executor分配

spark源码学习（一）---sparkContext(1)

spark的task调度器(一)SPARK的调度器

spark中的广播变量broadcastSpark中的Broadcast处理

spark源码action系列-saveAsHadoopDataset

spark transform系列__mapPartitions

spark transform系列__distinct

spark 读写 parquet

spark源码学习（二）---Master源码分析(2)-master内组件状态改变机制

spark源码分析之任务提交（一）Rdd#collect方法分析

spark源码学习（十二）--- checkpoint机制分析

spark源码分析之submit的提交过程（二）

spark源码学习（十一）---cacheManager分析

Spark 源码解析：彻底理解TaskScheduler的任务提交和task最佳位置算法 Spark 源码解析 : DAGScheduler中的DAG划分与提交