[Spark進階]-- spark RDD中foreachPartition和foreach說明

2022-11-03 14:22:35

主題：RDD的foreachPartition/foreach的操作

說明：這兩個action主要用于對每個partition中的iterator時行疊代的處理.通過使用者傳入的function對iterator進行内容的處理.

一、foreach的操作

foreach中,傳入一個function,這個函數的傳入參數就是每個partition中,每次的foreach得到的一個rdd的kv執行個體,也就是具體的内容,

這種處理你并不知道這個iterator的foreach什麼時候結果,隻能是foreach的過程中,你得到一條資料,就處理一條資料.

由下面的紅色部分可以看出,foreach操作是直接調用了partition中資料的foreach操作：

def foreach(f: T => Unit): Unit = withScope {
   val cleanF = sc.clean(f)
   sc.runJob(this, (iter: Iterator[T]) => iter.foreach(cleanF))
 }

示例說明:

val list = new ArrayBuffer()
Rdd.foreach(record => {
  list += record
  If (list.size >= 10000) {
    list.flush
  }
})

上面這段示例代碼中,如果會存在一個問題,疊代的最後,list的結果可能還沒有達到10000條,這個時候,

你在内部的處理的flush部分就不會執行,也就是疊代的最後如果沒有達到10000的資料就會丢失.

是以在foreach中,一般就是拿到一條資料進行下處理Rdd.foreach(record => {record._1 == a return})

二、foreachPartition操作

這個函數也是根據傳入的function進行處理,但不同之處在于,這裡function的傳入參數是一個partition對應資料的iterator.

而不是直接使用iterator的foreach,這種情況下,如果是上面foreach的示例代碼中list這個片段在這個action中就能夠正常的去處理.

def foreachPartition(f: Iterator[T] => Unit): Unit = withScope {
   val cleanF = sc.clean(f)
   sc.runJob(this, (iter: Iterator[T]) => cleanF(iter))
 }

示例代碼:

Val list = new ArrayBuffer
rdd.foreachPartition(it => {
  It.foreach(r => {
List += r
If (list.size > 10000) flush
  })
  If (list.size > 0) flush
})

最後說下這兩個action的差別:

Foreach與ForeachPartition都是在每個partition中對iterator進行操作,

不同的是,foreach是直接在每個partition中直接對iterator執行foreach操作,而傳入的function隻是在foreach内部使用,

而foreachPartition是在每個partition中把iterator給傳入的function,讓function自己對iterator進行處理（可以避免記憶體溢出）.

[Spark進階]-- spark RDD中foreachPartition和foreach說明

主題：RDD的foreachPartition/foreach的操作

一、foreach的操作

二、foreachPartition操作

繼續閱讀

擴容TIKV節點遇到的坑

延雲行業搜尋資料庫在大資料生态中位置和重要性大資料的挑戰大資料技術的現狀延雲行業搜尋資料庫

Spark在windows環境裡跑時報錯找不到org.apache.hadoop.fs.FSDataInputStream

PHP輔導代做程式設計：CS353 Database System

Spark流式分析系統實作流式實時日志分析系統

自學Zabbix3.10.2-事件通知Notifications upon events-Actions報警配置點選傳回：自學zabbix集錦

HDU 5678 ztr loves trees

《2020失業潮，普通人能否出奇制勝？》筆記

Scala和Java二種方式實戰Spark Streaming開發

拓端tecdat|R語言彈性網絡Elastic Net正則化懲罰回歸模型交叉驗證可視化

二叉樹及其應用--二叉樹建立

Spark基礎:Spark簡介及特點,運作模式,安裝Spark,Driver與Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark運作模式第3章案例實操

Spark實作wordcount

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

詳解STM32單片機的堆棧