spark transform系列__mapPartitions

2023-03-19 22:20:16

mapPartitions/mapPartitionsWithIndex

這兩個transform中:mapPartitions與map的差別是map中是對每個partition中的iterator執行map操作,對map過程中的每一條record進行傳入的function的處理,而mapPartitions是把partition中整個iterator傳給function進行處理.如果是map操作,你并不能知道這個iterator什麼時候結束,但mapPartitions時給你的是一個iterator,是以你的函數中知道這個iterator什麼時候會結束.而mapPartitionsWithIndex的函數是在mapPartitions的基礎上,多了一個傳入參數,這個傳入參數就是對應的partition的index.

mapPartitions的函數定義:

def mapPartitions[U: ClassTag](

這個函數的定義部分為一個參數,是對應partition的資料的iterator,

f: Iterator[T] => Iterator[U],

這個參數false表示在生成的MapPartitionsRDD中不包含partitioner算子.

preservesPartitioning: Boolean = false): RDD[U] = withScope {

val cleanedF = sc.clean(f)

直接生成一個MapPartitionsRDD,在生成這個rdd時,通過傳入的function,這個function與map對應的function不同的是,function直接拿到一個iterator進行操作.

new MapPartitionsRDD(

this,

(context: TaskContext, index: Int, iter: Iterator[T]) => cleanedF(iter),

preservesPartitioning)

}

mapPartitionsWithIndex的函數定義:

這個函數的處理方法可以看到與mapPartitions基本上相同,不同的地方是f(function)的定義部分,此部分多出一個int類型的參數,這個參數是對應的iterator所在的partition的index.

def mapPartitionsWithIndex[U: ClassTag](

f: (Int, Iterator[T]) => Iterator[U],

preservesPartitioning: Boolean = false): RDD[U] = withScope {

val cleanedF = sc.clean(f)

new MapPartitionsRDD(

this,

(context: TaskContext, index: Int, iter: Iterator[T]) => cleanedF(index, iter),

preservesPartitioning)

}

spark transform系列__mapPartitions

mapPartitions/mapPartitionsWithIndex

繼續閱讀

閱讀開源引擎源代碼的方式學習遊戲引擎好嗎？

一篇文章讓你精通Java JSP規範

世界因大資料而改變

Spark的RDD轉換算子-雙value型Spark的RDD轉換算子-雙value型

SparkSQL項目練習1 準備資料2 需求：各區域熱門商品Top3

延雲行業搜尋資料庫在大資料生态中位置和重要性大資料的挑戰大資料技術的現狀延雲行業搜尋資料庫

Spark在windows環境裡跑時報錯找不到org.apache.hadoop.fs.FSDataInputStream

Spark流式分析系統實作流式實時日志分析系統

C#入門基礎程式設計（第一章）

Scala和Java二種方式實戰Spark Streaming開發

Spark基礎:Spark簡介及特點,運作模式,安裝Spark,Driver與Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark運作模式第3章案例實操

Spark實作wordcount

ASP.NET大型績效考核評估系統源碼

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

未發先售！華為又上架兩款新機；馬斯克嘲諷iPhone沒新意｜科技早報