今天开始学习spark中RDD算子
首先是Value类型
(1)map
练习代码:
(2)mapPartitions
mapPartitions在处理效率上出map要高,但容易出现内存溢出。mapPartitions可以增加或减少数据,map不行。总的来说在内存有限的情况下,使用map较好。
(3)mapPartitionsWithIndex
今天开始学习spark中RDD算子
首先是Value类型
(1)map
练习代码:
(2)mapPartitions
mapPartitions在处理效率上出map要高,但容易出现内存溢出。mapPartitions可以增加或减少数据,map不行。总的来说在内存有限的情况下,使用map较好。
(3)mapPartitionsWithIndex