天天看点

寒假学习进度5

今天开始学习spark中RDD算子

首先是Value类型

(1)map

练习代码:

(2)mapPartitions

mapPartitions在处理效率上出map要高,但容易出现内存溢出。mapPartitions可以增加或减少数据,map不行。总的来说在内存有限的情况下,使用map较好。

(3)mapPartitionsWithIndex