天天看點

寒假學習進度5

今天開始學習spark中RDD算子

首先是Value類型

(1)map

練習代碼:

(2)mapPartitions

mapPartitions在處理效率上出map要高,但容易出現記憶體溢出。mapPartitions可以增加或減少資料,map不行。總的來說在記憶體有限的情況下,使用map較好。

(3)mapPartitionsWithIndex