今天開始學習spark中RDD算子
首先是Value類型
(1)map
練習代碼:
(2)mapPartitions
mapPartitions在處理效率上出map要高,但容易出現記憶體溢出。mapPartitions可以增加或減少資料,map不行。總的來說在記憶體有限的情況下,使用map較好。
(3)mapPartitionsWithIndex
今天開始學習spark中RDD算子
首先是Value類型
(1)map
練習代碼:
(2)mapPartitions
mapPartitions在處理效率上出map要高,但容易出現記憶體溢出。mapPartitions可以增加或減少資料,map不行。總的來說在記憶體有限的情況下,使用map較好。
(3)mapPartitionsWithIndex