天天看點

【大資料Spark系列】RDD概述

文章目錄

    • RDD概述
      • 1、RDD 的産生
      • 2、什麼是RDD
      • 3、RDD的屬性
      • 4、Spark做了啥?
      • 5、RDD彈性
      • 6、RDD特點

RDD概述

1、RDD 的産生

  Hadoop的MapReduce是一種基于資料集的工作模式,面向資料,這種工作模式一般是從存儲上加載資料集,然後操作資料集,最後寫入實體儲存設備。資料更多面臨的是一次性處理。

  MR的這種方式對資料領域兩種常見的操作不是很高效。第一種是疊代式的算法。比如機器學習中ALS、凸優化梯度下降等。這些都需要基于資料集或者資料集的衍生資料反複查詢反複操作。MR這種模式不太合适,即使多MR串行處理,性能和時間也是一個問題。資料的共享依賴于磁盤。另外一種是互動式資料挖掘,MR顯然不擅長。

  MR和Spark中的疊代對比:

  MR中的疊代