文章目錄
-
- RDD概述
-
- 1、RDD 的産生
- 2、什麼是RDD
- 3、RDD的屬性
- 4、Spark做了啥?
- 5、RDD彈性
- 6、RDD特點
RDD概述
1、RDD 的産生
Hadoop的MapReduce是一種基于資料集的工作模式,面向資料,這種工作模式一般是從存儲上加載資料集,然後操作資料集,最後寫入實體儲存設備。資料更多面臨的是一次性處理。
MR的這種方式對資料領域兩種常見的操作不是很高效。第一種是疊代式的算法。比如機器學習中ALS、凸優化梯度下降等。這些都需要基于資料集或者資料集的衍生資料反複查詢反複操作。MR這種模式不太合适,即使多MR串行處理,性能和時間也是一個問題。資料的共享依賴于磁盤。另外一種是互動式資料挖掘,MR顯然不擅長。
MR和Spark中的疊代對比:
MR中的疊代