文章目录
-
- RDD概述
-
- 1、RDD 的产生
- 2、什么是RDD
- 3、RDD的属性
- 4、Spark做了啥?
- 5、RDD弹性
- 6、RDD特点
RDD概述
1、RDD 的产生
Hadoop的MapReduce是一种基于数据集的工作模式,面向数据,这种工作模式一般是从存储上加载数据集,然后操作数据集,最后写入物理存储设备。数据更多面临的是一次性处理。
MR的这种方式对数据领域两种常见的操作不是很高效。第一种是迭代式的算法。比如机器学习中ALS、凸优化梯度下降等。这些都需要基于数据集或者数据集的衍生数据反复查询反复操作。MR这种模式不太合适,即使多MR串行处理,性能和时间也是一个问题。数据的共享依赖于磁盘。另外一种是交互式数据挖掘,MR显然不擅长。
MR和Spark中的迭代对比:
MR中的迭代