天天看点

【大数据Spark系列】RDD概述

文章目录

    • RDD概述
      • 1、RDD 的产生
      • 2、什么是RDD
      • 3、RDD的属性
      • 4、Spark做了啥?
      • 5、RDD弹性
      • 6、RDD特点

RDD概述

1、RDD 的产生

  Hadoop的MapReduce是一种基于数据集的工作模式,面向数据,这种工作模式一般是从存储上加载数据集,然后操作数据集,最后写入物理存储设备。数据更多面临的是一次性处理。

  MR的这种方式对数据领域两种常见的操作不是很高效。第一种是迭代式的算法。比如机器学习中ALS、凸优化梯度下降等。这些都需要基于数据集或者数据集的衍生数据反复查询反复操作。MR这种模式不太合适,即使多MR串行处理,性能和时间也是一个问题。数据的共享依赖于磁盘。另外一种是交互式数据挖掘,MR显然不擅长。

  MR和Spark中的迭代对比:

  MR中的迭代