1)介绍
Apache Spark™ is a unified analytics engine for large-scale data processing.
快速通用的处理大规模数据的引擎。
2)产生背景
-
MapReduce局限性
1)代码繁琐
2)只能够支持map和reduce方法
3)执行效率低下
4)不适合迭代多次、交互式、流式的处理
-
框架多样化
1)批处理(离线):MapReduce、Hive、Pig
2)流式处理(实时):Storm,JStorm
3)交互式计算:Impala
3)特点
- 速度快 speed
- 易用 ease of use
- 通用 generality
- 在多平台运行 runs everywhere

4)Spark和Hadoop的协作性
Hadoop优势
Spark优势
Hadoop+Spark