1)介紹
Apache Spark™ is a unified analytics engine for large-scale data processing.
快速通用的處理大規模資料的引擎。
2)産生背景
-
MapReduce局限性
1)代碼繁瑣
2)隻能夠支援map和reduce方法
3)執行效率低下
4)不适合疊代多次、互動式、流式的處理
-
架構多樣化
1)批處理(離線):MapReduce、Hive、Pig
2)流式處理(實時):Storm,JStorm
3)互動式計算:Impala
3)特點
- 速度快 speed
- 易用 ease of use
- 通用 generality
- 在多平台運作 runs everywhere

4)Spark和Hadoop的協作性
Hadoop優勢
Spark優勢
Hadoop+Spark