本节书摘来自华章社区《深入理解spark:核心思想与源码分析》一书中的第2章spark设计理念与基本架构,作者耿嘉安,更多章节内容可以访问云栖社区“华章社区”公众号查看
第2章
spark设计理念与基本架构
若夫乘天地之正,而御六气之辩,以游无穷者,彼且恶乎待哉?
—《庄子·逍遥游》
本章导读
上一章,介绍了spark环境的搭建,为方便读者学习spark做好准备。本章首先从spark产生的背景开始,介绍spark的主要特点、基本概念、版本变迁。然后简要说明spark的主要模块和编程模型。最后从spark的设计理念和基本架构入手,使读者能够对spark有宏观的认识,为之后的内容做一些准备工作。
spark是一个通用的并行计算框架,由加州伯克利大学(ucberkeley)的amp实验室开发于2009年,并于2010年开源,2013年成长为apache旗下大数据领域最活跃的开源项目之一。spark也是基于map reduce 算法模式实现的分布式计算框架,拥有hadoop mapreduce所具有的优点,并且解决了hadoop mapreduce中的诸多缺陷。