《Spark与Hadoop大数据分析》——2.2　Apache Spark概述

Hadoop和MR已有10年历史，已经被证明是高性能处理海量数据的最佳解决方案。然而，MR在迭代计算中性能不足，在这种情况下，多个MR作业之间的输出必须被写入 HDFS。在单个MR作业中，它的性能不足则是因为MR框架存在的一些缺点所致。

让我们来看看计算趋势的发展历史，以便了解计算的格局在过去20年中的变化。

这个趋势是当网络成本更低时（1990年代）对URI索引（Reference），当存储成本更低时（2000 年代）进行复制（Replicate），以及当内存成本更低时（2010 年代）进行再计算（Recompute），如图2-5 所示：

让我们来了解一下，为什么基于内存的计算很重要，以及它如何能产生显著的性能优势。

图2-6显示了从各种介质到CPU的数据传输速率。磁盘到CPU的传输速率为100 MB/s，SSD到CPU为600 MB/s，通过网络到CPU为1 MB到1 GB/s。然而，RAM到CPU的传输速度惊人地快，达到了10 GB/s。所以，理想的思路是把所有或部分数据缓存到内存里，以便实现更高的性能：

Spark 始于 2009 年，起初是作为加州大学伯克利分校 RAD 实验室的一个研究项目，该实验室就是 AMPLab 的前身。该实验室的研究人员以前一直在使用 Hadoop MapReduce，并观察到 MR 对于迭代和交互式计算工作是低效率的。因此，从一开始，Spark 被设计为快速进行交互式查询和迭代的算法，采用了支持内存存储和高效故障恢复等一些思路。

在2011年，AMPLab开始在Spark上开发更高级的组件，如Shark和Spark Streaming。这些组件有时被称为Berkeley数据分析框架（Berkeley Data Analytics Stack，BDAS）。

Spark于2010年3月首次开源，并于2013年6月被转移到Apache软件基金会。

到2014年2月，它成为了Apache软件基金会的一个顶级项目。Spark已经成为大数据领域最大的开源社区之一。现在，有超过50个组织里的超过250位贡献者正在为Spark开发做出贡献。它的用户群增长迅猛，包括了从小型公司到财富500强公司。图2-7显示了 Apache Spark的发展历史：

让我们来了解一下Apache Spark 是什么，以及是什么使之成为大数据分析的利器：

Hadoop 提供了用于存储的 HDFS 和用于计算的 MR。但是，Spark 不提供任何特定的存储介质。Spark 主要是一个计算引擎，但你可以把数据存储在内存里或 Tachyon 上进行处理。

Spark 具有从存储在 HDFS 或 Hadoop API 支持的其他存储系统（包括你的本地文件系统、Amazon S3、Cassandra、Hive、HBase、Elasticsearch 等）中的任何文件创建分布式数据集的能力。

重要的是要注意 Spark 不是 Hadoop，也不需要 Hadoop 来运行它。它只是为那些实现了 Hadoop API 的存储系统提供支持而已。Spark 支持文本文件、序列文件、Avro、Parquet 和其他任何 Hadoop 输入格式。

在性能和把业务问题转换为 MR 问题方面，MR 开发人员都面临着一些挑战。让我们来了解这些与 MR 相关的问题。以及如何在 Apache Spark 中解决这些问题：

MR速度缓慢是因为 MR 作业中的每个作业都把数据存储在磁盘上。对同一数据集的多个查询会分别读取数据，产生大量的磁盘读写，如图2-8 所示：

Spark 将 MR 的概念提升到更高水平，将中间数据存储在内存中，并根据需要多次重复使用。这样就在内存速度下提供了高性能，如图2-8 所示。

总而言之，MR 和 Spark 之间的区别如下：

Spark 的架构组件有 Spark Core、Spark SQL、Dataset和DataFrame、Spark Streaming、Structured Streaming、MLlib、GraphX 以及 SparkR，如图2-9所示：

下面是 Spark 组件与 Hadoop Ecosystem 组件的比较：

为了从更高的层次理解 Spark 框架，让我们来看看 Spark 的这些核心组件以及它们的集成：

Spark 生态系统是一个统一的技术架构，它为你提供了在一个程序中结合 SQL、流和机器学习的强大功能。这种统一性的优点如下：

这种统一性的一个示例如图2-10 所示：

《Spark与Hadoop大数据分析》——2.2　Apache Spark概述

继续阅读

Apache配置文件中的deny和allow的使用

Apache 配置默认编码

服务器配置——Apache

Apache静态文件访问配置（书封服务器）

apache httpd 配置

大数据排错SparkSpark集群启动时候，JAVA_HOME is not sethadoop集群，某台服务器jps无任何输出IDEAkafkahadoopspark sqlfile permissionsIDEA本地测试 - OutOfMemoryError: GC overhead limit exceededhdfs负载均衡

Ubuntu16.04安装Apache+MySQL+PHP1. 安装Apache2. 安装MySQL3. 安装PHP4. 安装phpMyAdmin

浅谈企业活动中进行数据分析的重要性

Apache配置SSLApache配置SSL

Windows下配置Apache的SSL服务

Apache2.4.x 配置文件详解Apache配置需要了解如下：开始讲解：

配置apache支持PHP（win7）

Ambari介绍和架构原理

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

NOSQL安全攻击

win10本地scala和spark安装安装scala安装spark

《Spark与Hadoop大数据分析》——2.2 Apache Spark概述

继续阅读

《Spark与Hadoop大数据分析》——2.2　Apache Spark概述