爱不释手的Spark之(一)入门简介 1.什么是Spark2.总体技术栈 3. Spark的演变历史4.Spark和MapReduce的区别 5.Spark运行模式6.SparkCore请听下回分解

2023-07-05 09:56:43

1.什么是Spark

Apache Spark™ is a fast and general engine for large-scale data processing. Apache Spark is an open source cluster computing system that aims to make data analytics fast both fast to run and fast to wrtie

官方网址：http://spark.apache.org/

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行计算框架，Spark拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark是Scala编写，方便快速编程。

2.总体技术栈

爱不释手的Spark之(一)入门简介 1.什么是Spark2.总体技术栈 3. Spark的演变历史4.Spark和MapReduce的区别 5.Spark运行模式6.SparkCore请听下回分解

3. Spark的演变历史

Spark是美国加州大学伯克利分校的AMP实验室(主要创始人lester和Matei)开发的通用的大数据处理框架

2009伯克利大学开始编写最初的源代码

2010年才开放的源码

2012年2月发布了0.6.0版本

2013年6月进入了Apache孵化器项目

2013年年中Spark的主要成员成立的DataBricks公司

2014年2月成为了Apache的顶级项目（8个月的时间）

2014年5月底Spark1.0.0发布

2014年9月Spark1.1.0发布

2014年12月spark1.2.0发布

2015年3月Spark1.3.0发布

2015年6月Spark1.4.0发布

2015年9月Spark1.5.0发布

2016年1月Spark1.6.0发布

2016年5月Spark2.0.0预览版发布

2016年7月Spark2.0.0正式版发布

2016年12月Spark2.1.0正式版发布

2017年7月Spark2.2发布

4.Spark和MapReduce的区别

爱不释手的Spark之(一)入门简介 1.什么是Spark2.总体技术栈 3. Spark的演变历史4.Spark和MapReduce的区别 5.Spark运行模式6.SparkCore请听下回分解

都是分布式计算框架，Spark基于内存，MR基于HDFS。Spark处理数据的能力一般是MR的十倍以上，Spark中除了基于内存计算外，还有DAG有向无环图来切分任务的执行先后顺序。

5.Spark运行模式

(1)Local

多用于本地测试，如在eclipse，idea中写程序测试等。

(2)Standalone

Standalone是Spark自带的一个资源调度框架，它支持完全分布式。

(3)Yarn

Hadoop生态圈里面的一个资源调度框架，Spark也是可以基于Yarn来计算的。

(4)Mesos

资源调度框架。

要基于Yarn来进行资源调度，必须实现AppalicationMaster接口，Spark实现了这个接口，所以可以基于Yarn。

爱不释手的Spark之(一)入门简介 1.什么是Spark2.总体技术栈 3. Spark的演变历史4.Spark和MapReduce的区别 5.Spark运行模式6.SparkCore请听下回分解

1.什么是Spark

2.总体技术栈

3. Spark的演变历史

4.Spark和MapReduce的区别

5.Spark运行模式

6.SparkCore请听下回分解

继续阅读

用写sql的思路写 pyspark

pyspark学习(一)—pyspark的安装与基础语法一 Pysaprk的安装二：pyspark的简单语法END

PHP的五大运行模式

【Spark Mllib】K-均值聚类——电影类型K-均值聚类数据特征提取

一篇文章让你精通Java JSP规范

世界因大数据而改变

Spark的RDD转换算子-双value型Spark的RDD转换算子-双value型

SparkSQL项目练习1 准备数据2 需求：各区域热门商品Top3

延云行业搜索数据库在大数据生态中位置和重要性大数据的挑战大数据技术的现状延云行业搜索数据库

Spark在windows环境里跑时报错找不到org.apache.hadoop.fs.FSDataInputStream

Spark流式分析系统实现流式实时日志分析系统

Scala和Java二种方式实战Spark Streaming开发

Spark基础:Spark简介及特点,运行模式,安装Spark,Driver与Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark运行模式第3章案例实操

Spark实现wordcount

大数据排错SparkSpark集群启动时候，JAVA_HOME is not sethadoop集群，某台服务器jps无任何输出IDEAkafkahadoopspark sqlfile permissionsIDEA本地测试 - OutOfMemoryError: GC overhead limit exceededhdfs负载均衡

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结