《Spark大数据分析：核心概念、技术及实践》一3.8　Spark作业

2021-11-08 05:36:06

本节书摘来自华章出版社《spark大数据分析：核心概念、技术及实践》一书中的第3章，第3.8节，作者[美]　穆罕默德·古勒（mohammed guller），更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.8　spark作业

rdd上的转换、操作和缓存方法构成了spark应用的基础。从本质上说，rdd描述了spark编程模型。既然我们介绍过了编程模型，那么接下来我们介绍在spark应用中这些是怎么结合在一起的。

作业指的是spark将要执行的一些计算，它们将操作的结果返回给驱动程序。一个应用可以发起一个或多个作业。通过调用rdd的操作方法可以发起一个作业。也就是说，一个操作方法会触发一个作业。如果一个操作是从未缓存的rdd或未缓存rdd的后代rdd发起的，spark将会从存储系统中读取数据，从此开始作业。如果一个操作是从缓存过的rdd或者缓存过的rdd的后代rdd发起的，那么spark就会从那个缓存过的rdd开始作业。接下来，spark会按照操作方法的要求执行必要的转换操作来创建rdd。最后，执行操作所需的计算，一旦结果出来后，便将它返回给驱动程序。

当一个应用调用rdd的操作方法时，spark会创建由若干个阶段构成的dag。spark根据shuffle边界来将不同任务划分成不同的阶段。不需要shuffle操作的任务被划分到同一个阶段。那些输入数据是已经做过shuffle操作的任务将开始一个新的阶段。

一个阶段可以由一个或者多个任务构成。spark把任务提交给执行者，执行者将并行执行任务。在节点间调度任务的依据是数据分布情况。如果一个节点在处理任务时失效了，spark会把这个任务提交给其他节点。

《Spark大数据分析：核心概念、技术及实践》一3.8　Spark作业

继续阅读

redis的选择和定位redis的选择和定位

Redis单线程模型和IO多路复用

一篇文章让你精通Java JSP规范

世界因大数据而改变

Spark的RDD转换算子-双value型Spark的RDD转换算子-双value型

vue-loader-v16/package.json报错

ZooKeeper ： Curator框架之数据缓存与监听CuratorCache

SparkSQL项目练习1 准备数据2 需求：各区域热门商品Top3

延云行业搜索数据库在大数据生态中位置和重要性大数据的挑战大数据技术的现状延云行业搜索数据库

Spark在windows环境里跑时报错找不到org.apache.hadoop.fs.FSDataInputStream

Spark流式分析系统实现流式实时日志分析系统

Scala和Java二种方式实战Spark Streaming开发

Spark基础:Spark简介及特点,运行模式,安装Spark,Driver与Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark运行模式第3章案例实操

Spark实现wordcount

大数据排错SparkSpark集群启动时候，JAVA_HOME is not sethadoop集群，某台服务器jps无任何输出IDEAkafkahadoopspark sqlfile permissionsIDEA本地测试 - OutOfMemoryError: GC overhead limit exceededhdfs负载均衡

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

《Spark大数据分析：核心概念、技术及实践》一3.8 Spark作业

继续阅读

《Spark大数据分析：核心概念、技术及实践》一3.8　Spark作业