天天看点

[Spark 学习]-- 初级规划

1 Spark 框架介绍

1.1 Spark 介绍【​​点击链接​​】

1.1.1 Spark 是什么?

1.1.2 为什么使用 Spark?

1.1.3 应用场景有哪些?

1.1.4 参考

1.1.5 小结

1.2 Spark core【​​点击链接​​】

1.2.1 spark 技术栈

1.2.2 spark 是怎样工作的

1.2.3 RDD 是什么?有哪些特点?RDD 在哪里?

1.2.4 RDD 有哪些 Operator ?

1.2.5 小结

1.3 Spark 实践【​​点击链接​​】

1.3.1  开发环境搭建

1.3.2  编译 Spark 源码

1.3.3  运行第一个实例

1.3.4  小结

1.4 Spark 运行架构

1.4.1 Spark 运行模式(本地& 集群)

1.4.2 集群管理器(Standalone、Yarn、Mesos和 K8S)

1.4.3 运行架构介绍

1.4.3.1 本地模式(Local)

1.4.3.2 伪分布式(Local-Cluster)

1.4.3.3 Standalone

1.4.3.4 Yarn 运行模式

1.4.3.5 Mesos 运行模式

1.4.3.6 K8s 运行模式

1.4.4 演示

1.4.5 小结

2 Spark SQL

2.1 简介

2.2 Spark SQL 运行原理

2.3 Hive on Spark 

2.4 演示

2.5 小结

3 部署 Spark 应用

3.1 交互式运行Spark 程序

3.2 创建和提交 Spark 应用

3.3  配置 Spark 应用

3.4 监控 Spark 应用

3.5 小结

4 优化 Spark 应用程序

4.1 Spark 执行模型

4.2 调优方法

4.2.1 减少Shuffle

4.2.2 分区和并行性(Task 数)

4.2.3 数据的序列化和压缩

4.2.4 Spark SQL 查询优化

4.2.5 缓存数据

4.2.6 广播变量

4.8 小结

继续阅读