Spark Broadcast内幕解密(简约版)

2022-07-14 09:47:00

一：Broadcast彻底解析

1，Broadcast就是将数据从一个节点发送到其他的节点上；例如Driver上有一张表，而Executor中的每个并行的Task（100万个Task）都要查询这张表，那我们通过Broadcast方式就只需要往每个Executor把这张表发送一次就行了，Executor中的每个Task查询这张唯一的表，而不是每次执行的时候都从Driver获得这张表！

2，这就好像ServletContext的具体作用，只是Broadcast是分布式的共享数据，默认情况下只要程序在运行Broadcast变量就会存在，因为Broadcast子底层是通过BroadcastManager管理的！但是你可以手动指定或者配置具体周期来销毁Broadcast变量！

3，Broadcast一般用于处理共享配置文件、通用的DataSet、常用的数据结构等等；但是不适合存放太大的数据在Broadcast，Broadcast不会内存溢出，因为其数据的保存的StoreLevel是MEMORY_AND_DISK的方式；虽然如此，我们也不可以放入太大的数据在Broadcast中，因为网络IO和可能的单点压力会非常大！

4，Broadcast变量是只读变量，最为轻松保持了数据的一致性！

5，Broadcast的使用：

* {{{
* scala> val broadcastVar = sc.broadcast(Array(1, 2, 3))
* broadcastVar: org.apache.spark.broadcast.Broadcast[Array[Int]] = Broadcast(0)
*
* scala> broadcastVar.value
* res0: Array[Int] = Array(1, 2, 3)
* }}}

6，HttpBroadcast方式的Broadcast，最开始的时候数据放在Driver的本地文件系统中，Driver在本地会创建一个文件夹来存放Broadcast中的data，然后启动HttpServer来访问文件夹中的数据，同时写入到BlockManager（StorageLevel是MEMORY_AND_DISK）中获得BlockId（BroadcastBlockId），当Executor中的Task要访问Broadcast变量的时候，会向Driver通过HttpServer来访问数据，然后会在Executor中的BlockManager中注册该Broadcast中的数据，这样后要的Task需要访问Broadcast的变量的时候会首先查询BlockManager中有没有该数据，如果有就直接使用；

7，BroadcastManager是用来管理Broadcast，该实例对象是在SparkContext创建SparkEnv的时候创建的：

// Called by SparkContext or Executor before using Broadcast
private def initialize() {
  synchronized {
    if (!initialized) {
      val broadcastFactoryClass =
        conf.get("spark.broadcast.factory", "org.apache.spark.broadcast.TorrentBroadcastFactory")

      broadcastFactory =
        Utils.classForName(broadcastFactoryClass).newInstance.asInstanceOf[BroadcastFactory]

      // Initialize appropriate BroadcastFactory and BroadcastObject
      broadcastFactory.initialize(isDriver, conf, securityManager)

      initialized = true
    }
  }
}

在实例化BlockcastManager的时候会创建BlockcastFactory工厂来构建具体实际的Brockcast类型，默认情况下是TorrentBroadcastFactory；

Spark Broadcast内幕解密(简约版)

继续阅读

《MySQL技术内幕：InnoDB存储引擎》笔记

扩容TIKV节点遇到的坑

延云行业搜索数据库在大数据生态中位置和重要性大数据的挑战大数据技术的现状延云行业搜索数据库

Spark在windows环境里跑时报错找不到org.apache.hadoop.fs.FSDataInputStream

PHP辅导代做编程：CS353 Database System

Spark流式分析系统实现流式实时日志分析系统

自学Zabbix3.10.2-事件通知Notifications upon events-Actions报警配置点击返回：自学zabbix集锦

HDU 5678 ztr loves trees

Scala和Java二种方式实战Spark Streaming开发

拓端tecdat|R语言弹性网络Elastic Net正则化惩罚回归模型交叉验证可视化

二叉树及其应用--二叉树创建

Spark基础:Spark简介及特点,运行模式,安装Spark,Driver与Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark运行模式第3章案例实操

Spark实现wordcount

大数据排错SparkSpark集群启动时候，JAVA_HOME is not sethadoop集群，某台服务器jps无任何输出IDEAkafkahadoopspark sqlfile permissionsIDEA本地测试 - OutOfMemoryError: GC overhead limit exceededhdfs负载均衡

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

详解STM32单片机的堆栈