Spark Broadcast内幕解密(簡約版)

2022-07-14 09:47:00

一：Broadcast徹底解析

1，Broadcast就是将資料從一個節點發送到其他的節點上；例如Driver上有一張表，而Executor中的每個并行的Task（100萬個Task）都要查詢這張表，那我們通過Broadcast方式就隻需要往每個Executor把這張表發送一次就行了，Executor中的每個Task查詢這張唯一的表，而不是每次執行的時候都從Driver獲得這張表！

2，這就好像ServletContext的具體作用，隻是Broadcast是分布式的共享資料，預設情況下隻要程式在運作Broadcast變量就會存在，因為Broadcast子底層是通過BroadcastManager管理的！但是你可以手動指定或者配置具體周期來銷毀Broadcast變量！

3，Broadcast一般用于處理共享配置檔案、通用的DataSet、常用的資料結構等等；但是不适合存放太大的資料在Broadcast，Broadcast不會記憶體溢出，因為其資料的儲存的StoreLevel是MEMORY_AND_DISK的方式；雖然如此，我們也不可以放入太大的資料在Broadcast中，因為網絡IO和可能的單點壓力會非常大！

4，Broadcast變量是隻讀變量，最為輕松保持了資料的一緻性！

5，Broadcast的使用：

* {{{
* scala> val broadcastVar = sc.broadcast(Array(1, 2, 3))
* broadcastVar: org.apache.spark.broadcast.Broadcast[Array[Int]] = Broadcast(0)
*
* scala> broadcastVar.value
* res0: Array[Int] = Array(1, 2, 3)
* }}}

6，HttpBroadcast方式的Broadcast，最開始的時候資料放在Driver的本地檔案系統中，Driver在本地會建立一個檔案夾來存放Broadcast中的data，然後啟動HttpServer來通路檔案夾中的資料，同時寫入到BlockManager（StorageLevel是MEMORY_AND_DISK）中獲得BlockId（BroadcastBlockId），當Executor中的Task要通路Broadcast變量的時候，會向Driver通過HttpServer來通路資料，然後會在Executor中的BlockManager中注冊該Broadcast中的資料，這樣後要的Task需要通路Broadcast的變量的時候會首先查詢BlockManager中有沒有該資料，如果有就直接使用；

7，BroadcastManager是用來管理Broadcast，該執行個體對象是在SparkContext建立SparkEnv的時候建立的：

// Called by SparkContext or Executor before using Broadcast
private def initialize() {
  synchronized {
    if (!initialized) {
      val broadcastFactoryClass =
        conf.get("spark.broadcast.factory", "org.apache.spark.broadcast.TorrentBroadcastFactory")

      broadcastFactory =
        Utils.classForName(broadcastFactoryClass).newInstance.asInstanceOf[BroadcastFactory]

      // Initialize appropriate BroadcastFactory and BroadcastObject
      broadcastFactory.initialize(isDriver, conf, securityManager)

      initialized = true
    }
  }
}

在執行個體化BlockcastManager的時候會建立BlockcastFactory工廠來建構具體實際的Brockcast類型，預設情況下是TorrentBroadcastFactory；

Spark Broadcast内幕解密(簡約版)

繼續閱讀

《MySQL技術内幕：InnoDB存儲引擎》筆記

擴容TIKV節點遇到的坑

延雲行業搜尋資料庫在大資料生态中位置和重要性大資料的挑戰大資料技術的現狀延雲行業搜尋資料庫

Spark在windows環境裡跑時報錯找不到org.apache.hadoop.fs.FSDataInputStream

PHP輔導代做程式設計：CS353 Database System

Spark流式分析系統實作流式實時日志分析系統

自學Zabbix3.10.2-事件通知Notifications upon events-Actions報警配置點選傳回：自學zabbix集錦

HDU 5678 ztr loves trees

Scala和Java二種方式實戰Spark Streaming開發

拓端tecdat|R語言彈性網絡Elastic Net正則化懲罰回歸模型交叉驗證可視化

二叉樹及其應用--二叉樹建立

Spark基礎:Spark簡介及特點,運作模式,安裝Spark,Driver與Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark運作模式第3章案例實操

Spark實作wordcount

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

詳解STM32單片機的堆棧