廣播變量 broadcast variable

1、廣播變量的意義

如果我們要在分布式計算裡面分發大對象，例如：字典，集合，黑白名單等，這個都會由Driver端進行分發，一般來講，如果這個變量不是廣播變量，那麼每個task就會分發一份，這在task數目十分多的情況下Driver的帶寬會成為系統的瓶頸，而且會大量消耗task伺服器上的資源，如果将這個變量聲明為廣播變量，那麼隻是每個executor擁有一份，這個executor啟動的task會共享這個變量，節省了通信的成本和伺服器的資源。

如：一個spark應用有50個executor，1000個tasks，一個10M大小的資料，不使用廣播變量，則需要10M*1000 = 10G的記憶體，而使用廣播變量則隻需要10M * 50 = 500M記憶體

2、代碼樣例

package com.test.bigdata

import org.apache.spark.{SparkConf, SparkContext}

object BroadcastApp {

  def main(args: Array[String]) {
    val sparkConf = new SparkConf()
      .setMaster("local[2]").setAppName("SparkContextApp")

    val sc = new SparkContext(sparkConf)

    //    commonJoin(sc)

    broadcastJoin(sc)
    sc.stop()
  }

  def broadcastJoin(sc: SparkContext): Unit = {
    // 假設 a1是個小表
    val a1 = sc.parallelize(Array(("1", "大米"), ("2", "洋芋"), ("29", "小花"))).collectAsMap()
  	//廣播
    val a1Broadcast = sc.broadcast(a1) 

    sc.longAccumulator("").add(1)

    val f11 = sc.parallelize(Array(("29", "深圳", 18), ("10", "北京", 2)))
      .map(x => (x._1, x))

    f11.mapPartitions(partition => {
   	 // 擷取廣播裡面的内容
      val a1Stus = a1Broadcast.value 
      for ((key, value) <- partition if (a1Stus.contains(key)))
        yield (key, a1Stus.getOrElse(key,""), value._2, value._3)
    })
  }

  def commonJoin(sc: SparkContext): Unit = {

    // a1 join f11 on a1.id = f11.id   ==> 29,"小花","深圳",18
    val a1 = sc.parallelize(Array(("1", "大米"), ("2", "洋芋"), ("29", "小花"))).map(x => (x._1, x))

    val f11 = sc.parallelize(Array(("29", "深圳", 18), ("10", "北京", 2))).map(x => (x._1, x))

    a1.join(f11).map(x => {
      x._1 + " , " + x._2._1._2 + " , " + x._2._2._2 + " , " + x._2._2._3
    }).collect()


  }
}

3、注意事項

廣播變量不能過大
廣播變量是隻讀屬性，不能修改，在Driver端可以修改廣播變量的值，重新進行廣播，在Executor端無法修改廣播變量的值。
必須将RDD進行action操作之後在進行廣播

val a1 = sc.parallelize(Array((“1”, “大米”), (“2”, “洋芋”), (“29”, “小花”))).collectAsMap()

val a1Broadcast = sc.broadcast(a1) //廣播

累加器 accumulator

1、累加器

在spark應用程式中，我們經常會有這樣的需求，如異常監控，調試，記錄符合某特性的資料的數目，這種需求都需要用到計數器，如果一個變量不被聲明為一個累加器，那麼它将在被改變時不會再driver端進行全局彙總，即在分布式運作時每個task運作的隻是原始變量的一個副本，并不能改變原始變量的值，但是當這個變量被聲明為累加器後，該變量就會有分布式計數的功能。

2、累加器的使用

val conf = new SparkConf()
conf.setMaster("local").setAppName("accumulator")
val sc = new SparkContext(conf)
//定義累加器
val accumulator = sc.accumulator(0) 
//分布式累加
sc.textFile("./words.txt").foreach { x =>{accumulator.add(1)}} 
//擷取累加器的結果
println(accumulator.value) 
sc.stop()

Spark - 廣播變量 & 累加器廣播變量 broadcast variable累加器 accumulator

廣播變量 broadcast variable

累加器 accumulator

繼續閱讀

pyspark調用spark以及執行帶in語句參數的hql示例

用寫sql的思路寫 pyspark

pyspark學習(一)—pyspark的安裝與基礎文法一 Pysaprk的安裝二：pyspark的簡單文法END

【Spark Mllib】K-均值聚類——電影類型K-均值聚類資料特征提取

一篇文章讓你精通Java JSP規範

世界因大資料而改變

Spark的RDD轉換算子-雙value型Spark的RDD轉換算子-雙value型

SparkSQL項目練習1 準備資料2 需求：各區域熱門商品Top3

延雲行業搜尋資料庫在大資料生态中位置和重要性大資料的挑戰大資料技術的現狀延雲行業搜尋資料庫

Spark在windows環境裡跑時報錯找不到org.apache.hadoop.fs.FSDataInputStream

Spark流式分析系統實作流式實時日志分析系統

Scala和Java二種方式實戰Spark Streaming開發

Spark基礎:Spark簡介及特點,運作模式,安裝Spark,Driver與Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark運作模式第3章案例實操

Spark實作wordcount

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

Spark - 廣播變量 &amp; 累加器廣播變量 broadcast variable累加器 accumulator

廣播變量 broadcast variable

累加器 accumulator

繼續閱讀

Spark - 廣播變量 & 累加器廣播變量 broadcast variable累加器 accumulator