帶狀态的算子

updateStateByKey算子的使用

import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Seconds, StreamingContext}

/**
 * Created by llp on 2021/4/27.
 */


object StatefulWordCount2 {

  def main(args: Array[String]): Unit = {
    
    // 1.建立StreamingContext
    val sparkConf = new SparkConf().setMaster("local[2]").setAppName("WordCount")
    val ssc = new StreamingContext(sparkConf,Seconds(5))
    
    // 2.建立checkpoint
    // 如果要使用updateStateByKey算子，就必須設定一個checkpoint目錄，開啟checkpoint機制
    // 這樣的話才能把每個key對應的state除了在記憶體中有，那麼是不是也要checkpoint一份
    // 因為你要長期儲存一份key的state的話，那麼spark streaming是要求必須用checkpoint的，以便于在
    // 記憶體資料丢失的時候，可以從checkpoint中恢複資料
    // 開啟checkpoint機制，很簡單，隻要調用jssc的checkpoint()方法，設定一個hdfs目錄即可
    // https://blog.csdn.net/erfucun/article/details/52278729
    ssc.checkpoint("/opt/data")

    // 實作WordCount邏輯
    val lines = ssc.socketTextStream("hadoop2", 9999)
    //val lines = ssc.textFileStream("/opt/data")
    
    val result = lines.flatMap(_.split(" ")).map((_,1)).updateStateByKey((values:Seq[Int],state:Option[Int])=>{
      //更新函數兩個參數Seq[V], Option[S]，前者是每個key新增的值的集合，後者是目前儲存的狀态，
      //建立一個變量，用于記錄單詞出現次數
      var newValue=state.getOrElse(0) //getOrElse相當于if....else.....
      for(value <- values){
        newValue +=value //将單詞出現次數累計相加
      }
      Option(newValue)
    })
    result.print()

    ssc.start()
    ssc.awaitTermination()
  }

}

Spark Streaming實時流處理項目實戰(九)Spark Streaming進階帶狀态的算子

Spark Streaming進階

帶狀态的算子

繼續閱讀

【51CTO學院三周年】自學路上的伴侶

線上教育巨頭多鄰國Duolingo入華一周年，中國市場馬力全開

【分類算法】什麼是分類算法定義分類與聚類分類過程方法

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

Sql優化一：sql語句優化

Nacos 2.0 更新前後性能對比壓測

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

淺談企業活動中進行資料分析的重要性

Ambari介紹和架構原理

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark