Spark Streaming 中 updateStateByKey 模式代碼實作示範（三）

2023-05-27 16:27:01

1.問題

在上面的那個案例中存在這樣一個問題：每個批次的單詞次數都被正确的統計出來，但是結果不能累加！

如果需要累加需要使用updateStateByKey(func)來更新狀态.

根據于key的前置狀态和key的新值，對key進行更新，傳回一個新狀态的DStream

2.準備

●首先在linux伺服器上安裝nc工具(nc指令是netcat指令的簡稱，原本是用來設定路由器.,我們可以利用它向某個端口發送資料)

yum install -y nc

●啟動一個服務端并開發9999端口,等一下往這個端口發資料

nc -lk 9999

●發送資料

3.代碼示範

import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.{SparkConf, SparkContext}

/**
  * Author itcast
  * Date 2019/8/8 10:47
  * Desc 示範使用Spark監聽Socket:node-01:9999發送過來的資料,并做WordCount,并做結果的累加
  */
object WordCount2 {
  def main(args: Array[String]): Unit = {
    //1.建立StreamingContext
    //spark.master should be set as local[n], n > 1
    val conf = new SparkConf().setAppName("wc").setMaster("local[*]")
    val sc = new SparkContext(conf)
    sc.setLogLevel("WARN")
    val ssc = new StreamingContext(sc,Seconds(5))//5表示5秒中對資料進行切分形成一個RDD
    //requirement failed: ....Please set it by StreamingContext.checkpoint().
    //注意:我們在下面使用到了updateStateByKey對目前資料和曆史資料進行累加
    //那麼曆史資料存在哪?我們需要給他設定一個checkpoint目錄
    ssc.checkpoint("./wc")//開發中HDFS
    //2.監聽Socket接收資料
    //ReceiverInputDStream就是接收到的所有的資料組成的RDD,封裝成了DStream,接下來對DStream進行操作就是對RDD進行操作
    val dataDStream: ReceiverInputDStream[String] = ssc.socketTextStream("node-01",9999)
    //3.操作資料
    val wordDStream: DStream[String] = dataDStream.flatMap(_.split(" "))
    val wordAndOneDStream: DStream[(String, Int)] = wordDStream.map((_,1))
    //val wordAndCount: DStream[(String, Int)] = wordAndOneDStream.reduceByKey(_+_)
    //====================使用updateStateByKey對目前資料和曆史資料進行累加====================
    val wordAndCount: DStream[(String, Int)] =wordAndOneDStream.updateStateByKey(updateFunc)
    wordAndCount.print()
    ssc.start()//開啟
    ssc.awaitTermination()//等待優雅停止
  }
  //currentValues:目前批次的value值,如:1,1,1 (以測試資料中的hadoop為例)
  //historyValue:之前累計的曆史值,第一次沒有值是0,第二次是3
  //目标是把目前資料+曆史資料傳回作為新的結果(下次的曆史資料)
  def updateFunc(currentValues:Seq[Int], historyValue:Option[Int] ):Option[Int] ={
    val result: Int = currentValues.sum + historyValue.getOrElse(0)
    Some(result)
  }
}

4.執行

1.先執行nc -lk 9999

2.然後執行代碼

3.不斷的在1中輸入不同的單詞

hadoop spark sqoop hadoop spark hive hadoop

4.觀察IDEA控制台輸出

sparkStreaming每隔5s計算一次目前5s内的資料，然後将每個批次的資料輸出

Spark Streaming 中 updateStateByKey 模式代碼實作示範（三）

1.問題

2.準備

3.代碼示範

4.執行

繼續閱讀

pyspark調用spark以及執行帶in語句參數的hql示例

用寫sql的思路寫 pyspark

pyspark學習(一)—pyspark的安裝與基礎文法一 Pysaprk的安裝二：pyspark的簡單文法END

【Spark Mllib】K-均值聚類——電影類型K-均值聚類資料特征提取

一篇文章讓你精通Java JSP規範

世界因大資料而改變

Spark的RDD轉換算子-雙value型Spark的RDD轉換算子-雙value型

SparkSQL項目練習1 準備資料2 需求：各區域熱門商品Top3

延雲行業搜尋資料庫在大資料生态中位置和重要性大資料的挑戰大資料技術的現狀延雲行業搜尋資料庫

Spark在windows環境裡跑時報錯找不到org.apache.hadoop.fs.FSDataInputStream

Spark流式分析系統實作流式實時日志分析系統

Scala和Java二種方式實戰Spark Streaming開發

Spark基礎:Spark簡介及特點,運作模式,安裝Spark,Driver與Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark運作模式第3章案例實操

Spark實作wordcount

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

Spark Streaming 中 updateStateByKey 模式 代碼實作示範（三）

1.問題

2.準備

3.代碼示範

4.執行

繼續閱讀

Spark Streaming 中 updateStateByKey 模式代碼實作示範（三）