SparkStreaming對接kafka代碼測試

receiver方式的代碼測試

package spark.SparkStreaming.test

import kafka.serializer.StringDecoder
import org.apache.kafka.common.serialization.StringDeserializer
import org.apache.spark.storage.StorageLevel
import org.apache.spark.streaming.kafka.KafkaUtils
import org.apache.spark.{HashPartitioner, SparkConf}
import org.apache.spark.streaming.{Seconds, StreamingContext}
import spark.SparkStreaming.kafkaWordCount.updateFunc

/*
使用receiver的方式連接配接kafka，使用zookeeper維護偏移量（可能有點延遲）
 */
object receive2Kafka {
  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setAppName("kafkawc").setMaster("local[2]")
    val ssc = new StreamingContext(conf, Seconds(5))
    ssc.checkpoint("C:\\Users\\luoyunfan\\Desktop\\aaa1")

    val kafkaParams = Map[String, String](
      "zookeeper.connect"->"mini1:2181,mini2:2181,mini3:2181",
      "key.deserializer" -> classOf[StringDeserializer].getName,
      "value.deserializer" -> classOf[StringDeserializer].getName,
      "group.id" -> "g1",
      //"auto.offset.reset" -> "latest",
      "enable.auto.commit" -> "true"
    )
    val topics = Map[String,Int]("spark"->3)
    val zk = "mini1:2181,mini2:2181,mini3:2181"
    val group = "g1"


    val data = KafkaUtils.createStream(ssc,zk,group,topics)
    //另外一種api連結kafka
//    val data1 = KafkaUtils.createStream[String,String,StringDecoder,StringDecoder](
//                ssc,
//                kafkaParams,
//                topics,
//                StorageLevel.MEMORY_ONLY
//        )


    //累計計算words數量
    val words = data.map(_._2).flatMap(_.split(" "))
    val wordCounts = words.map((_, 1)).updateStateByKey(updateFunc,
      new HashPartitioner(ssc.sparkContext.defaultParallelism), true)
    wordCounts.print()

    ssc.start()
    ssc.awaitTermination()
  }
}

directNoOffset（直連方式1，沒有基于上次的偏移量）

package spark.SparkStreaming.test

import kafka.serializer.StringDecoder
import org.apache.spark.SparkContext
import org.apache.spark.sql.SparkSession
import org.apache.spark.streaming.dstream.DStream
import org.apache.spark.streaming.kafka.KafkaUtils
import org.apache.spark.streaming.{Seconds, StreamingContext}
 
object directNoOffset {
  def main(args: Array[String]): Unit = {
    //SparkSession
    val spark: SparkSession = SparkSession.builder()
      .appName(directNoOffset.getClass.getSimpleName)
      .master("local[*]")
      .getOrCreate()

    val sc: SparkContext = spark.sparkContext

    val ssc: StreamingContext = new StreamingContext(sc, Seconds(5))

    ssc.checkpoint("C:\\Users\\luoyunfan\\Desktop\\aaa")

    val kafkaParams = Map[String, String](
      "metadata.broker.list" -> "mini1:9092,mini2:9092,mini3:9092",
      //      "key.deserializer" -> classOf[StringDeserializer].getName,
      //      "value.deserializer" -> classOf[StringDeserializer].getName,
      "group.id" -> "g1",
      "auto.offset.reset" -> "largest" //smallest
      //      "enable.auto.commit" -> "true"
    )

    val ds: DStream[(String, String)] 
    = KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](
      ssc,
      kafkaParams,
      Set("spark")
    )

    ds.map(_._2)
      .flatMap(_.split("\\s+"))
      .filter(_.nonEmpty)
      .map((_, 1))
      .updateStateByKey((nowBatch: Seq[Int], historyResult: Option[Int]) => Some(nowBatch.sum + historyResult.getOrElse(0)))
      .print(100)

    //啟動SparkStreaming應用
    ssc.start

    //等待結束（必須要添加）
    ssc.awaitTermination
  }
}

directZkOffset（使用zk儲存上次消費的偏移量）

此時在streaming消費的偏移量會更新到zk相應的主題中

package spark.SparkStreaming.test

import kafka.serializer.StringDecoder
import org.apache.kafka.common.serialization.StringDeserializer
import org.apache.spark.SparkConf
import org.apache.spark.rdd.RDD
import org.apache.spark.streaming.dstream.DStream
import org.apache.spark.streaming.kafka.{KafkaManager, KafkaUtils}
import org.apache.spark.streaming.{Seconds, StreamingContext}



object directZkOffset {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("kafkawc").setMaster("local[2]")
    val ssc = new StreamingContext(conf, Seconds(5))

    ssc.checkpoint("C:\\Users\\luoyunfan\\Desktop\\aaa")


    val kafkaParams = Map[String, String](
      "metadata.broker.list" -> "mini1:9092,mini2:9092,mini3:9092",

//      "key.deserializer" -> classOf[StringDeserializer].getName,
//      "value.deserializer" -> classOf[StringDeserializer].getName,
      "group.id" -> "g1"
//      "auto.offset.reset" -> "smallest"
//      "enable.auto.commit" -> "true"
    )
    val topics = Set[String]("spark")
    val zk = "mini1:2181,mini2:2181,mini3:2181"
    val group = "g1"

    val km = new KafkaManager(kafkaParams)


    val data = km.createDirectStream[String, String, StringDecoder, StringDecoder](
      ssc, kafkaParams, topics)


    data.foreachRDD(rdd => {
      if (!rdd.isEmpty()) {
        // 先處理消息
        processRdd(rdd)
        // 再更新offsets
        km.updateZKOffsets(rdd)
      }
    })


    ssc.start()
    ssc.awaitTermination()
  }
  def processRdd(rdd: RDD[(String, String)]): Unit = {
    rdd.foreach(println)
//    wordCounts.foreach(println)
  }
}

directCheckpointOffset（基于checkpoint）

package com.ruozedata.bigdata.streaming05

import kafka.serializer.StringDecoder
import org.apache.spark.SparkConf
import org.apache.spark.streaming.kafka.KafkaUtils
import org.apache.spark.streaming.{Duration, Seconds, StreamingContext}

object directCheckpointOffset{

  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local[2]").setAppName("CheckpointOffsetApp")

    //沒有會自動建立
    val checkpointPath = "C:\\Users\\luoyunfan\\Desktop\\aaa"
    val topic="spark"
    val interval =10

    val kafkaParams
    = Map[String, String](
      "metadata.broker.list"->"mini1:9092,mini2:9092,mini3:9092",
      "auto.offset.reset"->"largest")

    val topics = topic.split(",").toSet


    def function2CreateStreamingContext()={
      val ssc = new StreamingContext(conf,Seconds(5))
      //[]裡是[key class], [value class], [key decoder（解碼） class], [value decoder class] ]
      //(streamingContext, [map of Kafka parameters], [set of topics to consume])
      val messages = KafkaUtils.createDirectStream[String,String,StringDecoder,StringDecoder](ssc,kafkaParams, topics)
      ssc.checkpoint(checkpointPath)
      messages.checkpoint(Duration(8*10.toInt*1000))

      messages.map(_._2)
        .flatMap(_.split("\\s+"))
        .filter(_.nonEmpty)
        .map((_, 1))
        .updateStateByKey((nowBatch: Seq[Int], historyResult: Option[Int]) => Some(nowBatch.sum + historyResult.getOrElse(0)))
        .print()
      ssc
    }

    //如果檢查點資料存在就根據檢查點資料重建context，如果不存在就根據第二個參數建構context
    val ssc =StreamingContext.getOrCreate(checkpointPath,function2CreateStreamingContext)
    ssc.start()
    ssc.awaitTermination()


  }

}

SparkStreaming對接kafka代碼測試

繼續閱讀

虛拟機---kafka的安裝

白話描述Kafka

kafka環境部署(二)

Kafka學習篇（二）——Kafka環境搭建安裝JDK安裝KafkaKafka指令Kafka配置

大白話帶你認識Kafka一、Kafka基礎1.Topic 主題二、kafka的叢集架構3.Kafka的網絡設計finally

kafka使用筆記-librdkafka支援sasl認證

librdkafka consumer封裝的一點總結

用c++ 連接配接kafka我所踩過的坑(Connection refused || desired partition does not exist)

Linux 安裝kafka的庫librdkafka

librdkafka安裝步驟

Kafka：Topic概念與API介紹

Doris SQL日志審計部署，以及sql收集輸出kafka，後續血緣分析

Flink Kafka Doris實戰demo

Kafka 和 EMS 消息批量 ack 的實作

Spring Cloud整合Sleuth，當請求完成後，Zipkin沒有鍊路資訊

Spark基礎:Spark簡介及特點,運作模式,安裝Spark,Driver與Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark運作模式第3章案例實操