Spark Streaming整合Kafka的兩種方式

Spark Streaming整合Kafka，兩種整合方式：Receiver-based和Direct方式

一:Kafka準備

1、分别啟動zookeeper

./zkServer.sh start

2、分别啟動kafka

3、建立topic

./kafka-topics.sh --create --zookeeper hadoop:2181 --replication-factor 1 --partitions 1 --topic kafka-streaming_topic

4、通過控制台測試topic能否正常的生産和消費

啟動生産者腳本：

./kafka-console-producer.sh --broker-list hadoop:9092 --topic kafka-streaming_topic

啟動消費者腳本：

./kafka-console-consumer.sh --zookeeper hadoop:2181 --topic kafka-streaming_topic --from-beginning

準備工作已經就緒。

二：Receiver-based方式整合

1 添加kafka依賴

<!--  kafka依賴-->
 <dependency>
     <groupId>org.apache.spark</groupId>
     <artifactId>spark-streaming-kafka-0-8_2.11</artifactId>
     <version>2.2.0</version>
 </dependency>

2 本地代碼編寫

package com.kinglone.streaming

import org.apache.spark.SparkConf
import org.apache.spark.streaming.kafka.KafkaUtils
import org.apache.spark.streaming.{Seconds, StreamingContext}

object KafkaReceiverWordCount {
  def main(args: Array[String]): Unit = {

    if(args.length != 4) {
      System.err.println("Usage: KafkaReceiverWordCount <zkQuorum> <group> <topics> <numThreads>")
    }

    val Array(zkQuorum, group, topics, numThreads) = args

    val sparkConf = new SparkConf()//.setAppName("KafkaReceiverWordCount").setMaster("local[2]")

    val ssc = new StreamingContext(sparkConf, Seconds(5))

    val topicMap = topics.split(",").map((_, numThreads.toInt)).toMap

    /**
     * * @param ssc       StreamingContext object
     * * @param zkQuorum  Zookeeper quorum (hostname:port,hostname:port,..)
     * * @param groupId   The group id for this consumer topic所在的組，可以設定為自己想要的名稱
     * * @param topics    Map of (topic_name to numPartitions) to consume. Each partition is consumed
     * *                  in its own thread
     * * @param storageLevel  Storage level to use for storing the received objects
     * *                      (default: StorageLevel.MEMORY_AND_DISK_SER_2)
     */
    val messages = KafkaUtils.createStream(ssc, zkQuorum, group,topicMap)

    messages.map(_._2).flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).print()

    ssc.start()
    ssc.awaitTermination()
  }
}

3 送出到服器上運作

如果生産中沒有聯網，需要使用 --jars 傳入kafka的jar包

把項目打成jar包

mvn clean package -DskipTests

使用local模式送出，送出的腳本：

./spark-submit --class com.kinglone.streaming.KafkaReceiverWordCount 
--master local[2] --name KafkaReceiverWordCount 
--packages org.apache.spark:spark-streaming-kafka-0-8_2.11:2.2.0 
/opt/script/kafkaReceiverWordCount.jar 
hadoop01:2181 test kafka-streaming_topic 1

運作結果

　　首先在控制台，啟動kafka生産者，輸入一些單詞，然後，啟動SparkStreaming程式。

Spark Streaming整合Kafka的兩種方式

三：Direct方式整合(推薦使用)

使用的是：Simple Consumer API,自己管理offset，把kfka看成存儲資料的地方，根據offset去讀。沒有使用zk管理消費者的offset，spark自己管理，預設的offset在記憶體中，如果設定了checkpoint,那麼也也有一份，一般要設定。Direct模式生成的Dstream中的RDD的并行度與讀取的topic中的partition一緻（增加topic的partition個數）

注意點：

沒有使用receive,直接查詢的kafka偏移量

1 添加kafka依賴

<!--  kafka依賴-->
<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-streaming-kafka-0-8_2.11</artifactId>
    <version>2.2.0</version>
</dependency>

2 代碼編寫

package com.kinglone.streaming

import org.apache.spark.SparkConf
import org.apache.spark.streaming.kafka.KafkaUtils
import org.apache.spark.streaming.{Seconds, StreamingContext}
import _root_.kafka.serializer.StringDecoder

object KafkaDirectWordCount {

  def main(args: Array[String]): Unit = {

        if(args.length != 2) {
          System.err.println("Usage: KafkaDirectWordCount <brokers> <topics>")
           System.exit(1)
         }

         val Array(brokers, topics) = args

         val sparkConf = new SparkConf()  //.setAppName("KafkaReceiverWordCount").setMaster("local[2]")

         val ssc = new StreamingContext(sparkConf, Seconds(5))

         val topicsSet = topics.split(",").toSet
         val kafkaParams = Map[String,String]("metadata.broker.list"-> brokers)

         val messages = KafkaUtils.createDirectStream[String,String,StringDecoder,StringDecoder](
         ssc,kafkaParams,topicsSet
         )

         messages.map(_._2).flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).print()

         ssc.start()
         ssc.awaitTermination()
       }
}

3 送出到伺服器上

./spark-submit --class com.kinglone.streaming.KafkaDirectWordCount 
--master local[2] --name KafkaDirectWordCount 
--packages org.apache.spark:spark-streaming-kafka-0-8_2.11:2.2.0 
/opt/script/kafkaDirectWordCount.jar hadoop01:9092  kafka-streaming_topic

Spark Streaming整合Kafka的兩種方式

4 總結

　　注意兩種模式差别，receive模式幾乎被淘汰，可以擴充的地方，1）使程式具備高可用的能力，挂掉之後，能否從上次的狀态恢複過來，2）手動管理offset，改變了業務邏輯也能從上次的狀态恢複過來

Spark Streaming整合Kafka的兩種方式

繼續閱讀

【51CTO學院三周年】自學路上的伴侶

線上教育巨頭多鄰國Duolingo入華一周年，中國市場馬力全開

【分類算法】什麼是分類算法定義分類與聚類分類過程方法

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

Sql優化一：sql語句優化

Nacos 2.0 更新前後性能對比壓測

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

淺談企業活動中進行資料分析的重要性

Ambari介紹和架構原理

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark