Spark Streaming + Kafka整合

2023-03-13 02:09:47

两种常用的Spark Streaming和Kafka整合方法：

1. CreateStream:

传统方法，使用了接收器和Kafka的高阶API

接收器接收到的数据被存在Spark executors中，随后streaming的任务会处理数据。

缺点：会丢失数据，除非设置streaming的write ahead logs

2. CreateDirectStream:

新方法，不使用接收器

优势：优化并行结构，kafka分区和RDD分区一一对应；不需要为了数据恢复而写write ahead logs，数据直接从kafka恢复；不会出现offset数据的不一致，offset全部由streaming维护

CreateStream

1.添加maven依赖：

groupId = org.apache.spark
 artifactId = spark-streaming-kafka_2
 version =

2.代码(API docs)：

import org.apache.spark.streaming.kafka._

 val kafkaStream = KafkaUtils.createStream(streamingContext, 
     [ZK quorum], [consumer group id], [per-topic number of Kafka partitions to consume])

3.注意：

Kafka的topic partitions和Streaming中RDD的partition不是对应的

CreateDirectStream

1.添加maven依赖：

groupId = org.apache.spark
 artifactId = spark-streaming-kafka_2
 version =

2.代码（API doc和example）

import org.apache.spark.streaming.kafka._

 val directKafkaStream = KafkaUtils.createDirectStream[
     [key class], [value class], [key decoder class], [value decoder class] ](
     streamingContext, [map of Kafka parameters], [set of topics to consume])

最后生成的directKafkaStream是一个流stream，可以拆分成一个个RDD进行操作

附：官方文档补充

Spark Streaming + Kafka整合

CreateStream

CreateDirectStream

继续阅读

在线教育巨头多邻国Duolingo入华一周年，中国市场马力全开

【分类算法】什么是分类算法定义分类与聚类分类过程方法

申请评分模型拒绝推断（RI）方法申请评分模型拒绝推断（RI）方法

Sql优化一：sql语句优化

Nacos 2.0 升级前后性能对比压测

尚硅谷—韩顺平—图解 Java设计模式（结构型）（55～）

Storm编译打包过程中遇到的一些问题及解决方法

MapReduce的几个企业级经典面试案例MapReduce的几个企业级经典面试案例

9.spark Core 进阶2--Cashe

大数据排错SparkSpark集群启动时候，JAVA_HOME is not sethadoop集群，某台服务器jps无任何输出IDEAkafkahadoopspark sqlfile permissionsIDEA本地测试 - OutOfMemoryError: GC overhead limit exceededhdfs负载均衡

浅谈企业活动中进行数据分析的重要性

User Defined Hadoop DataType

Ambari介绍和架构原理

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

NOSQL安全攻击

win10本地scala和spark安装安装scala安装spark