Kafka SparkStreaming 保证数据不丢失问题 >0.10版本

2020-05-11 23:50:00

sparkstreaming 处理kafka数据，几种数据丢失的情况，

1、雪崩效应导致的异常 kill掉进程，导致数据丢失

2、程序bug 导致进程挂了，导致数据丢失

以上是使用自动提交offset会存在的问题，若要保证数据0丢失，需要使用offset commit api

手动提交offset，自己保存offset，自己提交处理完的offset。

http://spark.apache.org/docs/latest/streaming-kafka-0-10-integration.html 官方提供几种保存offset的方式

checkpoint的方式

问题：数据和offset并不同步无法保证事物的概念，生成小文件太多，存在hdfs，会造成namenode和datanode的压力
your own data store ：zk、 hbase、。。。

缺点就是需要维护业务，比较麻烦

官网代码

// begin from the the offsets committed to the database

val fromOffsets = selectOffsetsFromYourDatabase.map { resultSet =>

new TopicPartition(resultSet.string("topic"), resultSet.int("partition")) -> resultSet.long("offset")

}.toMap

val stream = KafkaUtils.createDirectStream[String, String](

streamingContext,

PreferConsistent,

Assign

String, String

)

stream.foreachRDD { rdd =>

val offsetRanges = rdd.asInstanceOf[HasOffsetRanges].offsetRanges

val results = yourCalculation(rdd)

// begin your transaction

// update results

// update offsets where the end of existing offsets matches the beginning of this batch of offsets

// assert that offsets were updated correctly

// end your transaction

}

3.Kafka itself kafka本身提供的api自我维护

设置enable.auto.commit to false

//坑，foreachRDD 之前不能使用map orderby等生成新的rdd，这样offset信息会丢失

// 业务处理，异步提交

stream.asInstanceOf[CanCommitOffsets].commitAsync(offsetRanges)

这里的问题就是如果在业务处理完还没异步提交offset，其实再次启动消费会重复处理没提交offset的数据。

如何在保证数据不丢失的同时，对重复数据做处理呢？

----若泽数据

Kafka SparkStreaming 保证数据不丢失问题 >0.10版本

继续阅读

kafka使用笔记-librdkafka支持sasl认证

librdkafka consumer封装的一点总结

用c++ 连接kafka我所踩过的坑(Connection refused || desired partition does not exist)

Linux 安装kafka的库librdkafka

librdkafka安装步骤

手机软件抓包工具及其使用方法

Kafka：Topic概念与API介绍

推荐一些VB的学习交流网站

Doris SQL日志审计部署，以及sql收集输出kafka，后续血缘分析

Flink Kafka Doris实战demo

大数据技术原理与应用（最后三天备考了！！！）

Kafka 和 EMS 消息批量 ack 的实现

Spring Cloud整合Sleuth，当请求完成后，Zipkin没有链路信息

GNU科学函数库[参考手册][v0.1 Build 090129 Beta][GNU Scientific Library]

与专家面对面：Android开发入门问与答

ubuntu14.04下安装hbse1.0.1.1

Kafka SparkStreaming 保证数据不丢失问题 &gt;0.10版本

继续阅读

Kafka SparkStreaming 保证数据不丢失问题 >0.10版本