kafka主题和分区的概念
1. 主题topic
主题-topic在kafka中是⼀个逻辑的概念,kafka通过topic将消息进⾏分类。不同的topic会被订阅该topic的消费者消费。
但是有⼀个问题,如果说这个topic中的消息⾮常⾮常多,多到需要⼏t来存,因为消息是会被保存到log⽇志⽂件中的。为了解决这个⽂件过⼤的问题,kafka提出了partition分区的概念。
2.分区partition
通过partition将⼀个topic中的消息分区来存储。这样的好处有多个:
分区存储,可以解决统-存储文件过大的问题。
提供了读写的吞吐量:读和写可以同时在多个分区中进行。
创建多分区的主题:
./kafka-topics.sh --create --zookeeper 127.0.0.1:9093 --replicationfactor 1 --partitions 2 --topic test2
3.kafka中消息⽇志⽂件中保存的内容
00000.log: 这个文件中保存的就是消息
_consumer_offsets-49:
kafka内部自己创建了_consumer_offsets主题包含了50个分区。这个主题用来存放消费者消费某个主题的偏移量。因为每个消费者都会自己维护着消费的主题的偏移量,也就是说每个消费者会把消费的主题的偏移量自主,上报给kafka中的默认主题:
consumer_ offsets。因此kafka为了提升这个主题的并发性,默认设置了50个分区。
提交到哪个分区:通过hash函数: hash(consumergroupld) %_ consumer_ _offsets主题的分区数
提交到该主题中的内容是: key是consumergroupld+topic+分区号, value就是当前offset的值
文件中保存的消息,默认保存7天。七天到后消息会被删除。