刚接触一些Apache Kafka的内容,用了两天时间研究了一下,仅以此文做相关记录,以供学习交流。
概念:
kafka依赖的项:
1. 硬件上,kafka利用线性存储来进行硬盘直接读写。
2. kafka没有使用内存作为缓存。
3. 用zero-copy。
4. Gzip和Snappy压缩,
5. kafka对事务处理比较弱,但是message分发上还是做了一定的策略来保证数据递送的准确性的。
kafka关于存储的几个概念
1. Partition:同一个topic下可以设置多个partition,目的是为了提高并行处理的能力。可以将同一个topic下的message存储到不同的paritition下。
2. Offset:kafka的存储文件都是按照offset.kafka来命名,用offset做名字的好处是方便查找。
在分布式方面:
1. broker的部署是没有主从结构的,每个节点都是同等的,节点的增减和减少都不需要改变任何配置。
2. producer和consumer通过zookeeper去发现topic,并通过zookeeper来协调生产和消费的过程。
3. producer、consumer和broker均采用TCP连接,通信基于NIO实现。并且Producer和consumer能自动检测broker的增加和减少。
克隆出三台虚拟机,我这三台虚拟机的ip分别为
192.168.128.129
192.168.128.132
192.168.128.133
在129这个服务器上找到 kafka目录/config/server.properties文件,做如下修改
这里只用到了一个zookeeper,并部署到了129上,没有用集群,当然也可以部署到其他机器上。
132上的kafka配置
133上的kafka配置
在129上启动zookeeper服务器
启动129,132,133上的kafka服务
在任意机器上建一个topic,因为有三个kafka服务,所以这里replication-factor设为3
查看topic,此时的leader kafka为129,repicas:集群里有三个kafka,Isr:正常使用的kafka
在133这台机器上开启一个producer,往132这个kafka发消息
停掉132的kafka,再次查看topics,此时可用的Isr为129和133,leader依然为129,因为129的kafka没有被停过,所以没有重新选举leader
在129上开启一个consumer
自此,发现停掉了132,依然能通过zookeeper从129和133的kafka上收到发往132的消息。
kafka集群测试通过