kafka是一种高吞吐量的分布式发布订阅消息系统
kafka是linkedin用于日志处理的分布式消息队列,linkedin的日志数据容量大,但对可靠性要求不高,其日志数据主要包括用户行为(登录、浏览、点击、分享、喜欢)以及系统运行日志(cpu、内存、磁盘、网络、系统及进程状态)
当前很多的消息队列服务提供可靠交付保证,并默认是即时消费(不适合离线)。
高可靠交付对linkedin的日志不是必须的,故可通过降低可靠性来提高性能,同时通过构建分布式的集群,允许消息在系统中累积,使得kafka同时支持离线和在线日志处理
kafka_2.10-0.8.1.1 3个节点做的集群
zookeeper-3.4.5 一个实例节点
消息生产者代码示例
消息消费者代码示例
消息处理类
partitioner类示例
参考
<a href="https://cwiki.apache.org/confluence/display/kafka/index" target="_blank">https://cwiki.apache.org/confluence/display/kafka/index</a>
<a href="https://kafka.apache.org/" target="_blank">https://kafka.apache.org/</a>