zookeeper OOM问题排查背景分析总结

2021-11-06 08:17:36

最近折腾的数据库同步项目中，大量使用了zookeeper(版本3.3.3)，可以说是强依赖，但是最近频频出现zookeeper内存使用率达到100%，而且是gc不掉，直接导致整个系统挂起，伤不起阿

因为大部分的情况都是无法gc回收，所以很大程度上怀疑出现memory leak。

设置了jvm参数，收集了一下oom导致jvm crash之后的日志文件进行分析

</h3>

官方说明： http://zookeeper.apache.org/doc/trunk/zookeeperobservers.html

主要用于解决读扩展性的问题，observer的节点不参与vote，也就是说写操作都只会发生在leader/follower中进行投票决策，而observer就是一个只读镜像。

但有一点和数据库的master/slave模式不同的是，observer也会接受写请求，但会将请求转交给leader/follower集群进行处理，并同步等待返回结果。

可以说observer比较巧妙的解决了读扩展性的问题，在zookeeper3.4.5版本，增加了readonlymode，和observer模式还是有所不同。

在我之前的文章中，zookeeper项目使用几点小结，有描述在项目中使用observer的情况:

从图中可以看出：

1. 整个zookeeper大集群有2部分组成，杭州的一个leader/follower集群 + 美国的一个observer集群

2. 为保证可用性，杭州集群的机器分别部署在3个机房中，（满足任意机房ab，机房a+机房b > 机房a+机房b+机房c/2)，最小的部署结构为3+2+2机器，这样可以确保，任何一个机房挂了，都可以保证整个zookeeper集群的可用性

有了以上的背景分析，再回到memory leak问题上来，翻了下zookeeper issue，发现还真有提交对应的memory leak问题，https://issues.apache.org/jira/browse/zookeeper-1303

看完issue后，这时候问题已经明显了。

在leader.java类中：

这里面leader节点，在与对应的follower/observer之间的链接异常断开时，会清理当前内存中的引用句柄 (不然下次的vote信息还会发送到挂了的节点上)。

而leader在往observer上推送write数据，会遍历当前内存中的observinglearners列表

再看一下learnerhandler.java类中：

learnerhandler中的处理方式是一种典型的异步处理，通过queuedpackets接受任务数据，然后线程异步进行消费处理。因为observer可能因为网络抖动，会断开与leader之间的链接，就会触发shutdown方法。而shutdown方法就是尝试将自己从leader的observer句柄中移除

所以整个问题原因已经比较明确，removelearnerhandler没有清理observer队列中的句柄，导致一直进行queuepacket调用，又没有异步线程进行消费，所以暴内存是迟早的事。

特别注意：3.3.6中居然没修复这个问题，所以可升级zookeeper至3.4.5，经过实际验证大家可放心升级(我的client 3.3.6 , server 3.4.5)

zookeeper 3.4和3.3的兼容性描述： http://blog.cloudera.com/blog/2011/11/apache-zookeeper-3-4-0-has-been-released/

zookeeper OOM问题排查背景分析总结

继续阅读

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

Java String.format方法的简单使用

neo4j之cypher使用文档

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

NOSQL安全攻击

mybatis_入门程序Mybatis入门

AOP编程_Android优雅权限框架(1)概念基础，2021金三银四前言正文大纲正文

登录plsql 报错 the account is locked --用户被锁

Effective Java 8:通用程序设计

SequoiaDB巨杉数据库C++驱动概述

OOM三种类型

工厂模式-三种类型

【递归】高效率求2的n次幂

win10本地scala和spark安装安装scala安装spark

scala (3) Function 和 Method