解决Zabbix使用一段时间后总报Zabbix Agent不可到达的问题

zabbix使用一段时间后总是报zabbix agent不可到达，报错文字如下：

zabbix server messages: problem: zabbix agent on zabbix server is unreachable for 5 minutes

首先查看zabbix agent的日志，找到关键出错信息，日志如下：

来自：/tmp/zabbix_agentd.log

mysqladmin: connect to server at 'localhost' failed

error: 'can't connect to local mysql server through socket '/tmp/mysql.sock' (2)'

check that mysqld is running and that the socket: '/tmp/mysql.sock' exists!

由此可见，zabbix agent无法连接数据库（作为管理员应该清楚zabbix agent是不会连接数据库的），具体的是无法通过/tmp/mysql.sock连接到本地数据库服务器，由于这是一个socket文件，它的默认权限对其他用户或用户组是开发读写权限的。例如查看当前的配置：

而且数据库服务是正在运行的，而且socket文件的确存在，权限也是正常的。而且通过命令行可以验证通过socket文件确实可以连接。

问题分析与解决思路：

数据库服务器是一直正常的，这个作为管理员即使不运行任何命令也能做到心中有数，应该不是数据库服务器自身的问题，但不能排除跟客户端的连接方式有关。

查看mysql数据库的配置文件

[root@chris ~]# delsc /etc/my.cnf

[client]

port = 3306

socket = /tmp/mysql.sock

[mysqld]

datadir = /usr/local/mysql/var

skip-external-locking

skip-name-resolve

key_buffer_size = 384m

max_connections = 5000

max_allowed_packet = 1m

table_open_cache = 64k

sort_buffer_size = 128m

net_buffer_length = 8k

read_buffer_size = 256k

read_rnd_buffer_size = 512k

myisam_sort_buffer_size = 128m

slow-query-log = 0

tmp_table_size = 8g

max_heap_table_size = 8g

table_cache = 512

binlog_cache_size = 6144m

query_cache_type = 1

query_cache_size = 128m

query_cache_limit = 128m

query_cache_min_res_unit = 1024

myisam-recover-options = backup

innodb_data_home_dir = /usr/local/mysql/var

innodb_data_file_path = ibdata1:10m:autoextend

innodb_log_group_home_dir = /usr/local/mysql/var

innodb_buffer_pool_size = 8g

innodb_write_io_threads = 8

innodb_read_io_threads = 8

innodb_thread_concurrency = 16

innodb_file_format = barracuda

innodb_log_file_size = 512m

innodb_log_buffer_size = 64m

innodb_flush_log_at_trx_commit = 1

innodb_flush_method = o_direct

innodb_lock_wait_timeout = 50

innodb_log_files_in_group = 3

innodb_max_dirty_pages_pct = 90

innodb_lock_wait_timeout = 120

innodb_use_sys_malloc = 0

innodb_additional_mem_pool_size = 2g

innodb_file_per_table = 1

[mysqld_safe]

log-error = /usr/local/mysql/var/mysql-error.log

pid-file = /usr/local/mysql/var/mysql.pid

[mysqldump]

quick

max_allowed_packet = 16m

[mysql]

no-auto-rehash

[myisamchk]

key_buffer_size = 512m

sort_buffer_size = 512m

read_buffer = 8m

write_buffer = 8m

[mysqlhotcopy]

interactive-timeout

[root@chris ~]#

发现在[client]中存在socket = /tmp/mysql.sock一行，可能（可能性的情况参照下文）会默认导致mysql客户端连接时会自动使用socket进行连接。

查看zabbix agent的配置文件，观察是否有通过socket连接mysql的配置信息（前面提到，作为管理员应该清楚zabbix agent是不会连接数据库的，此时应该准确的说默认是不会连接数据库，如下图所示zabbix agent添加了一个与mysql有关的监控项，里面用到了mysql程序，但没写socket选项（事实上使用localhost作为连接主机名将会使用socket））。

为了缩小问题范围，先将/etc/my.cnf文件中关于[client]中的socket那段先注释掉（事先应该知道没有其他客户端连接）。注意：如果把[client]中的socket注释掉，则在本机mysql客户端程序（包括mysqladmin,mysqldump等）时都需要指定主机名、端口和密码，否则客户端程序会查找socket的默认位置“/var/lib/mysql/mysql.sock”，而这个socket文件的位置并不一定是这个。

mysql连接通过套接字连接和通过端口号连接有什么不同？unix平台上的mysql客户端能够以两种不同的方式连接到mysql服务器：通过文件系统中的文件（默认为/tmp/mysql.sock）使用unix套接字进行连接，或通过端口号使用tcp/ip进行连接。unix套接字文件的连接速度比tcp/ip快，但仅能在与相同计算机上的服务器相连时使用。如果未指定指定主机名或指定了特殊的主机名localhost（注意此处，如果指定了连接的主机名为localhost将使用socket连接），将使用unix套接字。套接字连接可以理解为指定了ip+端口。

因此按照上述理论将localhost换成127.0.0.1，取消socket连接方式，改用tcp/ip连接。其实反过来回想，假如指定了连接的主机名（除了localhost）或ip地址、端口号，就不用再使用socket，因此可以将socket那个注释给去掉，这样方便管理员平时连接调试。

因为zabbix server是要连接数据库的，因此也顺便检查一下。果然有收获：关于dbport有一个有用的注释“database port when not using local socket. ignored for sqlite.”意思是说如果socket不使用则使用dbport，而默认dbport是不使用而优先使用socket的。

因此也将这个dbport设置成启用状态。

其他可能影响因素：

iptables的规则-a input -p tcp -m state --state new -m tcp --dport 3306 -j accept也是正常的，15 accept tcp -- 0.0.0.0/0 0.0.0.0/0 state new tcp dpt:3306 。

selinux是事先关闭好了的。

但修改完上述所提到的后发现问题依然，zabbix依然报错（zabbix server messages: problem: zabbix agent on zabbix server is unreachable for 5 minutes），查看zabbix server的日志后发现有这么一条信息（后来发现还有报数据库跑飞的信息）：

由上图可知，尽管能获取到ntp[pool.ntp.org]数据，但花费的时间比较长，但是没有在zabbix web管理界面中找到跟超时相关的设置，因此可以考虑换一个ntp服务器或者干脆禁用掉。后来也发现这个key获取不到数据时就会导致触发zabbix agent不可到达的报警。

对于第二个报错：问题可能比较复杂，例如数据库所允许传递的包的大小（max_allowed_packet），数据库查询超时时间，（connect_timeout、wait_timeout）等。原始配置数据：

因此将max_allowed_packet = 1m改的大一些，例如改成max_allowed_packet = 2m。

经历了以上几个个操作后，发现zabbix server 不再产生zabbix agent不可到达的报警。

小总结：

（1）尽可能快速和有效地缩小问题范围，利用敏捷方法减少故障时间。

（2）能先解决问题，就不要慢慢去研究；但能慢慢解决问题，就要仔仔细细去研究。

（3）遇到小问题一定要像面对大问题一样对待，免得小问题发展成大问题。

（4）要想快速定位问题，需要对自己的服务器环境、整个工作环境中的每一个组件、组件与组件之间的关系都需要了如指掌。

（5）如果不是自己在维护这些服务，一定要及时与同事做好沟通。

（6）做好问题记录，温故而知新，哪怕花时间写成一篇博文也是值得的。

--end--

解决Zabbix使用一段时间后总报Zabbix Agent不可到达的问题

继续阅读

报错：'mysql' 不是内部或外部命令，也不是可运行的程序或批处理文件。

Ubuntu16.04安装Apache+MySQL+PHP1. 安装Apache2. 安装MySQL3. 安装PHP4. 安装phpMyAdmin

Linxu常用命令技巧汇总

ERROR 1 (HY000): Can't create/write to file '/tmp/#sql_4188_1.MYI' (Errcode: 28)

艰难安装LDAP,SSL认证

《Linux命令行与Shell脚本编程大全第2版.布卢姆》pdf

MySQL的4种隔离级别？出现问题

XX系统实施过程问题总结

无组件上传图片到数据库中，最完整解决方案

【MySQL数据库】数据库索引事务1.索引2.事务

neo4j之cypher使用文档

NOSQL安全攻击

mybatis_入门程序Mybatis入门

mysql使用source命令导入.sql文件

登录plsql 报错 the account is locked --用户被锁

SequoiaDB巨杉数据库C++驱动概述