天天看點

zabbix監控之主動監控。

    玩過zabbix的童鞋都知道在關于zabbix_agent用戶端監控主要有倆種模式,一種是主動模式,一種是被動模式。

主動模式:zabbix_agent主動收集主機上面的資訊,将它送出給server端

被動模式:zabbix_server主動去zabbix_agent上面抓取資料資訊

    今天中午我們公司的agent.ping這個監控項發生報警,在這個監控項我們采用的是zabbix_agent(active)模式,即由用戶端自己收集資料發送給server端,因為之前我們一直是zabbix_agent的模式,中午将它更改未主動模式,結果就有20多台伺服器報警zabbix agent on #### unreachable for 5 minute,當看到這個資訊之後,我立馬就去觀察zabbix_agent端的日志,在日志中全部顯示的是

1800:20150902:191605.465 active check configuration update from [:10051] started to fail (cannot connect to [[10.10.251.5]:10051]: [0x0000274d] 由于目标計算機積極拒絕,無法連接配接。)

1800:20150902:192312.403 active check configuration update from [:10051] is working again

1800:20150907:111627.125 active check configuration update from [:10051] started to fail (cannot connect to [[10.10.251.5]:10051]: [0x0000274d] 由于目标計算機積極拒絕,無法連接配接。)

1800:20150907:120350.378 active check configuration update from [:10051] is working again

1800:20150909:094456.703 active check configuration update from [:10051] started to fail (zbx_tcp_read() failed: [0x0000274c] 由于連接配接方在一段時間後沒有正确答複或連接配接的主機沒有反應,連接配接嘗試失敗。)

1800:20150909:094717.398 active check configuration update from [:10051] is working again

    全部是如上的這種錯誤,但是打開任意一台主機的圖形資料,發現圖形資料還是連續的,并沒有出現昨天的那種産生圖形中斷的情況,就在這個時候我想到在百度上面開啟zabbix_agent(active)模式,上面特意強調了倆個參數,一個是serveractive和hostname這倆個參數,serveractive這個參數指的是用戶端将自己收集到的資料發送給誰,hostname則是顯示這個資料是由誰發送的。然後我就随意打開幾台主機,果然發現它們的配置檔案裡面hostname這個參數未空,并且在zabbix web界面上的hostname填寫的都是主機的主機名,然後我把配置檔案裡面的hostname和web界面端的hostname全部更改未主機的ip,過了一段時間之後,報警就消失了。

    最後我總結了一下,在zabbix添加和安裝的時候就有強調web界面和配置檔案中hostname主機名必須保持一緻,否則zabbix web界面有可能接收不到資料,估計當初zabbix的添加人員或許注意到了這個問題,但是由于使用的是zabbix_agent模式,再加上zabbix并沒有産生報警,是以将這個問題給忽視不計了,結果等到我們由于zabbix壓力增大進行優化之後才會導緻這種事情發生。