天天看点

nagios监控windows主机 && linux主机

一、NSclient++与nrpe

nagios对windows的监控主要有两种方法,一种是NSclient++,另一种是通过nrpe的方式来达到监控目的

NSclient++与nrpe最大的区别就是:

1、被监控机上安装有nrpe,并且还有插件,最终的监控是由这些插件来进行的.当监控主机将监控请求发给nrpe后,nrpe调用插件来完成监控.

2、NSclient++则不同,被监控机上只安装NSclient++,没有任何的插件.当监控主机将监控请求发给NSclient++后,NSclient++直接完成监控,所有的监控是由NSclient++完成的。

这也说明了NSclient++的一个很大的问题,不灵活,没有可扩展性.它只能完成自己本身包含的监控操作,不能由一些插件来扩展.好在NSclient++已经做的不错了,基本上可以完全满足我们的监控需要。

NSclient++的原理图

<a href="http://s3.51cto.com/wyfs02/M00/46/35/wKiom1PvKYqT3zN_AACJ0zqers8519.jpg" target="_blank"></a>

二、部署过程

1、在windows上安装NSclient++

(1)一直下一步

<a href="http://s3.51cto.com/wyfs02/M01/46/35/wKiom1PvKuiCrk9AAAAjAmNM0Rg841.png" target="_blank"></a>

(2)设置nagios服务器IP地址

<a href="http://s3.51cto.com/wyfs02/M02/46/35/wKiom1PvKv2ATA65AACCPbwcXss954.png" target="_blank"></a>

(3)检查NSclient++的端口是否成功开启

<a href="http://s3.51cto.com/wyfs02/M00/46/37/wKioL1PvLIChR2F7AAAZ7iDZyZk706.png" target="_blank"></a>

    如果服务没有开启,就:win+r --&gt; services.msc --&gt; nsclient++ 开启服务即可

(4)防火墙打开tcp 12489端口

2、设置nagios服务器

(1)检测nagios命令是否可以正常监测windows主机

1

2

3

4

5

6

7

8

<code>[root@cacti libexec]</code><code>#  ./check_nt -H 192.168.200.15 -p 12489 -s dianyi123 -v UPTIME</code>

<code>System Uptime - 3 day(s) 12 hour(s) 32 minute(s)</code>

<code>[root@cacti libexec]</code><code># </code>

<code>[root@cacti libexec]</code><code># ./check_nt -H 192.168.200.15 -p 12489 -s dianyi123 -v CPULOAD -w 80 -c 90 -l 5,80,90</code>

<code>CPU Load 0% (5 min average) |   </code><code>'5 min avg Load'</code><code>=0%;80;90;0;100                     </code><code>#-w 警告比例 -c 紧急比例  -l(小写L) 表示过去5分钟的平均值,80%为警告,90%为紧急</code>

<code>[root@cacti libexec]</code><code># ./check_nt -H 192.168.200.15 -p 12489 -s dianyi123 -v USEDDISKSPACE -w 80 -c 90 -l C </code>

<code>C:\ - total: 100.83 Gb - used: 13.71 Gb (14%) - </code><code>free</code> <code>87.12 Gb (86%) | </code><code>'C:\ Used Space'</code><code>=13.71Gb;80.66;90.74;0.00;100.83</code>

(2)定义命令、主机、服务

    ①、定义命令

<code>[root@cacti ~]</code><code># vim /usr/local/nagios/etc/objects/commands.cfg</code>

<code>define </code><code>command</code><code>{</code>

<code>        </code><code>command_name    check_win</code>

<code>        </code><code>command_line    $USER1$</code><code>/check_nt</code> <code>-H </code><code>"$HOSTADDRESS$"</code> <code>-p 12489 -s dianyi123 -</code><code>v</code> <code>$ARG1$ $ARG2$</code>

<code>}</code>

    ②、定义主机和服务

    为了方便,主机和监控服务都定义在一个配置文件里面

    首先创在/usr/local/nagios/etc建一个文件夹servers专门保存各服务器的配置文件,然后以服务器IP命名各服务器配置文件

    这样的话,nagios.cfg里面就需要开启对servers目录的支持

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

61

62

63

64

65

66

67

68

69

70

71

72

73

74

75

76

77

78

79

80

81

82

83

84

<code>[root@cacti etc]</code><code># pwd</code>

<code>/usr/local/nagios/etc</code>

<code>[root@cacti etc]</code><code># </code>

<code>[root@cacti etc]</code><code># ls</code>

<code>cgi.cfg  htpasswd.</code><code>users</code>  <code>nagios.cfg  objects  resource.cfg  servers</code>

<code>[root@cacti etc]</code><code># vim nagios.cfg</code>

<code>cfg_dir=</code><code>/usr/local/nagios/etc/servers</code>

<code>[root@cacti etc]</code><code># vim servers/192.168.200.15.cfg</code>

<code>define host{</code>

<code>        </code><code>use                     windows-server            ; Name of host template to use</code>

<code>        </code><code>host_name               192.168.200.15</code>

<code>        </code><code>alias</code>                   <code>my computer</code>

<code>        </code><code>address                 192.168.200.15</code>

<code>        </code><code>}</code>

<code>#define hostgroup{</code>

<code>#       hostgroup_name  windows-servers ; The name of the hostgroup</code>

<code>#       alias           Windows Servers ; Long name of the group</code>

<code>#       }</code>

<code>define service{</code>

<code>        </code><code>use                             generic-service</code>

<code>        </code><code>host_name                       192.168.200.15</code>

<code>        </code><code>service_description             NSClient++ Version</code>

<code>        </code><code>check_command                   check_win!CLIENTVERSION</code>

<code>         </code><code>}</code>

<code>        </code><code>service_description             Uptime</code>

<code>        </code><code>check_command                   check_win!UPTIME</code>

<code>        </code><code>service_description             CPU Load</code>

<code>        </code><code>check_command                   check_win!CPULOAD!-l 5,80,90</code>

<code>       </code><code>use                     generic-service</code>

<code>       </code><code>host_name               192.168.200.15</code>

<code>       </code><code>service_description     Memory Usage</code>

<code>       </code><code>check_command           check_win!MEMUSE!-w 80 -c 90</code>

<code>       </code><code>}</code>

<code>       </code><code>service_description     C:\ Drive Space</code>

<code>       </code><code>check_command           check_win!USEDDISKSPACE!-l c -w 80 -c 90</code>

<code>       </code><code>service_description     D:\ Drive Space</code>

<code>       </code><code>check_command           check_win!USEDDISKSPACE!-l d -w 80 -c 90</code>

<code>       </code><code>service_description     E:\ Drive Space</code>

<code>       </code><code>check_command           check_win!USEDDISKSPACE!-l e -w 80 -c 90</code>

<code>#define service{</code>

<code>#       use                     generic-service</code>

<code>#       host_name               192.168.200.15</code>

<code>#       service_description     W3SVC</code>

<code>#       check_command           check_win!SERVICESTATE!-d SHOWALL -l W3SVC</code>

<code>       </code><code>service_description     Explorer</code>

<code>       </code><code>check_command           check_win!PROCSTATE!-d SHOWALL -l Explorer.exe</code>

(3)检查配置文件有无错误

<code>/usr/local/nagios/bin/nagios</code> <code>-</code><code>v</code> <code>/usr/local/nagios/etc/nagios</code><code>.cfg</code>

如果没有消息,那就是最好的消息,下一步,就可以重启nagios服务了

(4)重启nagios服务

<code>[root@cacti ~]</code><code># service nagios restart</code>

<code>Stopping nagios:                                           [  OK  ]</code>

<code>Starting nagios:                                           [  OK  ]</code>

三、nagios监控页面查看主机与服务

1、主机状态

<a href="http://s3.51cto.com/wyfs02/M01/46/37/wKioL1PvOGOCMIo0AACZgKI45rU930.png" target="_blank"></a>

2、服务状态

<a href="http://s3.51cto.com/wyfs02/M00/46/35/wKiom1PvN2nQ0ruDAABa77H1RVc898.png" target="_blank"></a>

四、排错阶段

本次部署nagios监控windows主机主要碰到两个问题

1、主机状态(status)是down,而不是正常的up

  原因:这种情况下,一般都是服务器禁ping了,监控服务器是通过ping服务来检查被监控服务器是否在线,当把windows服务器ping的回显请求开启后,监控成功

  解决:win2008:服务器管理器——设置——高级安全windows防火墙——入站规则——找到“文件和打印机共享(回显请求-ICMPv4-in)”右击……选择“启用规则”

2、could not fetch information from server

  当把第1个问题解决掉后,Status是UP起来了,可是所有的服务全部都是could not fetch information from server

<a href="http://s3.51cto.com/wyfs02/M00/46/37/wKioL1PvOneR3f1lAABUd5w7O6k288.png" target="_blank"></a>

  原因:出现这种状况的原因是因为nagios服务器没有从被监控端服务器上获得相关数据,直接原因就是NSclient++的配置文件中Allowed hosts的IP没有设置正确

  解决:NSclient++的配置文件中 Allowed hosts = nagios服务器IP

<a href="http://s3.51cto.com/wyfs02/M01/46/35/wKiom1PvOveg0Z7bAABSyeAbrf0246.png" target="_blank"></a>

  当时在安装NSclient++时,我的 Allowed hosts = 192.168.200.105 ,我的设置是正确的,但是为什么会变成15我也不知道为什么

五、nagios监控linux主机

1、服务端定义主机

<code>        </code><code>use                     linux-server</code>

<code>        </code><code>host_name               192.168.200.111</code>

<code>        </code><code>alias</code>                   <code>linux</code>

<code>        </code><code>address                 192.168.200.111</code>

<code>        </code><code>host_name                       192.168.200.111</code>

<code>        </code><code>service_description             root_/</code>

<code>        </code><code>check_command                   check_nrpe!check_xvda!5%!10%</code>

<code>        </code><code>service_description             </code><code>/dev/xvdb2</code>

<code>        </code><code>check_command                   check_nrpe!check_xvdb2!5%!10%</code>

<code>        </code><code>service_description             Check Swap</code>

<code>        </code><code>check_command                   check_nrpe!check_swap</code>

<code>        </code><code>service_description             total</code>

<code>        </code><code>check_command                   check_nrpe!check_total_procs</code>

<code>        </code><code>service_description             check_load</code>

<code>        </code><code>check_command                   check_nrpe!check_load</code>

<code>        </code><code>service_description             check_tcp_3306</code>

<code>        </code><code>check_command                   check_tcp!3306</code>

<code>        </code><code>service_description             check_users</code>

<code>        </code><code>check_command                   check_nrpe!check_users</code>

<code>        </code><code>service_description             check_mem</code>

<code>        </code><code>check_command                   check_nrpe!check_mem</code>

<code>        </code><code>service_description             check_mysql</code>

<code>        </code><code>check_command                   check_nrpe!check_mysql</code>

<code>        </code><code>service_description             check_mysql_slave</code>

<code>        </code><code>check_command                   check_nrpe!check_mysql_slave</code>

<code>   </code> 

<code>        </code><code>service_description             check_http  192.168.200.111</code><code>/test</code><code>.html</code>

<code>        </code><code>check_command                   check_http!</code><code>'-u /test.html'</code>     <code>#nagios监控网页状态(如 200),在commands.cfg中有自带check_http命令,也可监控域名!</code>

2、客户端修改:vim /usr/local/nagios/etc/nrpe.cfg

<code>command</code><code>[check_users]=</code><code>/usr/local/nagios/libexec/check_users</code> <code>-w 3 -c 5</code>

<code>command</code><code>[check_load]=</code><code>/usr/local/nagios/libexec/check_load</code> <code>-w 15,10,5 -c 30,25,20</code>

<code>command</code><code>[check_xvda]=</code><code>/usr/local/nagios/libexec/check_disk</code> <code>-w 10% -c 5% -p </code><code>/dev/xvda</code>

<code>command</code><code>[check_zombie_procs]=</code><code>/usr/local/nagios/libexec/check_procs</code> <code>-w 5 -c 10 -s Z</code>

<code>command</code><code>[check_total_procs]=</code><code>/usr/local/nagios/libexec/check_procs</code> <code>-w 150 -c 200 </code>

<code>command</code><code>[check_xvdb2]=</code><code>/usr/local/nagios/libexec/check_disk</code> <code>-w 10% -c 5% -p </code><code>/dev/xvdb2</code>   <code>#阿里云</code>

<code>command</code><code>[check_swap]=</code><code>/usr/local/nagios/libexec/check_swap</code> <code>-w 20% -c 10%                 </code><code>#/dev/xvdb1 分区做了swap</code>

<code>command</code><code>[check_mem]=</code><code>/usr/bin/sudo</code> <code>/usr/local/nagios/libexec/check_mem</code> <code>-w 20 -c 10 </code>

<code>command</code><code>[check_mysql]=</code><code>/usr/local/nagios/libexec/check_mysql</code> <code>-H 192.168.200.111 -unagios -dnagios_monitor -p dianyi123</code>

<code>command</code><code>[check_mysql_slave]=</code><code>/usr/local/nagios/libexec/check_mysql_slave</code>

3、在nrpe.cfg配置文件中允许nagios服务器IP

<code>[root@localhost ~]</code><code># vim /usr/local/nagios/etc/nrpe.cfg </code>

<code>allowed_hosts=127.0.0.1,192.168.200.105</code>

4、客户端以独立进程方式启动 nrpe

<code>/usr/local/nagios/bin/nrpe</code> <code>-c </code><code>/usr/local/nagios/etc/nrpe</code><code>.cfg -d</code>

5、修改nagios的命令模板

<code>[root@monitor ~]</code><code># vim /usr/local/nagios/etc/objects/commands.cfg #添加以下一行</code>

<code>define </code><code>command</code> <code>{</code>

<code>      </code><code>command_name  check_nrpe</code>

<code>      </code><code>command_line    $USER1$</code><code>/check_nrpe</code> <code>-H $HOSTADDRESS$ -c $ARG1$</code>

否则重启nagios会报错:

<code>Error: Service check </code><code>command</code> <code>'check_nrpe!check_total_procs'</code> <code>specified </code><code>in</code> <code>service </code><code>'total'</code> <code>for</code> <code>host </code><code>'192.168.200.105'</code> <code>not defined anywhere!</code>

6、服务端检测 :

/usr/local/nagios/libexec/check_nrpe -H 192.168.200.111 -c check_sda

六、补充

1、nagios监控windows端口

    基本上socket(收发通信协议)写的程序都会对应一个tcp端口出来,我们只要监控此端口就相当于监控了此程序;如FTP 21,pop 110,smtp 25 这些是常见的tcp端口,常见的端口一般nagios内都有定义的check_nt!,如果不是常见的端口,就需自定义程序的tcp端口。

    在监控之前,要确认端口是打开的,可以在CMD中telnet一下端口

<code>C:\Users\Administrator&gt;telnet 192.168.200.15 3389</code>

(1)定义命令

<code>[root@cacti objects]</code><code># vim /usr/local/nagios/etc/objects/commands.cfg</code>

<code>       </code><code>command_name    tcp3389</code>

<code>       </code><code>command_line    $USER1$</code><code>/check_tcp</code> <code>-H $HOSTADDRESS$ -p 3389 -</code><code>v</code> <code>CLIENTVERSION</code>

(2)定义服务

    主机已定义,主机和服务在一个配置文件里

<code>[root@cacti servers]</code><code># vim /usr/local/nagios/etc/servers/192.168.200.15.cfg</code>

<code>        </code><code>use                     generic-service</code>

<code>        </code><code>service_description     port3389</code>

<code>        </code><code>check_command           tcp3389</code>

(3)重启nagios服务

(4)查看验证

<a href="http://s3.51cto.com/wyfs02/M01/46/CB/wKiom1P0jpHhVLokAABsKpw7J9w674.png" target="_blank"></a>

2、nagios监控linux端口

<code>[root@cacti servers]</code><code># pwd</code>

<code>/usr/local/nagios/etc/servers</code>

<code>[root@cacti servers]</code><code># </code>

<code>[root@cacti servers]</code><code># vim 192.168.200.18.cfg</code>

<code>        </code><code>host_name                       192.168.200.18</code>

<code>        </code><code>service_description             check_tcp_873</code>

<code>        </code><code>check_command                   check_tcp!873</code>

<code>#</code>

<code>############# 如果监听的端口是这样的,而不是 *:5666 这样 ###############</code>

<code>tcp    LISTEN     0      50                             61.138.78.59:7003                                     *:*     </code>

<code>tcp    LISTEN     0      5                                         *:5666                                     *:*  </code>

<code>则需要修改commands中的 $HOSTADDRESS$ 为61.138.78.59,然后修改command_name,再定义服务即可</code>

3、nagios监控mysql主从同步

   判断mysql的主从同步主要还是看那两个线程:Slave_IO线程和Slave_SQL线程,两个都是YES的话,就证明是没有问题的

<code>MariaDB [(none)]&gt; show slave status\G</code>

<code>*************************** 1. row ***************************</code>

<code>               </code><code>Slave_IO_State: Waiting </code><code>for</code> <code>master to send event</code>

<code>                  </code><code>Master_Host: 192.168.200.17</code>

<code>                  </code><code>Master_User: doteyplay</code>

<code>                  </code><code>Master_Port: 3306</code>

<code>                </code><code>Connect_Retry: 60</code>

<code>              </code><code>Master_Log_File: master-bin.000008</code>

<code>          </code><code>Read_Master_Log_Pos: 1277</code>

<code>               </code><code>Relay_Log_File: relay-bin.000025</code>

<code>                </code><code>Relay_Log_Pos: 1486</code>

<code>        </code><code>Relay_Master_Log_File: master-bin.000008</code>

<code>             </code><code>Slave_IO_Running: Yes</code>

<code>            </code><code>Slave_SQL_Running: Yes</code>

第一部分:客户端配置

(1)在被监控的从服务器增加一个用户

<code>MariaDB [(none)]&gt; grant Replication client on *.* to nagios@localhost identified by </code><code>'nagios'</code><code>;</code>

<code>Query OK, 0 rows affected (0.00 sec)</code>

<code>MariaDB [(none)]&gt; </code>

<code>MariaDB [(none)]&gt; flush privileges;</code>

(2)验证命名执行状态

<code>[root@DBSlave ~]</code><code># mysql -unagios -pnagios -e "show slave status\G;"  </code>

(3)编写脚本/usr/local/nagios/libexec/check_mysql_slave(这是监控其作用的核心)

<code>#!/bin/sh </code>

<code>declare</code> <code>-a    slave_is </code>

<code>slave_is=($(</code><code>/usr/local/mysql/bin/mysql</code> <code>-unagios -pnagios    -e </code><code>"show slave status\G"</code><code>|</code><code>grep</code> <code>Running |</code><code>awk</code> <code>'{print $2}'</code><code>)) </code>

<code>if</code> <code>[ </code><code>"${slave_is[0]}"</code> <code>= </code><code>"Yes"</code> <code>-a </code><code>"${slave_is[1]}"</code> <code>= </code><code>"Yes"</code> <code>] </code>

<code>     </code><code>then</code> 

<code>     </code><code>echo</code> <code>"OK C2-slave is running"</code> 

<code>     </code><code>exit</code> <code>0 </code>

<code>else</code> 

<code>     </code><code>echo</code> <code>"Critical C2-slave is error"</code> 

<code>     </code><code>exit</code> <code>2 </code>

<code>fi</code> 

<code>[root@DBSlave libexec]</code><code># chmod +x check_mysql_slave   #赋予执行权限</code>

<code>[root@DBSlave libexec]</code><code># chown  nagios.nagios check_mysql_slave</code>

(4)在从服务器安装 nrpe,然后在配置文件nrpe.cfg加入一行

<code>[root@DBSlave ~]</code><code># vim /usr/local/nagios/etc/nrpe.cfg</code>

(5)手动执行脚本,观察输出状态

<code>[root@DBSlave libexec]</code><code># sh check_mysql_slave </code>

<code>OK C2-slave is running</code>

(6)检查被监控端的5666端口

<code>[root@DBSlave libexec]</code><code># ss -antulp | grep 5666</code>

<code>tcp    LISTEN     0      5                     :::5666                 :::*      </code><code>users</code><code>:((</code><code>"nrpe"</code><code>,26512,5))</code>

<code>tcp    LISTEN     0      5                      *:5666                  *:*      </code><code>users</code><code>:((</code><code>"nrpe"</code><code>,26512,4))</code>

<code>[root@DBSlave libexec]</code><code># /usr/local/nagios/bin/nrpe -c /usr/local/nagios/etc/nrpe.cfg -d</code>

第二部分:服务端配置

(1)在监控机上检查是否可成功监控被监控机

<code>[root@cacti ~]</code><code># /usr/local/nagios/libexec/check_nrpe -H 192.168.200.18 -c check_mysql_slave</code>

<code>NRPE: Command </code><code>'check_mysql_slave'</code> <code>not defined     </code><code>#遇到问题</code>

排错:<code>NRPE: Command </code><code>'check_mysql_slave'</code> <code>not defined</code>

<code>[root@cacti ~]</code><code># /usr/local/nagios/libexec/check_nrpe -H 192.168.200.18 </code>

<code>NRPE v2.15</code>

 证明在被监测主机上配置的NRPE已经正常工作,并且监测主机能够通过SSL与被监测主机上的NRPE正常通信。

<code>[root@DBSlave libexec]</code><code># ps -ef | grep nrpe</code>

<code>root     10287  9703  0 12:01 pts</code><code>/1</code>    <code>00:00:00 vim </code><code>/usr/local/nagios/etc/nrpe</code><code>.cfg</code>

<code>root     10522  9639  0 12:30 pts</code><code>/0</code>    <code>00:00:00 </code><code>grep</code> <code>nrpe</code>

<code>nagios   26512     1  0 Aug15 ?        00:01:09 </code><code>/usr/local/nagios/bin/nrpe</code> <code>-c </code><code>/usr/local/nagios/etc/nrpe</code><code>.cfg -d   </code><code>#这里的nrpe是以独立进程运行的,而非守护进程。先kill一下nrpe再说</code>

<code>[root@DBSlave libexec]</code><code># </code>

<code>[root@DBSlave libexec]</code><code># kill -9 26512   #kill nrpe进程</code>

<code>root     10524  9639  0 12:31 pts</code><code>/0</code>    <code>00:00:00 </code><code>grep</code> <code>nrpe       </code><code>#kill 成功</code>

<code>[root@DBSlave libexec]</code><code># /usr/local/nagios/bin/nrpe -c /usr/local/nagios/etc/nrpe.cfg -d   #重启nrpe</code>

<code>nagios   10526     1  0 12:31 ?        00:00:00 </code><code>/usr/local/nagios/bin/nrpe</code> <code>-c </code><code>/usr/local/nagios/etc/nrpe</code><code>.cfg -d</code>

<code>root     10528  9639  0 12:31 pts</code><code>/0</code>    <code>00:00:00 </code><code>grep</code> <code>nrpe</code>

再次在监控端测试

<code>OK C2-slave is running   </code><code>#终于顺利通过了,就是nrpe进程的事儿</code>

(2)定义主机、服务

<code>        </code><code>host_name               192.168.200.18</code>

<code>        </code><code>address                 192.168.200.18</code>

<code>       </code> 

(4)查看监控状态

<a href="http://s3.51cto.com/wyfs02/M02/46/FA/wKioL1P1eVvjb_cnAAAzfT1y6aY028.png" target="_blank"></a>

4、nagios通过web界面修改某个服务时报错

例如对某个服务进行临时安排其执行时间,或者不让它发警告,web页面上都有这样的设置.但是常常会有错误信息如下:

Could not open command file '/usr/local/nagios/var/rw/nagiosNaNd' for update!The permissions on the external command file and/or directory may be incorrect. Read the FAQs on how to setup proper permissions.An error occurred while attempting to commit your command for processing.

 (1)修改属组

<code>[root@monitor ~]</code><code># chown -R nagios.nagios /usr/local/nagios/var/rw/</code>

(2)把apache用户加入到nagios组

<code>[root@monitor ~]</code><code># usermod -G nagios apache</code>

(3)重启服务

<code>[root@monitor ~]</code><code># service nagios restart</code>

<code>[root@monitor ~]</code><code># service httpd restart</code>

本文转自 nmshuishui 51CTO博客,原文链接:http://blog.51cto.com/nmshuishui/1541083,如需转载请自行联系原作者

继续阅读