天天看点

使用 Ganglia 对 Linux 网格和集群服务器进行实时监控

本文将向你介绍 ganglia,它是一个易于扩展的监控系统。使用它可以实时查看 linux 服务器和集群(图形化展示)中的各项性能指标。

ganglia 能够让你以集群(按服务器组)和网格(按地理位置)的方式更好地组织服务器。

这样,我们可以创建一个包含所有远程主机的网格,然后将那些机器按照其它标准分组成小的集合。

此外, ganglia 的 web 页面对移动设备进行过优化,也允许你导出 <code>csv</code> 和 <code>.json</code> 格式的数据。

我们的测试环境包括一个安装 ganglia 的主节点服务器 centos 7 (ip 地址 192.168.0.29),和一个作为被监控端的 ubuntu 14.04 主机(192.168.0.32)。我们将通过 ganglia 的 web 页面来监控这台 ubuntu 主机。

下面的例子可以给大家提供参考,centos7 作为主节点,ubuntu 作为被监控对象。

<a target="_blank"></a>

请遵循以下步骤,在主节点服务器安装监控工具。

<code># yum update &amp;&amp; yum install epel-release</code>

<code># yum install ganglia rrdtool ganglia-gmetad ganglia-gmond ganglia-web</code>

在上面这步随 ganglia 将安装一些应用,它们的功能如下:

<code>rrdtool</code>,round-robin 数据库,它是一个储存并图形化显示随着时间变化的数据的工具;

<code>ganglia-gmetad</code> 一个守护进程,用来收集被监控主机的数据。被监控主机与主节点主机都要安装 ganglia-gmond(监控守护进程本身);

<code>ganglia-web</code> 提供 web 前端,用于显示监控系统的历史数据和图形。   2、 使用 apache 提供的基本认证功能,为 ganglia web 界面(<code>/usr/share/ganglia</code>)配置身份认证。

为完成这个目标,我们需要创建一个用户名并设定一个密码,以访问被 apache 保护的资源。在本例中,我们先来创建一个叫 <code>adminganglia</code> 的用户名,然后给它分配一个密码,它将被储存在 <code>/etc/httpd/auth.basic</code>(可以随意选择另一个目录 和/或 文件名, 只要 apache 对此有读取权限就可以。) 

<code># htpasswd -c /etc/httpd/auth.basic adminganglia</code>

给 adminganglia 输入两次密码完成密码设置。

3、 修改配置文件 <code>/etc/httpd/conf.d/ganglia.conf</code>:

<code>alias /ganglia /usr/share/ganglia</code>

<code>&lt;location /ganglia&gt;</code>

<code>authtype basic</code>

<code>authname "ganglia web ui"</code>

<code>authbasicprovider file</code>

<code>authuserfile "/etc/httpd/auth.basic"</code>

<code>require user adminganglia</code>

<code>&lt;/location&gt;</code>

4、 编辑 <code>/etc/ganglia/gmetad.conf</code>:

首先,使用 <code>gridname</code> 指令来为网格设置一个描述性名称。

<code>gridname "home office"</code>

然后,使用 <code>data_source</code> 指令,后面跟集群名(服务器组)、轮询时间间隔(秒)、主节点主机和被监控节点的 ip 地址:

<code>data_source "labs" 60 192.168.0.29:8649 # 主节点</code>

<code>data_source "labs" 60 192.168.0.32 # 被监控节点</code>

5、 编辑 <code>/etc/ganglia/gmond.conf</code>。

a) 确保集群的配置类似下面。

<code>cluster {</code>

<code>name = "labs" # gmetad.conf 中的 data_source 指令的名字</code>

<code>owner = "unspecified"</code>

<code>latlong = "unspecified"</code>

<code>url = "unspecified"</code>

<code>}</code>

b) 在 <code>udp_send_chanel</code> 中,注释掉 <code>mcast_join</code>:

<code>udp_send_channel {</code>

<code># mcast_join = 239.2.11.71</code>

<code>host = localhost</code>

<code>port = 8649</code>

<code>ttl = 1</code>

c) 在 <code>udp_recv_channel</code> 中,注释掉 <code>mcast_join</code> 和 <code>bind</code> 部分:

<code>udp_recv_channel {</code>

<code># mcast_join = 239.2.11.71 ## comment out</code>

<code># bind = 239.2.11.71 ## comment out</code>

保存并退出。

6、打开 8649/udp 端口,使用 selinux 确保 php 脚本(通过 apache 运行)能够连接到网络:

<code># firewall-cmd --add-port=8649/udp</code>

<code># firewall-cmd --add-port=8649/udp --permanent</code>

<code># setsebool -p httpd_can_network_connect 1</code>

7、重启 apache、gmetad、gmond,并确保它们启用了“开机启动”。

<code># systemctl restart httpd gmetad gmond</code>

<code># systemctl enable httpd gmetad httpd</code>

至此,我们现在能够打开 ganglia 的 web 页面 <code>http://192.168.0.29/ganglia</code> 并用步骤 2 中设置的凭证登录。

[

使用 Ganglia 对 Linux 网格和集群服务器进行实时监控

][5]

gangila web 页面

8、 在 ubuntu 主机上,只需安装 ganglia-monitor,等同于 centos 上的 ganglia-gmond:

<code>$ sudo aptitude update &amp;&amp; aptitude install ganglia-monitor</code>

9、 编辑被监控主机的 <code>/etc/ganglia/gmond.conf</code> 文件。与主节点主机上是相同的文件,除了被注释掉的 <code>cluster</code>, <code>udp_send_channel</code> , <code>udp_recv_channel</code> 这里不应被注释:

<code>name = "labs" # the name in the data_source directive in gmetad.conf</code>

<code>mcast_join = 239.2.11.71</code>

<code>mcast_join = 239.2.11.71 ## comment out</code>

<code>bind = 239.2.11.71 ## comment out</code>

之后重启服务。

<code>$ sudo service ganglia-monitor restart</code>

10、 刷新页面,你将在 home office grid / labs cluster 中看到两台主机的各种统计及图形化的展示(用下拉菜单选择集群,本例中为 labs):

使用 Ganglia 对 Linux 网格和集群服务器进行实时监控

ganglia 中 home office 网格报告

使用菜单按钮(如上指出的),你可以获取到每台服务器和集群的信息。还可以使用 对比主机compare hosts选项卡来比较集群中所有服务器的状态。

可以使用正则表达式选择一组服务器,立刻就可以看到它们性能的对比:

使用 Ganglia 对 Linux 网格和集群服务器进行实时监控

ganglia 服务器信息

我最喜欢的一个特点是对移动端有友好的总结界面,可以通过 mobile 选项来访问。选择你感兴趣的集群,然后选中一个主机。

使用 Ganglia 对 Linux 网格和集群服务器进行实时监控

原文发布时间为:2017-01-31

本文来自云栖社区合作伙伴“linux中国”