天天看点

linux 故障监控必备五款软件

linux故障监控处理必备四款监控软件

iotop:查看IO过大的进程。

vmstat:查看故障.

iostat: -x 查看硬盘IO.

iftop:可以用来监控网卡的实时流量(可以指定网段)、反向解析IP、显示端口信息等,使用iftop工具查出来是哪些个IP地址在请求主机的带宽资源,找出耗带宽的元凶, 找出耗带宽的IP地址或者段,分析是out方向还是in方向,使用iptables规则来进行控制

1、问题:

集群中的某台机器 top 看到负载巨高,集群中的机器硬件配置一样,部署的软件都一样,却单单这一台负载有问题,初步猜测可能硬件有问题了。

同时,我们还需要把负载有异常的罪魁祸首揪出来,到时候从软件、硬件层面分别寻找解决方案。

2、排查:

从 top 中可以看到 load average 偏高,%wa 偏高,%us 很低:

linux 故障监控必备五款软件

从上图我们大致可以推断 IO 遇到了瓶颈,下面我们可以再用相关的 IO 诊断工具,具体的验证排查下。

PS:如果你对 top 的用法不了解,请参考我去年写的一篇博文:

<a href="http://my.oschina.net/leejun2005/blog/157910" target="_blank">linux 系统监控、诊断工具之 top 详解</a>

常用组合方式有如下几种:

用vmstat、sar、iostat检测是否是CPU瓶颈 

用free、vmstat检测是否是内存瓶颈 

用iostat、dmesg 检测是否是磁盘I/O瓶颈 

用netstat检测是否是网络带宽瓶颈

2.1 vmstat

vmstat命令的含义为显示虚拟内存状态(“Viryual Memor Statics”),但是它可以报告关于进程、内存、I/O等系统整体运行状态。

linux 故障监控必备五款软件

它的相关字段说明如下:

从 vmstat 中可以看到,CPU大部分的时间浪费在等待IO上面,可能是由于大量的磁盘随机访问或者磁盘的带宽所造成的,bi、bo 也都超过 1024k,应该是遇到了IO瓶颈。

2.2 iostat

下面再用更加专业的磁盘 IO 诊断工具来看下相关统计数据。

linux 故障监控必备五款软件

rrqm/s:    每秒进行 merge 的读操作数目。即 delta(rmerge)/s  wrqm/s:    每秒进行 merge 的写操作数目。即 delta(wmerge)/s  r/s:       每秒完成的读 I/O 设备次数。即 delta(rio)/s  w/s:       每秒完成的写 I/O 设备次数。即 delta(wio)/s  rsec/s:    每秒读扇区数。即 delta(rsect)/s  wsec/s:    每秒写扇区数。即 delta(wsect)/s  rkB/s:     每秒读K字节数。是 rsect/s 的一半,因为每扇区大小为512字节。(需要计算)  

可以看到两块硬盘中的 sdb 的利用率已经 100%,存在严重的 IO 瓶颈,下一步我们就是要找出哪个进程在往这块硬盘读写数据。

2.3 iotop

linux 故障监控必备五款软件

根据 iotop 的结果,我们迅速的定位到是 flume 进程的问题,造成了大量的 IO wait。

但是在开头我已经说了,集群中的机器配置一样,部署的程序也都 rsync 过去的一模一样,难道是硬盘坏了?

这得找运维同学来查证了,最后的结论是:

Sdb为双盘raid1,使用raid卡为“LSI Logic / Symbios Logic SAS1068E”,无cache。近400的IOPS压力已经达到了硬件极限。而其它机器使用的raid卡是“LSI Logic / Symbios Logic MegaRAID SAS 1078”,有256MB cache,并未达到硬件瓶颈,解决办法是更换能提供更大IOPS的机器。

不过前面也说了,我们从软硬件两方面着手的目的就是看能否分别寻求代价最小的解决方案:

知道硬件的原因了,我们可以尝试把读写操作移到另一块盘,然后再看看效果:

linux 故障监控必备五款软件

3、最后的话:另辟蹊径

其实,除了用上述专业的工具定位这个问题外,我们可以直接利用进程状态来找到相关的进程。

1.使用yum 安装iftop工具

使用yum安装的话比较简单,只要直接执行 yum install iftop –y命令即可,如果没问题的话系统就会自动执行安装,但是有使用yum可能安装不了,这时就需要使用编译安装了

2.编译安装iftop工具

(1)下载iftop工具的源码包;

http://oss.aliyuncs.com/aliyunecs/iftop-0.17.tar.gz

(2)CentOS下安装所需的依赖包

yum install flex byacc  libpcap ncursesncurses-devel libpcap-devel

(3 解压缩下载的iftop文件

tarzxvf iftop-0.17.tar.gz

(4 进入到解压的的iftop目录中

cdiftop-0.17

配置并制定安装目录为/usr/local/iftop目录下

(5./configure –prefix=/usr/local/iftop

(6)编译并安装

make &amp;&amp; make install

安装完成以后直接使用/usr/local/iftop/sbin/iftop 启动iftop程序查看流量使用情况,如果想使用iftop的方式直接开启程序,需要将iftop的程序添加到环境变量中即可

linux 故障监控必备五款软件

安装iostat和mpstat工具 http://www.linuxidc.com/Linux/2013-10/91570.htm

     本文转自yzy121403725 51CTO博客,原文链接:http://blog.51cto.com/lookingdream/1919952,如需转载请自行联系原作者

继续阅读