一、告警系統主腳本
我們要養成習慣,把shell腳本放到/usr/local/sbin/目錄下,友善我們查找
[root@linux-01 ~]# cd /usr/local/sbin/
[root@linux-01 sbin]# mkdir mon
[root@linux-01 sbin]# cd mon/
[root@linux-01 mon]# mkdir bin conf shares log mail
[root@linux-01 mon]# cd bin/ //主腳本放到bin目錄下,主腳本作為入口,需要判斷配置檔案,檢視xx監控項目是否需要監控,去調取各個需要監控的子腳本
[root@linux-01 bin]# vim main.sh
#!/bin/bash
#Written by aming.
#是否發送郵件的開關
export send=1
#過濾ip位址
export addr=
/sbin/ifconfig |grep -A1 "ens33: "|awk '/inet/ {print $2}'
dir=
pwd
#隻需要最後一級目錄名
last_dir=
echo $dir|awk -F'/' '{print $NF}'
#下面的判斷目的是,保證執行腳本的時候,我們在bin目錄裡,不然監控腳本、郵件和日>志很有可能找不到
if [ $last_dir == "bin" ] || [ $last_dir == "bin/" ]; then
conf_file="../conf/mon.conf"
else
echo "you shoud cd bin dir"
exit
fi
exec 1>>../log/mon.log 2>>../log/err.log
echo "
date +"%F %T"
load average"
/bin/bash ../shares/load.sh
#先檢查配置檔案中是否需要監控502
if grep -q 'to_mon_502=1' $conf_file; then
export log=
grep 'logfile=' $conf_file |awk -F '=' '{print $2}' |sed 's/ //g'
/bin/bash ../shares/502.sh
fi
//腳本解釋:export send=1,這裡send定義為1,以下所有監控都會發郵件告警,如果系統處于維護狀态,我們需要把告警先暫停下,讓它不發告警郵件,但是監控還是正常,引用export意味着send這個變量和應用在所有的子腳本裡面;
export addr中addr的目的是告訴我們發郵件的是哪個機器,分布式不需要用戶端,每台機器獨立運作,export addr=
/sbin/ifconfig |grep -A1 "ens33: "|awk '/inet/ {print $2}'
這裡需要注意,網卡名稱注意要修改為自己機器上的網卡名稱;
pwd
檢視下目前路徑;
echo $dir|awk -F'/' '{print $NF}'
表示過濾出最後一行目錄;
fi //這一段判斷是否在bin目錄下,必須在bin目錄下才能執行mail.sh腳本;
exec 1>>../log/mon.log 2>>../log/err.log輸出正确日志和錯誤日志;
date +"%F %T"
load average"标記時間,求出系統負載,因為系統負載是每台機器必須監控的項目,我們可以把這一項放到主腳本中;
/bin/bash ../shares/load.sh 主腳本中調用子腳本
二、告警系統配置檔案
[root@linux-01 mon]# cd /usr/local/sbin/mon/conf
[root@linux-01 conf]# vim mon.conf
##to config the options if to monitor
##定義mysql的伺服器位址、端口以及user、password
to_mon_cdb=0 ##0 or 1, default 0,0 not monitor, 1 monitor
db_ip=10.20.3.13
db_port=3315
db_user=username
db_pass=passwd
#httpd 如果是1則監控,為0不監控
to_mon_httpd=0
#php 如果是1則監控,為0不監控
to_mon_php_socket=0
#http_code_502 需要定義通路日志的路徑
to_mon_502=1
logfile=/data/log/xxx.xxx.com/access.log
#request_count 定義日志路徑以及域名
to_mon_request_count=0
req_log=/data/log/www.discuz.net/access.log
domainname=www.discuz.net
//腳本解釋:to_mon_cdb=0 是否監控cdb資料庫,如果監控就是1,不監控就是0,在主腳本中會過濾這個數字,如果是1,就會執行這個子腳本,如果是0,就不執行子腳本;
要想使自己的腳本相容性很強,需要把各個日志檔案載入到配置檔案裡,這樣修改起來很友善;
三、告警系統監控項目
[root@linux-01 conf]# cd /usr/local/sbin/mon/shares/ //把監控項目放到shares路徑下
1、系統負載腳本:load.sh
[root@linux-01 shares]# vim load.sh
#! /bin/bash
##Writen by aming##
load=
uptime |awk -F 'average:' '{print $2}'|cut -d',' -f1|sed 's/ //g' |cut -d. -f1
if [ $load -gt 10 ] && [ $send -eq "1" ]
then
echo "$addr
date +%T
load is $load" >../log/load.tmp
/bin/bash ../mail/mail.sh [email protected] "$addr_load:$load"
cat ../log/load.tmp
date +%T
load is $load"
//腳本解釋:
[root@linux-01 shares]# uptime |awk -F 'average:' '{print $2}'|cut -d',' -f1|sed 's/ //g' |cut -d. -f1
0 //使用這個指令可以檢視到load的值;
if [ $load -gt 10 ] && [ $send -eq "1" ]判斷系統負載是否高于指定的門檻值10并且send開關等于1;
date +%T
load is $load" >../log/load.tmp 輸出一條日志,顯示機器IP,時間,負載是多少,其中../log/load.tmp 是發郵件用到;
cat ../log/load.tmp會調用mail.sh和mail.py腳本,發送郵件;<br/>echo "
date +%T` load is $load"記錄一條日志
2、502狀态碼腳本:
[root@linux-01 shares]# vim 502.sh
d=
date -d "-1 min" +%H:%M
c_502=
grep :$d: $log |grep ' 502 '|wc -l
if [ $c_502 -gt 10 ] && [ $send == 1 ]; then
echo "$addr $d 502 count is $c_502">../log/502.tmp
/bin/bash ../mail/mail.sh $addr_502 $c_502 ../log/502.tmp
date +%T
502 $c_502"