天天看點

Linux“體檢”名額

在“求佛保佑伺服器不當機”、“殺程式員祭天”的環境下,程式員每天可謂是戰戰兢兢,接到電話和短信都吓得瑟瑟發抖,為了我們的安全,及時發現伺服器運作問題已不僅僅是運維的問題了。本文總結了常見的伺服器監控名額,希望各位開發人員都搞一個腳本運作着以保障自己的生命安全。

前言

在“求佛保佑伺服器不當機”、“殺程式員祭天”的環境下,程式員每天可謂是戰戰兢兢,接到電話和短信都吓得瑟瑟發抖,為了我們的安全,及時發現伺服器運作問題已不僅僅是運維的問題了。今天總結一下常見的伺服器監控名額,希望各位開發人員都搞一個腳本運作着以保障自己的生命安全。

文章經常被人爬,而且還不注明原位址,我在這裡的更新和糾錯沒法同步,這裡注明一下原文位址:http://www.cnblogs.com/zhenbianshu/p/7683496.html 

擷取伺服器資訊

多台機器同時需要監控時,每台機器都需要運作一個監控程式,我們首先要擷取伺服器的資訊以分辨機器,發生問題時,也可以評估問題的嚴重性。

擷取IP

擷取内網IP:

通過ifconfig指令擷取全部的網絡資訊,并排除掉本地host和ipv6資訊。

/sbin/ifconfig | grep inet | grep -v '127.0.0.1' | grep -v inet6 | awk '{print $2}' | tr -d "addr:"

注意這裡要使用

ifconfig

的絕對路徑,因為如果監控腳本運作在 crontab 的話,執行時是不會帶有環境資訊的。

擷取外網IP:

外網的IP我們可以通過請求别的網站來回顯,有一些網站提供此服務,如

ipecho.net/plain

或者我自己懶得搭建的網站:

alwayscoding.net

指令如下

curl alwayscoding.net

擷取系統資訊

擷取系統資訊建議使用

lsb_release -a

方法:

lsb_release -a
LSB Version:    :base-4.0-amd64:base-4.0-noarch:core-4.0-amd64:core-4.0-noarch
Distributor ID: CentOS
Description:    CentOS release 6.5 (Final)
Release:    6.5
Codename:   Final           

資訊比較豐富,可以截取字元串中需要的部分;

CPU

CPU 負載是我們要監控的首要名額,我們常說的系統負載指的就是它,它是指

一段時間内CPU處理程序數占 CPU 能處理最大程序數的比例

,即一個 CPU 的最大負載是

1.0

,這種情況 CPU 正好能将所有程序執行完,超出這個限制,系統會進入 over load 超載狀态,就會有程序需要等待其他程序執行結束。我們一般認為CPU負載在

0.6

以下是健康狀态。

在終端上檢視系統負載通常使用

top

指令,但它是互動型的,且資料較多較雜,不利于寫監控腳本,我們一般使用

uptime

通過其

average load

字段擷取最近 1分鐘、5分鐘、15分鐘的平均負載。

uptime
16:03:30 up 130 days, 23:33,  1 user,  load average: 4.62, 4.97, 5.08           

此時系統平均負載約為 5,不是系統已經超載,也沒有顯示錯誤,這是因為在考慮負載時還要考慮 CPU 的核心數,多核 CPU 同時能處理的程序數與其核數成正比,其最大負載不是 1,而是其 CPU 核心數 N。

我們使用

nproc

可以檢視系統 CPU 核心數,我正在使用的這台機器核心數是 16,是以其最大負載是16,平均負載是 5/16 = 0.32 , CPU 處于健康狀态。

記憶體

記憶體是我們要監控的另外一項核心名額,記憶體占用率太高,無疑會導緻程序無法正常配置設定記憶體執行。

我們也可以通過 top 指令檢視記憶體占用,但監控中更常用

free

指令:

free -m
             total       used       free     shared    buffers     cached
Mem:         32108      18262      13846          0        487      11544
-/+ buffers/cache:       6230      25878
Swap:            0          0          0           

我們首先來看 Mem 這一行,共 32108M 記憶體,已使用 18262M,剩餘 13846,那麼記憶體的使用率就是 18262/32108*100% = 56.88%。那麼,後面的shared、buffers、cached 又是什麼意思呢?

其實在 linux 中,記憶體的配置設定也是懶惰原則,在記憶體配置設定給一個程序,程序執行完畢後 linux 是不會立即清理記憶體的,而是把這一部分記憶體當作緩存存儲起來,如果此程序再啟動就不必再重新加載了;如果可用記憶體使用完了,則将這一部分緩存清空,重新利用。這樣來看

used 裡的 buffers 和 cached 部分是随時可被重用

的,不能算作被占用。而 shared 是程序共享記憶體部分,會作為被占用部分,但一般較少使用,與此相關的内容,可以看文末的參考文章。

真實資料是第三行的去除 buffers 和 cache 的部分,即真正的記憶體使用率是

6230/(6230+25878)*100% = 19.4%

而第四行的 swap 是用來臨時存儲記憶體 buffers 和 cache 的,正常情況雖然能加快程序的重新開機,但實體記憶體較少的情況下,會引起 swap 的頻繁讀寫,增加伺服器的 IO 壓力,用與不用視情況而定。

網絡

網絡在 linux 作為 web 伺服器時也是一項很重要的名額,相關指令有很多,但各有所長,我們一般監控以下狀态:

使用netstat檢視監聽端口。

netstat -an | grep LISTEN | grep tcp | grep 80

檢視是否有程序正在監控80端口。

使用ping監控網絡連接配接

使用

ping

指令可以檢視網絡是否連接配接,使用 -c 選項來控制請求次數,使用 -w 選項來控制逾時時間(機關:毫秒),最後利用

&&

符号的

短路

特性來控制結果輸出:

ping -w 100 -c 1 weibo.com &>/dev/null && echo "connected"

硬碟

硬碟不是特别重要的監控名額,但在硬碟滿的時候寫檔案失敗也會影響程序的正常執行。

df

指令來檢視磁盤的使用狀态,-h 會以易讀格式輸出:

df -h
Filesystem      Size  Used Avail Use% Mounted on
/dev/vda1        40G  6.0G   32G  16% /
tmpfs            16G     0   16G   0% /dev/shm
/dev/vdb1       296G   16G  265G   6% /data0           

我們可以使用 grep 指令找到想要查詢的挂載節點,再使用 awk 指令擷取結果字段。

另外使用

du [-h] /path/to/dir [--max-depth=n]

可以檢視某目錄的大小,注意使用

--max-depth=n

控制周遊深度。

運作/其他

其他的監控狀态主要包括程序錯誤日志監控,請求數監控,程序存在狀态監控等,這些可以用到一些基本指令了,如

ps

等。

更詳細的資訊就需要使用程序日志了,使用

grep 、awk

等指令來分析日志來擷取更詳細的資訊。

總結

最後是監控結果的統計了,可以使用一般的“推”和“拉”方式,建議各機器把結果推到一台機器上進行統計和報警。也可以使用

rsync

方式從各伺服器拉取,報警方式像企業微信、短信、郵件等就按要需配置了。

最後,系統監控是個重要且需要持續關注的事情,祝大家的伺服器永不當機。

關于本文有什麼問題可以在下面留言交流,如果您覺得本文對您有幫助,可以點選下面的

推薦

支援一下我,部落格一直在更新,歡迎

關注

參考:

了解Linux系統負荷-阮一峰

linux記憶體中的cache真的能被回收麼?

繼續閱讀