在“求佛保佑伺服器不當機”、“殺程式員祭天”的環境下，程式員每天可謂是戰戰兢兢，接到電話和短信都吓得瑟瑟發抖，為了我們的安全，及時發現伺服器運作問題已不僅僅是運維的問題了。本文總結了常見的伺服器監控名額，希望各位開發人員都搞一個腳本運作着以保障自己的生命安全。

前言

在“求佛保佑伺服器不當機”、“殺程式員祭天”的環境下，程式員每天可謂是戰戰兢兢，接到電話和短信都吓得瑟瑟發抖，為了我們的安全，及時發現伺服器運作問題已不僅僅是運維的問題了。今天總結一下常見的伺服器監控名額，希望各位開發人員都搞一個腳本運作着以保障自己的生命安全。

文章經常被人爬，而且還不注明原位址，我在這裡的更新和糾錯沒法同步，這裡注明一下原文位址：http://www.cnblogs.com/zhenbianshu/p/7683496.html

擷取伺服器資訊

多台機器同時需要監控時，每台機器都需要運作一個監控程式，我們首先要擷取伺服器的資訊以分辨機器，發生問題時，也可以評估問題的嚴重性。

擷取IP

擷取内網IP：

通過ifconfig指令擷取全部的網絡資訊，并排除掉本地host和ipv6資訊。

/sbin/ifconfig | grep inet | grep -v '127.0.0.1' | grep -v inet6 | awk '{print $2}' | tr -d "addr:"

注意這裡要使用

ifconfig

的絕對路徑，因為如果監控腳本運作在 crontab 的話，執行時是不會帶有環境資訊的。

擷取外網IP：

外網的IP我們可以通過請求别的網站來回顯，有一些網站提供此服務，如

ipecho.net/plain

或者我自己懶得搭建的網站：

alwayscoding.net

。

指令如下

curl alwayscoding.net

擷取系統資訊

擷取系統資訊建議使用

lsb_release -a

方法：

lsb_release -a
LSB Version:    :base-4.0-amd64:base-4.0-noarch:core-4.0-amd64:core-4.0-noarch
Distributor ID: CentOS
Description:    CentOS release 6.5 (Final)
Release:    6.5
Codename:   Final

資訊比較豐富，可以截取字元串中需要的部分；

CPU

CPU 負載是我們要監控的首要名額，我們常說的系統負載指的就是它，它是指

一段時間内CPU處理程序數占 CPU 能處理最大程序數的比例

，即一個 CPU 的最大負載是

1.0

，這種情況 CPU 正好能将所有程序執行完，超出這個限制，系統會進入 over load 超載狀态，就會有程序需要等待其他程序執行結束。我們一般認為CPU負載在

0.6

以下是健康狀态。

在終端上檢視系統負載通常使用

top

指令，但它是互動型的，且資料較多較雜，不利于寫監控腳本，我們一般使用

uptime

通過其

average load

字段擷取最近 1分鐘、5分鐘、15分鐘的平均負載。

uptime
16:03:30 up 130 days, 23:33,  1 user,  load average: 4.62, 4.97, 5.08

此時系統平均負載約為 5，不是系統已經超載，也沒有顯示錯誤，這是因為在考慮負載時還要考慮 CPU 的核心數，多核 CPU 同時能處理的程序數與其核數成正比，其最大負載不是 1，而是其 CPU 核心數 N。

我們使用

nproc

可以檢視系統 CPU 核心數，我正在使用的這台機器核心數是 16，是以其最大負載是16，平均負載是 5/16 = 0.32 ， CPU 處于健康狀态。

記憶體

記憶體是我們要監控的另外一項核心名額，記憶體占用率太高，無疑會導緻程序無法正常配置設定記憶體執行。

我們也可以通過 top 指令檢視記憶體占用，但監控中更常用

free

指令：

free -m
             total       used       free     shared    buffers     cached
Mem:         32108      18262      13846          0        487      11544
-/+ buffers/cache:       6230      25878
Swap:            0          0          0

我們首先來看 Mem 這一行，共 32108M 記憶體，已使用 18262M，剩餘 13846，那麼記憶體的使用率就是 18262/32108*100% = 56.88%。那麼，後面的shared、buffers、cached 又是什麼意思呢？

其實在 linux 中，記憶體的配置設定也是懶惰原則，在記憶體配置設定給一個程序，程序執行完畢後 linux 是不會立即清理記憶體的，而是把這一部分記憶體當作緩存存儲起來，如果此程序再啟動就不必再重新加載了；如果可用記憶體使用完了，則将這一部分緩存清空，重新利用。這樣來看

used 裡的 buffers 和 cached 部分是随時可被重用

的，不能算作被占用。而 shared 是程序共享記憶體部分，會作為被占用部分，但一般較少使用，與此相關的内容，可以看文末的參考文章。

真實資料是第三行的去除 buffers 和 cache 的部分，即真正的記憶體使用率是

6230/(6230+25878)*100% = 19.4%

而第四行的 swap 是用來臨時存儲記憶體 buffers 和 cache 的，正常情況雖然能加快程序的重新開機，但實體記憶體較少的情況下，會引起 swap 的頻繁讀寫，增加伺服器的 IO 壓力，用與不用視情況而定。

網絡

網絡在 linux 作為 web 伺服器時也是一項很重要的名額，相關指令有很多，但各有所長，我們一般監控以下狀态：

使用netstat檢視監聽端口。

netstat -an | grep LISTEN | grep tcp | grep 80

檢視是否有程序正在監控80端口。

使用ping監控網絡連接配接

使用

ping

指令可以檢視網絡是否連接配接，使用 -c 選項來控制請求次數，使用 -w 選項來控制逾時時間（機關：毫秒），最後利用

&&

符号的

短路

特性來控制結果輸出:

ping -w 100 -c 1 weibo.com &>/dev/null && echo "connected"

硬碟

硬碟不是特别重要的監控名額，但在硬碟滿的時候寫檔案失敗也會影響程序的正常執行。

df

指令來檢視磁盤的使用狀态，-h 會以易讀格式輸出：

df -h
Filesystem      Size  Used Avail Use% Mounted on
/dev/vda1        40G  6.0G   32G  16% /
tmpfs            16G     0   16G   0% /dev/shm
/dev/vdb1       296G   16G  265G   6% /data0

我們可以使用 grep 指令找到想要查詢的挂載節點，再使用 awk 指令擷取結果字段。

另外使用

du [-h] /path/to/dir [--max-depth=n]

可以檢視某目錄的大小，注意使用

--max-depth=n

控制周遊深度。

運作/其他

其他的監控狀态主要包括程序錯誤日志監控，請求數監控，程序存在狀态監控等，這些可以用到一些基本指令了，如

ps

等。

更詳細的資訊就需要使用程序日志了，使用

grep 、awk

等指令來分析日志來擷取更詳細的資訊。

總結

最後是監控結果的統計了，可以使用一般的“推”和“拉”方式，建議各機器把結果推到一台機器上進行統計和報警。也可以使用

rsync

方式從各伺服器拉取，報警方式像企業微信、短信、郵件等就按要需配置了。

最後，系統監控是個重要且需要持續關注的事情，祝大家的伺服器永不當機。

關于本文有什麼問題可以在下面留言交流，如果您覺得本文對您有幫助，可以點選下面的

推薦

支援一下我，部落格一直在更新，歡迎

關注

參考：

了解Linux系統負荷-阮一峰

linux記憶體中的cache真的能被回收麼？

Linux“體檢”名額

擷取伺服器資訊

擷取IP

擷取系統資訊

CPU

記憶體

網絡

使用netstat檢視監聽端口。

使用ping監控網絡連接配接

硬碟

運作/其他

總結

繼續閱讀

linux-svn解除安裝與安裝

vsftp虛拟多使用者多權限一鍵部署腳本

Ubuntu14.04 LTS下安裝mongodb

httpd服務的部署、啟動、配置和簡單優化一、部署二、啟動三、配置檔案

配置網頁内容通路

艱難安裝LDAP,SSL認證

Apache配置SSLApache配置SSL

手動安裝Intel network I217-LM網卡的Linux驅動

Windows下配置Apache的SSL服務

禁止ubuntu系統彈出報錯界面

Ubuntu Linux下Apache的配置檔案

samba伺服器的功能

【Linux】UDP廣播封包接收速率問題

Linux裝置模型（中）之上層容器

PowerPC平台 Linux移植三