檢視多核CPU指令
mpstat -P ALL 和 sar -P ALL
說明:sar -P ALL > aaa.txt 重定向輸出内容到檔案 aaa.txt
top指令經常用來監控linux的系統狀況,比如cpu、記憶體的使用,程式員基本都知道這個指令,但比較奇怪的是能用好它的人卻很少,例如top監控視圖中記憶體數值的含義就有不少的曲解。
本文通過一個運作中的WEB伺服器的top監控截圖,講述top視圖中的各種資料的含義,還包括視圖中各程序(任務)的字段的排序。
top進入視圖
top視圖 01
【top視圖 01】是剛進入top的基本視圖,我們來結合這個視圖講解各個資料的含義。
第一行:
10:01:23 — 目前系統時間
126 days, 14:29 — 系統已經運作了126天14小時29分鐘(在這期間沒有重新開機過)
2 users — 目前有2個使用者登入系統
load average: 1.15, 1.42, 1.44 — load average後面的三個數分别是1分鐘、5分鐘、15分鐘的負載情況。
load average資料是每隔5秒鐘檢查一次活躍的程序數,然後按特定算法計算出的數值。如果這個數除以邏輯CPU的數量,結果高于5的時候就表明系統在超負荷運轉了。
第二行:
Tasks — 任務(程序),系統現在共有183個程序,其中處于運作中的有1個,182個在休眠(sleep),stoped狀态的有0個,zombie狀态(僵屍)的有0個。
第三行:cpu狀态
6.7% us — 使用者空間占用CPU的百分比。
0.4% sy — 核心空間占用CPU的百分比。
0.0% ni — 改變過優先級的程序占用CPU的百分比
92.9% id — 空閑CPU百分比
0.0% wa — IO等待占用CPU的百分比
0.0% hi — 硬中斷(Hardware IRQ)占用CPU的百分比
0.0% si — 軟中斷(Software Interrupts)占用CPU的百分比
在這裡CPU的使用比率和windows概念不同,如果你不了解使用者空間和核心空間,需要充充電了。
第四行:記憶體狀态
8306544k total — 實體記憶體總量(8GB)
7775876k used — 使用中的記憶體總量(7.7GB)
530668k free — 空閑記憶體總量(530M)
79236k buffers — 緩存的記憶體量 (79M)
第五行:swap交換分區
2031608k total — 交換區總量(2GB)
2556k used — 使用的交換區總量(2.5M)
2029052k free — 空閑交換區總量(2GB)
4231276k cached — 緩沖的交換區總量(4GB)
這裡要說明的是不能用windows的記憶體概念了解這些資料,如果按windows的方式此台伺服器“危矣”:8G的記憶體總量隻剩下530M的可用記憶體。Linux的記憶體管理有其特殊性,複雜點需要一本書來說明,這裡隻是簡單說點和我們傳統概念(windows)的不同。
第四行中使用中的記憶體總量(used)指的是現在系統核心控制的記憶體數,空閑記憶體總量(free)是核心還未納入其管控範圍的數量。納入核心管理的記憶體不見得都在使用中,還包括過去使用過的現在可以被重複利用的記憶體,核心并不把這些可被重新使用的記憶體交還到free中去,是以在linux上free記憶體會越來越少,但不用為此擔心。
如果出于習慣去計算可用記憶體數,這裡有個近似的計算公式:第四行的free + 第四行的buffers + 第五行的cached,按這個公式此台伺服器的可用記憶體:530668+79236+4231276 = 4.7GB。
對于記憶體監控,在top裡我們要時刻監控第五行swap交換分區的used,如果這個數值在不斷的變化,說明核心在不斷進行記憶體和swap的資料交換,這是真正的記憶體不夠用了。
第六行是空行
第七行以下:各程序(任務)的狀态監控
PID — 程序id
USER — 程序所有者
PR — 程序優先級
NI — nice值。負值表示高優先級,正值表示低優先級
VIRT — 程序使用的虛拟記憶體總量,機關kb。VIRT=SWAP+RES
RES — 程序使用的、未被換出的實體記憶體大小,機關kb。RES=CODE+DATA
SHR — 共享記憶體大小,機關kb
S — 程序狀态。D=不可中斷的睡眠狀态 R=運作 S=睡眠 T=跟蹤/停止 Z=僵屍程序
%CPU — 上次更新到現在的CPU時間占用百分比
%MEM — 程序使用的實體記憶體百分比
TIME+ — 程序使用的CPU時間總計,機關1/100秒
COMMAND — 程序名稱(指令名/指令行)
多U多核CPU監控
在top基本視圖中,按鍵盤數字“1”,可監控每個邏輯CPU的狀況:
top視圖 02
觀察上圖,伺服器有16個邏輯CPU,實際上是4個實體CPU。
程序字段排序
預設進入top時,各程序是按照CPU的占用量來排序的,在【top視圖 01】中程序ID為14210的java程序排在第一(cpu占用100%),程序ID為14183的java程序排在第二(cpu占用12%)。可通過鍵盤指令來改變排序字段,比如想監控哪個程序占用MEM最多,我一般的使用方法如下:
1. 敲擊鍵盤“b”(打開/關閉加亮效果),top的視圖變化如下:
top視圖 03
我們發現程序id為10704的“top”程序被加亮了,top程序就是視圖第二行顯示的唯一的運作态(runing)的那個程序,可以通過敲擊“y”鍵關閉或打開運作态程序的加亮效果。
2. 敲擊鍵盤“x”(打開/關閉排序列的加亮效果),top的視圖變化如下:
top視圖 04
可以看到,top預設的排序列是“%CPU”。
3. 通過”shift + >”或”shift + <”可以向右或左改變排序列,下圖是按一次”shift + >”的效果圖:
top視圖 05
視圖現在已經按照%MEM來排序了。
改變程序顯示字段
1. 敲擊“f”鍵,top進入另一個視圖,在這裡可以編排基本視圖中的顯示字段:
top視圖 06
這裡列出了所有可在top基本視圖中顯示的程序字段,有”*”并且标注為大寫字母的字段是可顯示的,沒有”*”并且是小寫字母的字段是不顯示的。如果要在基本視圖中顯示“CODE”和“DATA”兩個字段,可以通過敲擊“r”和“s”鍵:
top視圖 07
2. “回車”傳回基本視圖,可以看到多了“CODE”和“DATA”兩個字段:
top視圖 08
top指令的補充
top指令是Linux上進行系統監控的首選指令,但有時候卻達不到我們的要求,比如目前這台伺服器,top監控有很大的局限性。這台伺服器運作着websphere叢集,有兩個節點服務,就是【top視圖 01】中的老大、老二兩個java程序,top指令的監控最小機關是程序,是以看不到我關心的java線程數和客戶連接配接數,而這兩個名額是java的web服務非常重要的名額,通常我用ps和netstate兩個指令來補充top的不足。
監控java線程數:
ps -eLf | grep java | wc -l
代碼如下:
監控網絡客戶連接配接數:
netstat -n | grep tcp | grep 偵聽端口 | wc -l
上面兩個指令,可改動grep的參數,來達到更細緻的監控要求。
在Linux系統“一切都是檔案”的思想貫徹指導下,所有程序的運作狀态都可以用檔案來擷取。系統根目錄/proc中,每一個數字子目錄的名字都是運作中的程序的PID,進入任一個程序目錄,可通過其中檔案或目錄來觀察程序的各項運作名額,例如task目錄就是用來描述程序中線程的,是以也可以通過下面的方法擷取某程序中運作中的線程數量(PID指的是程序ID):
ls /proc/PID/task | wc -l
在linux中還有一個指令pmap,來輸出程序記憶體的狀況,可以用來分析線程堆棧:
pmap PID
利用下面的指令可以取出占用最高的程序号和程序名字,利用情景是,可以放到shell腳本中,沒幾秒鐘監控CPU負載。
[root@demo ~]# top -b -n 1|awk 'NR==8{print $9,$NF}'
0.0 init
[root@demo ~]#
本文轉自寫個部落格騙錢部落格51CTO部落格,原文連結http://blog.51cto.com/dadonggg/1955690如需轉載請自行聯系原作者
菜鳥東哥