一、系統概況
1. 作業系統基本資訊:uname -a将依次顯示 作業系統名稱,hostname,作業系統大版本資訊,作業系統小版本資訊,硬體類型,cpu類型,平台資訊。
2. 核心資訊:修改/etc/system檔案更改預設的核心參數,modinfo顯示子產品資訊,sysdef顯示驅動和核心參數資訊。
3. CPU資訊:/usr/sbin/psrinfo -v顯示cpu狀态,數量,cpu類型和主頻。
4. 記憶體資訊:prtconf | grep "Memory size"顯示記憶體大小。
5. 硬碟/光驅資訊:iostat -En顯示硬碟和光驅的硬體位址,各種狀态資訊,型号及硬碟大小。可以通過該指令檢查是否出現過各類錯誤。
6. 網卡資訊:ifconfig -a ,顯示網卡名稱,狀态,最大傳輸單元mtu,ip位址,子網路遮罩,廣播位址。
7. HA資訊:
8. 網絡資訊:netstat -rn顯示靜态路由和預設路由。
9. 包pkg資訊 :pkginfo -l pkgname。通過它判定某個pkg是否安裝,相關的還有pkgadd,pkgrm,pkgchk。
10. 更新檔patch資訊:showrev -p。安裝某些軟體需要特定的patch,通過它判斷。
11. 檔案系統資訊:df -k監測capacity判斷是否出現空間不足。
12. 使用者資訊:who顯示目前線上使用者。whodo顯示目前使用者進行的操作。 通過useradd,groupadd或admintool進行使用者的管理。id顯示目前使用者的login name,login id, group name group name。
5.1.2系統監控
1. cpu性能監控:vmstat /mpstat和sar,vmstat和sar在SMP系統中顯示彙總資訊,而mpstat可以顯示每顆CPU的負載。vmstat監控procs下的r和b數目,它反映目前處于運作和阻滞狀态的程序數目,如果r數目長期大于cpu數目同時cpu下的us+sy >80,表示cpu處理能力不足。
2. 記憶體監控:vmstat,監控memory下的free和page下的pi/po,pi/po反映每秒鐘以k為機關換進/換出的數量。如果free的數目很小同時pi/po數目長時間大于0,則表示記憶體不足。
3. 硬碟監控:iostat -d 和sar -d,可以看到每塊硬碟及硬碟的每個分區的工作情況
4. 交換區監控:swap -l和swap -s,應盡量将交換區的放置在負載較輕的硬碟上。同時交換區的使用百分比不應過高。
5. HA系統監控:
6. 網絡監控:netstat -in顯示每塊網卡的工作負載情況。Ipkts/Opkts發送包和接受包的情況。Ierrs/oerrs,collis表示發生的錯誤和沖突。
Ierrs/Ipkts或Oerrs/Opkts >2%,表示網絡沖突嚴重。
7. 端口監控:監控某個服務是否啟動或正常運作,
netstat -an |grep portnum或tcpdump |grep portnum。
8. 硬體故障診斷:/usr/platform/`uname -m`/sbin/prtdiag -v通過輸出結果判定有無硬體故障。
9. syslogd日志監控,,syslogd背景程序将系統運作中的資訊寫入/var/adm/messages檔案中,通過它來監控有無異常的軟硬體錯誤資訊的出現。
較早一點的資訊存在同一目錄下的messages.0,message.1檔案中。
10. mail監控:某些使用者通過crontab定時執行任務,任務完成後,cron程序會給使用者發mail,通過察看mail判斷任務是否完成。在系統出異常的情況下,syslogd會發給root使用者mail。是以root使用者的mail需要特别注意。
11. 程序監控:通過ps,prstat指令或/usr/dt/bin/sdtprocess工具監控特别消耗資源的程序。sdtprocess是圖形工具,可以按照cpu和mem的使用及執行時間排序。prstat統計系統的活動程序并按需要的順序排序。
12. 系統運作時間監控:uptime衡量一個機器開時長及系統負載的指令。uptime顯示的時間越大,說明機器越穩定。
13. 系統運作級别監控:who -r顯示目前機器的運作級