天天看點

伺服器硬體監控之OMSA

       前一周上架伺服器,本來準備把針對伺服器的硬體監控這一部分總結下成文,結果過個端午給過忘了。。。今天就又整理了下,在這裡分享給51博友,也算是對自己前段工作的一個總結。

       在對伺服器的硬體監控上,目前業界主要基于如下兩種:

       1、伺服器自帶的工具,比如HP的hpacucli,DELL的OMSA等

       2、智能平台管理接口 (IPMI,全稱Intelligent Platform Management Interface)

       基于以上兩種,通過nagios、zabbix或自研運維平台等包裹,進行預警操作。

       由于部落客公司使用的伺服器全部為DELL PowerEdge系列的,是以部落客這裡将以如何對DELL PowerEdge系列伺服器硬體進行監控這一實際案例為主。

一、OMSA 介紹

       DELL OMSA的全稱為Dell Openmanage Server Administrator,它是戴爾公司基于自主研發力量開發的IT系統管了解決方案,通過與業内領先的系統管了解決方案供應商密切配合,在深入了解使用者對系統管理需求的基礎上,OMSA系統管理方案可以全面解決系統管理人員最關心的系統部署、系統監控和系統變更三大系統管理問題。它通過提供以下兩種方式來對本地和遠端的伺服器進行管理和監控。

       1、基于Web浏覽器的內建圖形使用者界面(GUI)

       2、作業系統的指令行界面(CLI)工具

大家可能對DELL的IDRAC更熟悉一點,OMSA其實就是 IDRAC企業版的開源社群版。這裡列出IDRAC和OMSA的web界面,兩者看着非常相似,功能上也是非常相似。

IDRAC:

<a href="http://s3.51cto.com/wyfs02/M00/6E/D0/wKioL1WJG7aT9U-wAANhaTogQ1Q904.jpg" target="_blank"></a>

OMSA:

<a href="http://s3.51cto.com/wyfs02/M01/6E/D0/wKioL1WJG82ByjVfAANhourPBYI801.jpg" target="_blank"></a>

二、OMSA 部署

       下面介紹如何安裝使用OMSA。由于我們公司主要使用的是紅帽系列的産品,是以這裡列舉RHEL6和CentOS6部署方式。

RHEL 6.X 平台安裝 OMSA:

       在RHEL6上部署OMSA,由于DELL售後那邊發給我過資料,這裡我就不在重複寫了,貼上DELL售後的資料,非常的詳盡。

       最新版本的OMSA 8.1下載下傳連結:http://downloads.dell.com/FOLDER02876154M/1/OM-SrvAdmin-Dell-Web-LX-8.1.0-1518.RHEL6.x86_64_A00.tar.gz

       安裝連結:http://zh.community.dell.com/techcenter/systems-management/w/wiki/561.omsalinux

CentOS 6.X 平台安裝 OMSA:

       CentOS 6.x系列的,其實也可以使用和RHEL6一樣的方式安裝,隻不過需要修改腳本裡面的一些東西。我們可以使用dell官方提供的yum源,直接使用yum來在CentOS上安裝OMSA。

下面附上安裝步驟:

1、安裝dell的yum源

1

<code>[root@kvm-phy04-jz ~]</code><code># wget -q -O - http://linux.dell.com/repo/hardware/latest/bootstrap.cgi | bash</code>

2、安裝必要的2個包

<code>[root@kvm-phy04-jz ~]</code><code># yum -y install OpenIPMI srvadmin-all</code>

3、啟動服務

<code>[root@kvm-phy04-jz ~]</code><code># /opt/dell/srvadmin/sbin/srvadmin-services.sh start</code>

4、設定開機自啟動

2

3

4

5

6

<code>[root@kvm-phy04-jz ~]</code><code># /opt/dell/srvadmin/sbin/srvadmin-services.sh enable</code>

<code>racsvc          0:off   1:off   2:on    3:on    4:on    5:on    6:off</code>

<code>dataeng         0:off   1:off   2:on    3:on    4:on    5:on    6:off</code>

<code>dsm_om_shrsvc   0:off   1:off   2:on    3:on    4:on    5:on    6:off</code>

<code>dsm_om_connsvc  0:off   1:off   2:off   3:on    4:off   5:on    6:off</code>

<code>ipmi            0:off   1:off   2:on    3:on    4:on    5:on    6:off</code>

5、通過web通路OMSA界面

使用浏覽器通路https://ip_address:1311打開OMSA的web頁面。這裡注意,一定要使用https去通路,否則頁面會打不開。

<a href="http://s3.51cto.com/wyfs02/M01/6E/D4/wKiom1WJGlmgelNUAAFt5LJcIes144.jpg" target="_blank"></a>

注意 : 這裡的使用者名和密碼使用的是系統的使用者名密碼,這地方和IDRAC是不一樣的。

這樣子,OMSA就安裝好了,web管理頁面也可以使用了。

精簡OMSA元件:

       雖然 OMSA 的web端功能很強大,但是在工作當中,我們的主要目的并非是使用它的web端,更多時間隻是想使用它提供的一些指令行工具來擷取伺服器主要元件的相關資訊,比如CPU、記憶體、硬碟、陳列和主機闆溫度之類的健康狀況。是以,我們沒有必要安裝OMSA的web端。

下面就是解除安裝OMSA的web端相關的包:

<code>[root@kvm-phy04-jz ~]</code><code># yum remove -y srvadmin-tomcat srvadmin-jre srvadmin-smweb</code>

删除相關的無用内容:

<code>[root@kvm-phy04-jz ~]</code><code># rm -rf /opt/dell/srvadmin/lib64/openmanage/apache-tomcat</code>

上述操作執行完畢之後,OMSA的web端也就基本清理幹淨了,這裡列出系統中安裝的和OMSA相關的包:

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

<code>[root@kvm-phy04-jz ~]</code><code># rpm -qa|grep srvadmin</code>

<code>srvadmin-omcommon-8.1.0-4.92.1.el6.x86_64</code>

<code>srvadmin-xmlsup-8.1.0-4.91.1.el6.x86_64</code>

<code>srvadmin-storelib-8.1.0-4.139.1.el6.x86_64</code>

<code>srvadmin-storage-cli-8.1.0-4.138.2.el6.x86_64</code>

<code>srvadmin-racdrsc-8.1.0-4.4.7.el6.x86_64</code>

<code>srvadmin-storage-snmp-8.1.0-4.138.2.el6.x86_64</code>

<code>srvadmin-storageservices-cli-8.1.0-4.3.1.el6.x86_64</code>

<code>srvadmin-oslog-8.1.0-4.85.1.el6.x86_64</code>

<code>srvadmin-isvc-snmp-8.1.0-4.38.1.el6.x86_64</code>

<code>srvadmin-rac4-8.1.0-4.1.127.el6.x86_64</code>

<code>srvadmin-server-cli-8.1.0-4.3.1.el6.x86_64</code>

<code>srvadmin-omilcore-8.1.0-4.85.1.el6.x86_64</code>

<code>srvadmin-racadm4-8.1.0-4.1.127.el6.x86_64</code>

<code>srvadmin-deng-8.1.0-4.8.1.el6.x86_64</code>

<code>srvadmin-hapi-8.1.0-4.10.2.el6.x86_64</code>

<code>srvadmin-ominst-8.1.0-4.94.3.el6.x86_64</code>

<code>srvadmin-omacore-8.1.0-4.94.3.el6.x86_64</code>

<code>srvadmin-storelib-sysfs-8.1.0-4.1.1.el6.x86_64</code>

<code>srvadmin-nvme-8.1.0-4.139.1.el6.x86_64</code>

<code>srvadmin-storage-8.1.0-4.138.2.el6.x86_64</code>

<code>srvadmin-sysfsutils-8.1.0-4.1.1.el6.x86_64</code>

<code>srvadmin-deng-snmp-8.1.0-4.8.1.el6.x86_64</code>

<code>srvadmin-racadm5-8.1.0-4.1.128.el6.x86_64</code>

<code>srvadmin-idracadm-8.1.0-4.4.7.el6.x86_64</code>

<code>srvadmin-racsvc-8.1.0-4.1.127.el6.x86_64</code>

<code>srvadmin-idrac-ivmcli-8.1.0-4.6.3.el6.x86_64</code>

<code>srvadmin-idrac-8.1.0-4.4.7.el6.x86_64</code>

<code>srvadmin-storageservices-snmp-8.1.0-4.3.1.el6.x86_64</code>

<code>srvadmin-rac4-populator-8.1.0-4.1.127.el6.x86_64</code>

<code>srvadmin-cm-8.1.0-4.1.249.el6.x86_64</code>

<code>srvadmin-server-snmp-8.1.0-4.3.1.el6.x86_64</code>

<code>srvadmin-itunnelprovider-8.1.0-4.27.1.el6.x86_64</code>

<code>srvadmin-omacs-8.1.0-4.92.1.el6.x86_64</code>

<code>srvadmin-isvc-8.1.0-4.38.1.el6.x86_64</code>

<code>srvadmin-smcommon-8.1.0-4.138.2.el6.x86_64</code>

<code>srvadmin-realssd-8.1.0-4.139.1.el6.x86_64</code>

<code>srvadmin-rac-components-8.1.0-4.4.7.el6.x86_64</code>

<code>srvadmin-argtable2-8.1.0-4.5.1.el6.x86_64</code>

<code>srvadmin-rac5-8.1.0-4.1.128.el6.x86_64</code>

<code>srvadmin-idrac-snmp-8.1.0-4.4.7.el6.x86_64</code>

<code>srvadmin-idrac-vmcli-8.1.0-4.5.1.el6.x86_64</code>

<code>srvadmin-storageservices-8.1.0-4.3.1.el6.x86_64</code>

<code>srvadmin-base-8.1.0-4.3.1.el6.x86_64</code>

<code>srvadmin-standardAgent-8.1.0-4.3.1.el6.x86_64</code>

三、OMSA 使用指南

       由于 OMSA 的 web 端已經被我們解除安裝掉了。是以我們目前想要看到伺服器的相關硬體資訊就需要使用指令行的方式擷取了。那麼,這裡就介紹如何使用指令擷取伺服器硬體資訊。

       OMSA自帶了一些工具來提供給我們指令行的查詢和設定接口,這裡主要介紹兩個,一個是omreport,另一個是omconfig。omreport是用來查詢伺服器各種硬體狀态,omconfig是用來設定硬體的一些屬性的。

       我在這裡僅列出這兩個指令的常用幾個指令,更多的指令詳情大家可以去如下兩個網站查詢:

<code>       </code><code>1、http:</code><code>//www</code><code>.sxszjzx.com/~t096</code><code>/manual/sc/Dosa/CLI/report</code><code>.htm</code>

<code>       </code><code>2、http:</code><code>//topics-cdn</code><code>.dell.com</code><code>/pdf/dell-opnmang-srvr-admin-v8</code><code>.1_User's%20Guide_en-us.pdf</code>

指令指南:

<code>/opt/dell/srvadmin/bin/omreport</code> <code>chassis                     </code><code># 顯示所有主要元件的正常狀态 </code>

<code>/opt/dell/srvadmin/bin/omreport</code> <code>chassis memory              </code><code># 顯示記憶體資訊</code>

<code>/opt/dell/srvadmin/sbin/omreport</code>  <code>chassis temps             </code><code># 顯示系統主要元件的溫度</code>

<code>/opt/dell/srvadmin/bin/omreport</code> <code>storage adisk controller=0  </code><code># 檢視磁盤陳列中的硬碟狀态</code>

<code>/opt/dell/srvadmin/bin/omreport</code> <code>storage pdisk controller=0  </code><code># 檢視實體磁盤資訊</code>

<code>/opt/dell/srvadmin/bin/omreport</code> <code>storage vdisk controller=0  </code><code># 檢視虛拟硬碟的狀态</code>

<code>/opt/dell/srvadmin/bin/omreport</code> <code>storage controller          </code><code># 檢視控制器(即RAID卡)的屬性</code>

<code>/opt/dell/srvadmin/bin/omreport</code> <code>storage channel controller=0    </code><code># 檢視通道的屬性</code>

<code>/opt/dell/srvadmin/bin/omreport</code> <code>storage enclosure controller=0  </code><code># 檢視enclosure的屬性</code>

<code>/opt/dell/srvadmin/bin/omreport</code> <code>storage battery                 </code><code># 檢視電池屬性</code>

<code>/opt/dell/srvadmin/bin/omconfig</code> <code>storage controller action=setrebuildrate controller=0 rate=100            </code><code># 調整rebuild的速度</code>

<code>/opt/dell/srvadmin/bin/omconfig</code>  <code>storage vdisk  action=changepolicy controller=0 vdisk=0 readpolicy=ara   </code><code># 修改raid的讀政策</code>

<code>/opt/dell/srvadmin/bin/omconfig</code>  <code>storage vdisk  action=changepolicy controller=0 vdisk=0 writepolicy=fwb  </code><code># 修改raid的寫政策</code>

指令範例:

1、檢視系統主要元件的溫度

<code>[root@kvm-phy04-jz ~]</code><code># /opt/dell/srvadmin/bin/omreport chassis temps</code>

<code>Temperature Probes Information</code>

<code>------------------------------------</code>

<code>Main System Chassis Temperatures: Ok</code>

<code>Index                     : 0</code>

<code>Status                    : Ok</code>

<code>Probe Name                : System Board Inlet Temp</code>

<code>Reading                   : 26.0 C</code>

<code>Minimum Warning Threshold : 3.0 C</code>

<code>Maximum Warning Threshold : 42.0 C</code>

<code>Minimum Failure Threshold : -7.0 C</code>

<code>Maximum Failure Threshold : 47.0 C</code>

<code>Index                     : 1</code>

<code>Probe Name                : System Board Exhaust Temp</code>

<code>Reading                   : 31.0 C</code>

<code>Minimum Warning Threshold : 8.0 C</code>

<code>Maximum Warning Threshold : 70.0 C</code>

<code>Minimum Failure Threshold : 3.0 C</code>

<code>Maximum Failure Threshold : 75.0 C</code>

<code>Index                     : 2</code>

<code>Probe Name                : CPU1 Temp</code>

<code>Reading                   : 36.0 C</code>

<code>Maximum Warning Threshold : 79.0 C</code>

<code>Maximum Failure Threshold : 84.0 C</code>

<code>Index                     : 3</code>

<code>Probe Name                : CPU2 Temp</code>

<code>Reading                   : 30.0 C</code>

2、檢視虛拟硬碟的狀态

<code>[root@kvm-phy04-jz ~]</code><code># /opt/dell/srvadmin/bin/omreport storage vdisk controller=0 </code>

<code>List of Virtual Disks on Controller PERC H310 Mini (Embedded)</code>

<code>Controller PERC H310 Mini (Embedded)</code>

<code>ID                                : 0</code>

<code>Status                            : Ok</code>

<code>Name                              : cislunar_space</code>

<code>State                             : Ready</code>

<code>Hot Spare Policy violated         : Not Assigned</code>

<code>Encrypted                         : Not Applicable</code>

<code>Layout                            : RAID-10</code>

<code>Size                              : 836.63 GB (898319253504 bytes)</code>

<code>T10 Protection Information Status : No</code>

<code>Associated Fluid Cache State      : Not Applicable</code>

<code>Device Name                       : </code><code>/dev/sda</code>

<code>Bus Protocol                      : SAS</code>

<code>Media                             : HDD</code>

<code>Read Policy                       : No Read Ahead</code>

<code>Write Policy                      : Write Through</code>

<code>Cache Policy                      : Not Applicable</code>

<code>Stripe Element Size               : 64 KB</code>

<code>Disk Cache Policy                 : Disabled</code>

3、檢視控制器(即RAID卡)的屬性

<code>[root@kvm-phy04-jz ~]</code><code># /opt/dell/srvadmin/bin/omreport storage controller  </code>

<code> </code><code>Controller  PERC H310 Mini(Embedded)</code>

<code>Controller</code>

<code>ID                                            : 0</code>

<code>Status                                        : Non-Critical</code>

<code>Name                                          : PERC H310 Mini</code>

<code>Slot ID                                       : Embedded</code>

<code>State                                         : Degraded</code>

<code>Firmware Version                              : 20.12.1-0002</code>

<code>Minimum Required Firmware Version             : 20.13.1-0001</code>

<code>Driver Version                                : 06.700.06.00-rh1</code>

<code>Minimum Required Driver Version               : Not Applicable</code>

<code>Storport Driver Version                       : Not Applicable</code>

<code>Minimum Required Storport Driver Version      : Not Applicable</code>

<code>Number of Connectors                          : 2</code>

<code>Rebuild Rate                                  : 30%</code>

<code>BGI Rate                                      : 30%</code>

<code>Check Consistency Rate                        : 30%</code>

<code>Reconstruct Rate                              : 30%</code>

<code>Alarm State                                   : Not Applicable</code>

<code>Cluster Mode                                  : Not Applicable</code>

<code>SCSI Initiator ID                             : Not Applicable</code>

<code>Cache Memory Size                             : 0 MB</code>

<code>Patrol Read Mode                              : Auto</code>

<code>Patrol Read State                             : Stopped</code>

<code>Patrol Read Rate                              : 30%</code>

<code>Patrol Read Iterations                        : 0</code>

<code>Abort Check Consistency on Error              : Disabled</code>

<code>Allow Revertible Hot Spare and Replace Member : Enabled</code>

<code>Load Balance                                  : Not Applicable</code>

<code>Auto Replace Member on Predictive Failure     : Disabled</code>

<code>Redundant Path view                           : Not Applicable</code>

<code>CacheCade Capable                             : Not Applicable</code>

<code>Persistent Hot Spare                          : Disabled</code>

<code>Encryption Capable                            : Not Applicable</code>

<code>Encryption Key Present                        : Not Applicable</code>

<code>Encryption Mode                               : Not Applicable</code>

<code>Preserved Cache                               : Not Applicable</code>

<code>Spin Down Unconfigured Drives                 : Disabled</code>

<code>Spin Down Hot Spares                          : Disabled</code>

<code>Spin Down Configured Drives                   : Not Applicable</code>

<code>Automatic Disk Power Saving (Idle C)          : Not Applicable</code>

<code>T10 Protection Information Capable            : No</code>

OK,本篇博文就到此,希望能對大家有所幫助!

劇透:

      除了OMSA自帶的工具,還有一個便捷查詢的第三方工具 check_openmanage。不過由于check_openmanage内容蠻多的,我就又拆出來一篇博文,避免本篇文章太長,使讀者沒有看下去的興緻了。

本文轉自 aaao 51CTO部落格,原文連結:http://blog.51cto.com/nolinux/1664664,如需轉載請自行聯系原作者

繼續閱讀