天天看點

帶外監控

hp的SIM,dell 的omsa可以對這兩家的伺服器硬體做監控,但是由于他的軟體包之大,安裝後還要在伺服器上啟動幾個程序,另外好多公司伺服器是什麼品牌都有。還有一些其它的伺服器,根本就沒有監控軟體。這就比較頭痛了!一般伺服器都有ipmi,帶外管理位址可以配置報警。這些報警包括CPU MEM 電源等。像這種比較重要,又容易壞的東西,還是通過專門的監控軟體來監控吧,對于有raid的伺服器可以通過各種raid卡監控工具來做,對于沒有raid的伺服器可以用smartctrl來監控。下面說一下各類raid卡的監控。

raid卡類型                       監控工具

megaraid                         megarc.bin

megaraidsas                    MegaCli

lsi mpt                             mpt-status

smartarray                      hpacucli

3ware                              tw_cli

對于網管員來說,伺服器遠端管理是一個非常重要的技術,而在伺服器遠端管理方面,典型的解決方案是基于伺服器作業系統的軟體管理方式,但這樣的方式有一個緻命的缺陷就在于對作業系統的依賴程度太高,一旦系統出現問題将無能為力,影響到伺服器的日常運作。而我們今天要向大家介紹的是一種無需依賴于作業系統的遠端管理方式——基于智能平台管理界面 (IPMI)的遠端管理方式。IPMI 定義管理者如何監測系統硬體和傳感器、控制系統元件和檢索重要系統事件的日志以進行遠端管理和恢複。使用該種方式,使用者無需擔心作業系統的狀态,即使系統崩潰也可以輕松得到機器狀态、重要系統日志等資訊,還能實作系統的重新開機、關機等控制,非常實用。接下來,就讓我們一起來了解一下IPMI的使用情況吧。

  認識IPMI

  既然要使用IPMI,就讓我們首先來認識一下這個神奇的東西吧。

  IPMI是智能型平台管理接口(Intelligent Platform Management Interface)的縮寫,是管理基于 Intel結構的企業系統中所使用的外圍裝置采用的一種工業标準,該标準由英特爾、惠普、NEC、美國戴爾電腦和SuperMicro等公司制定。使用者可以利用IPMI監視伺服器的實體健康特征,如溫度、電壓、風扇工作狀态、電源狀态等。而且更為重要的是IPMI是一個開放的免費标準,使用者無需為使用該标準而支付額外的費用。

  自1998 年,IPMI論壇建立了IPMI标準依賴,其已經得到了170 多家供應商的支援,這使得其逐漸成為了一個完整地包括伺服器和其他系統(如儲存設備、網絡和通信裝置)的硬體管理規範,目前該标準最新版本為IPMI 2.0,該版本在原有基礎上有了不少的改進,包括可以通過序列槽、Modem以及Lan等遠端環境管理伺服器系統(包括遠端開關機),以及在安全、VLAN 和刀片支援等方面的提高。

  IPMI針對大量監控、控制和自動回複伺服器的作業,提供了智能型的管理方式。此标準适用于不同的伺服器拓樸學,以及Windows、Linux、 Solaris、Mac或是混合型的作業系統。此外,由于IPMI可在不同的屬性值下運作,即使伺服器本身的運作不正常,或是由于任何原因而無法提供服務,IPMI仍可正常運作。

  

IPMI 工作原理

  IPMI的核心是一個專用晶片/控制器(叫做伺服器處理器或基闆管理控制器(BMC)),其并不依賴于伺服器的處理器、BIOS或作業系統來工作,可謂非常地獨立,是一個單獨在系統内運作的無代理管理子系統,隻要有BMC與IPMI固件其便可開始工作,而BMC通常是一個安裝自愛伺服器主機闆上的獨立的闆卡,現在也有伺服器主機闆提供對IPMI支援的。IPMI良好的自治特性便克服了以往基于作業系統的管理方式所受的限制,例如作業系統不響應或未加載的情況下其仍然可以進行開關機、資訊提取等操作。

  在工作時,所有的IPMI功能都是向BMC發送指令來完成的,指令使用IPMI規範中規定的指令,BMC接收并在系統事件日志中記錄事件消息,維護描述系統中傳感器情況的傳感器資料記錄。在需要遠端通路系統時,IPMI新的LAN上串行(SOL)特性很有用。SOL改變IPMI會話過程中本地序列槽傳送方向,進而提供對緊急管理服務、Windows專用管理控制台或Linux串行控制台的遠端通路。BMC通過在LAN上改變傳送給串行端口的資訊的方向來做到這點,提供了一種與廠商無關的遠端檢視啟動、作業系統加載器或緊急管理控制台來診斷和維修故障的标準方式。

當需要對系統文本控制台進行遠端通路時,Serial Over LAN (SOL) 功能将非常有用。SOL 通過 IPMI 會話重定向本地串行接口,允許遠端通路 Windows 的緊急事件管理控制台 (EMS) 特殊管理控制台 (SAC),或通路 LINUX 串行控制台。這個過程的步驟是 IPMI 固件截取資料,然後通過區域網路重新發送定向到串行端口的資訊。 這就提供了遠端檢視 BOOT、OS 加載器或緊急事件管理控制台以診斷并修複伺服器相關問題的标準方法,而無需考慮供應商。它允許在引導階段配置各種元件。

  而在指令傳輸的安全性方面,使用者也無需擔心,IPMI增強的認證(基于安全雜湊演算法1和基于密鑰哈希消息認證)和加密(進階加密标準和Arcfour)功能有助于實作安全的遠端操作。對VLAN的支援更是為設定管理專用網絡提供了友善,并且可以以通道為基礎進行配置。

  一般來說,BMC具有以下功能:

  1.通過系統的串行端口進行通路

  2. 故障日志記錄和 SNMP 警報發送

  3.通路系統事件日志 (System Event Log ,SEL) 和傳感器狀況

  4.控制包括開機和關機

  5.獨立于系統電源或工作狀态的支援

  6.用于系統設定、基于文本公用程式和作業系統控制台的文本控制台重定向

  而通過IPMI ,使用者可以主動監測元件的狀況,以確定不超出預置門檻值,例如伺服器溫度。這樣,通過避免不定期的斷電,協助維護了 IT 資源的運作時間。 IPMI的預告故障能力也有助于 IT 周期的管理。通過檢查系統事件日志 (SEL),可以更輕松的預先判定故障元件。

  IPMI 的使用

  在本例中,我們使用的是伺服器是戴爾 PowerEdge R805,這是一款今年5月問世的一款2U機架式伺服器,戴爾公司将其稱為為虛拟化應用而生的産品,這款2U機架式伺服器屬于雙路四核設計,采用的是AMD四核皓龍平台,而AMD巴塞羅那處理器由于采用了直連架構以及快速虛拟話變址、帶标簽的标記轉換旁路緩沖器(TLB)、裝置排斥向量等新技術,其在降低延遲時間、提高虛拟化執行效率、加強虛拟裝置管理以及提高虛拟環境安全性等方面都有着良好的表現。而且,這款産品提供了對IPMI 2.0标準的支援,使用者可以直接使用。

  要利用IPMI規範實作對伺服器的遠端管理,我們不僅需要本地伺服器的支援,在遠端控制端還需要有IPMI工具來進行控制。

 在前面我們就說過IPMI是一個開放的标準,是以獨立的工具軟體也有不少,比較常用的有IPMITOOL、IPMIUTIL等,也有不少伺服器廠商開發的工具。在本次執行個體中我們使用的是IPMIUTIL。

  本地伺服器的設定

  要使用IPMI的遠端管理功能需要先進行設定。在伺服器啟動過程中,會提示使用者按下Ctrl+E進行有關設定,這時按Ctrl+E 進入IPMI管理界面。

 IPMI管理界面有衆多選項,使用者無需一一設定。首先,設定IPMI Over LAN為On,意思為啟用通過LAN方式的IPMI。

  其次,在第二項NIC Selection中選擇“Dedicated”(專用) — 選擇此選項使遠端通路裝置能夠使用 Remote Access Controller (RAC) 上的專用網絡接口。此接口不與主機作業系統共享并會将管理通信路由到單獨的實體網絡,進而能夠與應用程式通信分開。此選項隻有在系統中裝有 DRAC 卡時才可用,而本機裝有該卡。

在第三項中設定IPMI接口的IP位址等資訊,注意,這裡的IP位址可以和伺服器網卡的IP位址不同,而如果使用者是通過區域網路來進行IPMI控制,該IP位址須和控制端處于同一個網段之内。

  此外,使用者還需要在“Lan User Configeration”中設定使用者名與密碼。設定完畢這些,使用者按ESC建推出,系統會提示儲存推出,選擇之後帶待系統重新啟動使用者就可以通過遠端通路IPMI了。

 伺服器遠端管理

  在控制端安裝ipmiutil工具包之後,我們就可以通過一系列的指令來擷取遠端伺服器相關資訊并對其進行設定了。ipmiutil是一個工具包,其中包含了ipmiutil、hwrese等工具,它們分别有着不同的用途,比如hwrese可以用來啟動、關閉伺服器等。使用者可以通過ipmiutil -?或類似指令來檢視各工具的作用。

 從中看出,Ipmiutil安裝完成後,會包含以下可執行指令:

  • alarms –顯示和設定Telco alarms報警(LED顯示和延遲)

  • bmchealth – 測試BMC是否工作正常。

  • fruconfig – 顯示FRU的産品資訊,寫入有用資訊

  • getevent – 接收一個IPMI event,并顯示。

  • hwreset – 用于使 firmware 硬重新啟動或者關掉系統

  • pefconfig – 用于顯示和配置LAN端口,配置Platform Event Filter 表,來通過firmare event産生BMC Lan提示 

  • sensor – 顯示Sensor Data Records,值和門檻值。 

  • showsel – 顯示System Event Log記錄。

  • tmconfig – 顯示和配置BMC序列槽。 

  • wdt – 顯示和設定看門狗時間。

  以上指令種中最為常用的是sensor指令和pefconfig指令。使用sensor指令可以擷取各種監測資訊。使用pefconfig指令設定BMC,使得BMC可以在系統有event時候,進行報警。hwrese也比較常用,這個指令可以實作伺服器的重新開機以及硬體開關機。

 Ipmiutil的各種指令格式一般:

  指令名稱  -所要進行的操作 -N nodename –U user –R passwd

  其中-N後面跟的是被監控伺服器名字,-U後是使用者名,-R後是使用者密碼。

 從上面的使用執行個體看來,IPMI的确是一個實用性非常強的規範,其不依賴于伺服器本身的處理器、作業系統等而進行工作,使得其受限制條件非常少,隻要系統正常通電、網絡接口正常工作便能夠實作對伺服器的控制,好好利用IPMI工具,相信一定能夠為伺服器的管理帶來極大的便利。

上一篇: perf
下一篇: *nix高手站點

繼續閱讀