IPMI是智能型平台管理接口(Intelligent Platform Management Interface)的縮寫,是管理基于 Intel結構的企業系統中所使用的外圍裝置采用的一種工業标準,該标準由英特爾、惠普、NEC、美國戴爾電腦和SuperMicro等公司制定。使用者可以利用IPMI監視伺服器的實體健康特征,如溫度、電壓、風扇工作狀态、電源狀态等。而且更為重要的是IPMI是一個開放的免費标準,使用者無需為使用該标準而支付額外的費用。
自1998 年,IPMI論壇建立了IPMI标準以來,其已經得到了170 多家供應商的支援,這使得其逐漸成為了一個完整地包括伺服器和其他系統(如儲存設備、網絡和通信裝置)的硬體管理規範,目前該标準最新版本為IPMI 2.0,該版本在原有基礎上有了不少的改進,包括可以通過序列槽、Modem以及Lan等遠端環境管理伺服器系統(包括遠端開關機),以及在安全、VLAN 和刀片支援等方面的提高。 IPMI針對大量監控、控制和自動回複伺服器的作業,提供了智能型的管理方式。此标準适用于不同的伺服器拓樸學,以及Windows、Linux、
Solaris、Mac或是混合型的作業系統。此外,由于IPMI可在不同的屬性值下運作,即使伺服器本身的運作不正常,或是由于任何原因而無法提供服務,IPMI仍可正常運作。
IPMI的核心是一個專用晶片/控制器(叫做伺服器處理器或基闆管理控制器(BMC)),其并不依賴于伺服器的處理器、BIOS或作業系統來工作,可謂非常地獨立,是一個單獨在系統内運作的無代理管理子系統,隻要有BMC與IPMI固件其便可開始工作,而BMC通常是一個安裝在伺服器主機闆上的獨立的闆卡,現在也有伺服器主機闆提供對IPMI支援的。IPMI良好的自治特性便克服了以往基于作業系統的管理方式所受的限制,例如作業系統不響應或未加載的情況下其仍然可以進行開關機、資訊提取等操作。
在工作時,所有的IPMI功能都是向BMC發送指令來完成的,指令使用IPMI規範中規定的指令,BMC接收并在系統事件日志中記錄事件消息,維護描述系統中傳感器情況的傳感器資料記錄。在需要遠端通路系統時,IPMI新的LAN上串行(SOL)特性很有用。SOL改變IPMI會話過程中本地序列槽傳送方向,進而提供對緊急管理服務、Windows專用管理控制台或Linux串行控制台的遠端通路。BMC通過在LAN上改變傳送給串行端口的資訊的方向來做到這點,提供了一種與廠商無關的遠端檢視啟動、作業系統加載器或緊急管理控制台來診斷和維修故障的标準方式。
當需要對系統文本控制台進行遠端通路時,Serial Over LAN (SOL) 功能将非常有用。SOL 通過 IPMI 會話重定向本地串行接口,允許遠端通路 Windows 的緊急事件管理控制台 (EMS) 特殊管理控制台 (SAC),或通路 LINUX 串行控制台。這個過程的步驟是 IPMI 固件截取資料,然後通過區域網路重新發送定向到串行端口的資訊。 這就提供了遠端檢視 BOOT、OS 加載器或緊急事件管理控制台以診斷并修複伺服器相關問題的标準方法,而無需考慮供應商。它允許在引導階段配置各種元件。
而在指令傳輸的安全性方面,使用者也無需擔心,IPMI增強的認證(基于安全雜湊演算法1和基于密鑰哈希消息認證)和加密(進階加密标準和Arcfour)功能有助于實作安全的遠端操作。對VLAN的支援更是為設定管理專用網絡提供了友善,并且可以以通道為基礎進行配置。
一般來說,BMC具有以下功能:
1.通過系統的串行端口進行通路
2. 故障日志記錄和 SNMP 警報發送
3.通路系統事件日志 (System Event Log ,SEL) 和傳感器狀況
4.控制包括開機和關機
5.獨立于系統電源或工作狀态的支援
6.用于系統設定、基于文本公用程式和作業系統控制台的文本控制台重定向 而通過IPMI ,使用者可以主動監測元件的狀況,以確定不超出預置門檻值,例如伺服器溫度。這樣,通過避免不定期的斷電,協助維護了 IT 資源的運作時間。 IPMI的預告故障能力也有助于 IT 周期的管理。通過檢查系統事件日志 (SEL),可以更輕松的預先判定故障元件。
三、設計執行個體凸顯IPMI優勢
先讓我們來看一個IPMI設計的應用執行個體:一家公司購置了若幹台伺服器,計劃安裝不同應用系統分别應用于資料庫、網絡、列印伺服器等。傳統實作方式是分别由在某一應用系統有專長的不同系統管理者逐一完成安裝、配置及後期維護管理,但利用IPMI管理即可實作統一的管理。以下從安裝配置、監控管理、故障診斷三方面來領略一下IPMI帶來的優勢。
傳統的OS安裝首先要對伺服器的新硬體做驅動,需要相應OS安裝手冊或專業系統管理者,管理者需要在伺服器旁等待整個安裝過程完成;而利用IPMI,隻需要插入OS自安裝CD光牒即可自動引導安裝,在3~4個關鍵時間點加載新硬體驅動,插入OS安裝盤,即可完成OS自動安裝,同時還可以利用系統備份工具對重要資料進行備份,友善了故障出現時的系統恢複,極大地節省了時間和人力。
傳統的系統監控管理方法一般是系統管理者定期到機房巡視或者采用PCAnywhere類軟體監控,上述方法存在時效性差、伺服器當機後無法追查原因、占用系統資源較多的缺點;IPMI則可實作對伺服器系統的實時監控,能夠監控網絡狀态(發現整個網絡節點、判斷網絡節點的線上狀态、判斷網絡的通斷、監測網絡結點的OS、IP、主機名、網絡流量大小等資訊);監控伺服器系統靜态資訊(CPU、記憶體、硬碟、光驅、網卡、顯示卡、作業系統、RAID卡、PCI附加卡等資訊)和動态資訊(主機闆、CPU、SCSI
模組、風扇闆等裝置的溫度、電壓、風扇轉速資訊以及CPU使用率、記憶體使用率、硬碟I/O通路流量等系統資源資訊),還可以實作對RAID陣列的管理;當上述被監控量發生超越門限等異常事件時,監控軟體會通過多種形式(消息框、郵件、告警音、短信)告警,同時将告警事件記錄入日志,友善管理者根據告警日志分析診斷。對大量分散伺服器集中管理的環境應用優勢尤為明顯。
傳統的故障診斷一般是管理者到故障現場根據經驗診斷故障原因,而利用IPMI,管理者可以通過網絡或者序列槽通路遠端伺服器,通過擷取事件日志和傳感器資料記錄來分析、确認故障原因,并通過遠端操作來實作伺服器恢複。
在IPMI管理平台中,BMC(Baseboard Management Controller,因為多內建于主機闆而得名)是核心控制器,系統管理軟體對各個被管理器件的管理,都是通過與BMC通信來實作的。在IPMB(Intelligent
Platform Management Bus)總線上連接配接着各個管理控制器,分别執行不同功能。IPMB總線上還連接配接着一些I2C器件,用來作為傳感器的接口,讓系統管理軟體能夠通過IPMB來讀取傳感器的資料。同時,這些傳感器的具體配置資訊,如告警門限、事件觸發是否允許等配置都儲存在一組名為SDR(Sensor Data Record)的資料裡面。而傳感器産生的告警事件則儲存在一組叫做SEL(Sensor Event Log)的資料裡面。在IPMB總線上,連接配接着一個ICMB(Intelligent Chassis
Management Bus)橋,通過ICMB可以和遠端的另一個管理平台通信。此外,在IPMB總線上,還可以外接其他的使用者闆,用來擴充IPMI管理平台的功能。
管理系統的核心——BMC晶片就相當于計算機中的中央處理器,通過BMC晶片上一對SMBus接口連接配接網絡,使用者可通過網絡通路實作對遠端伺服器接管的帶外管理(Out-of-band)功能,例如遠端接管伺服器(Pre-OS),在用戶端實作對遠端伺服器的完全接管;通過RS-232接口連接配接Modem,在遠端伺服器當機情況下,使用者可以通過撥号通路擷取SDR、SEL資料,分析診斷故障原因;BMC通過IPMB接口通路模組風扇背闆、電源背闆等上的SMC,實作對各種背闆的溫度電壓風扇轉速等關鍵參數管理;BMC通過系統接口(多用SMIC:Server
Management Interface Chip),實作IPMI消息傳輸機制,控制LCD顯示和實作上層軟體與底層F/W通信,實作告警、資料采集。SDR、SEL、FRU(Field Replacement Unit)實體實體可以是做在晶片内的存儲體,也可以是外挂的E2PROM。所有IPMI功能通過向BMC發送指令來完成,指令使用IPMI規範中規定的指令,BMC接收并在系統事件日志中記錄事件消息,維護描述系統中傳感器情況的傳感器資料記錄。
<a href="http://www.51kvm.com/technology/SP_10002.asp">http://www.51kvm.com/technology/SP_10002.asp</a>
<a href="http://www.ibm.com/developerworks/cn/linux/l-ipmi/index.html">http://www.ibm.com/developerworks/cn/linux/l-ipmi/index.html</a>