前段時間在某論壇中看到有網友問SCOM能否監測到伺服器當機,是怎麼樣一個工作過程?今天我将給大家講述這方面的内容,在SCOM中監測伺服器當機主要涉及心跳信号這部分内容,SCOM伺服器和Agent之間是有心跳信号通訊的。預設情況下,SCOM Agent每60秒會發送一次心跳信号給SCOM Server,如果SCOM伺服器端超過60秒鐘沒有接收到Agent端發送過來的心跳信号,就會在SCOM控制台的監控視窗中産生一個“運作狀況服務檢測信号失敗”的告警。SCOM伺服器最多允許錯過3次心跳信号,假如SCOM伺服器超過3次心跳周期沒有接收到Agent的心跳信号,伺服器會使用PING的方式來嘗試能否連接配接到Agent,如果不能PING通,這時候會在SCOM控制台的監控視窗産生“連接配接到計算機失敗”的告警,産生這種告警的時候,如果能夠排除網絡的原因,通常情況下就是我們的伺服器當機或者其它原因造成伺服器不可用了。下面在測試環境中模拟一下給大家看看整個工作過程:
首先來看看SCOM關于心跳檢測信号的預設配置:
接下來将測試環境中的一台Scom Agent關機,呆會到SCOM控制台的監控視窗檢測一下告警的情況:
從上面的截圖傳回的資訊顯示伺服器關機之後能夠被正常監測到,如果我們訂閱了郵件告警會同時接收到告警郵件資訊并且解決狀态為“建立”:
接下來,開啟剛才那台被關機的伺服器,待伺服器重新開機完成之後來到SCOM控制台看看監控的更新情況:
對比本文中兩張SCOM控制台的截圖能夠發現之前産生的兩條告警資訊已經沒有了,說明故障已經自動排除。同時也會收到相關的郵件資訊并且解決狀态為“已關閉”:
好了,關于SCOM Agent心跳響應機制就介紹到這,有興趣的朋友可以自行模拟一下^_^
本文轉自葉俊堅51CTO部落格,原文連結: http://blog.51cto.com/yejunjian/151464,如需轉載請自行聯系原作者