天天看點

新概念機房運維監控三大新理念

為了改變傳統機房環境監控的現狀,需要引入三大新理念加以改善。

  1、對裝置内部進行監控

  機房監控的目的在于保護機房内IT系統的正常、有效運作,在事故發生之前偵測出潛在危機,并通過各種方式将警情資訊發送給相關人員及時進行處理。是以,機房監控的核心應該是對IT系統運作狀态的監控,而最直接有效的監控應該是直接對IT裝置運作狀态進行監控。

  IT裝置内部的運作環境,例如伺服器内風扇轉速與CPU溫度等是最直接、最迅速影響IT裝置正常運作的因素。有時候即使機房内空調運轉正常,機房整體環境參數值也在預設範圍内,但某伺服器卻因為某種原因出現伺服器内風扇的轉速不正常、CPU過熱。如果隻監控機房整體環境,此時機房的管理人員是不會得到這種危險資訊的,整個系統就會因為該伺服器潛在危機沒有得到及時處理而意外癱瘓。

  2、多層次的機房監控

  完善的機房監控系統應該是能夠實作對從裝置運作情況到機櫃微環境再到機房整體環境這樣多層次的監控,并能重點實作對裝置内部的監控。

  我們都知道,機櫃内的微環境是裝置正常運作所需要的實體環境。機櫃微環境參數最能展現裝置所處的實際運作實體環境的情況,是以實作對機櫃内微環境的監控也相當重要。機房各個點的環境參數值是不同的,是以機房内整體環境監測的參數不能展現各機櫃微環境參數,更不能展現重要裝置内部的環境。也就是說,即使機房整體環境參數正常,IT裝置所在處的環境也不一定正常。是以說機房的整體環境監控的重要性次于對裝置的監控和對機櫃内微環境的監控。

  空調機的運作是為了降低機房内的溫度,使機房内的整體溫濕度保持在一個合适的範圍内,機房各個點的溫度參數值是不同的。空調機出風口的溫度值不能說明機房的整體溫度和機櫃微環境溫度,空調的正常運作不能說明裝置就能正常運作。是以對空調的監控不能代表甚至取代對裝置的監控。

  漏水監測系統是為了監測機房内是否有漏水,以防止因漏水影響裝置的正常運作。線式探測器是成線型布置在機房可能漏水的最低處,而實際上點式漏水探測器同樣可以反映機房的漏水情況且比線式探測器經濟實惠、安裝友善、維護簡單。

  機房内裝置由于非常重要,一般都是采用UPS供電,并且UPS是雙供電,隻要對UPS進行監控就能確定裝置正常供電并且能反映市電的情況。是以,對電源的有效監控是在不增加任何投資的情況下通過協定實作對UPS的監控,通過監控其電壓、電流、電池使用情況、市電情況來確定裝置的正常運作。

  3、機房監控的預警功能

  報警(alarm)是報告事件的發生,是在故障或危害發生之後向管理人員發送警訊,及時地發送警訊可以縮短故障修複時間(MTTR),最大程度地保障系統運作。但故障還是不可避免地發生了,影響了系統的正常運作。

  預警(alert)則是在故障或危害發生之前向管理人員報告潛在危機,提示相關人員進行處理,是事前的,可以防止事故的發生。有效的預警可以增加系統平均無故障工作時間(MTBF),并可以根據危機情況自動延伸到報警。

  預警與報警的差別就在于它是事前預防性報警,機房監控系統隻有具有良好的預警功能才能偵測出潛在危機并分層次逐漸擴大警訊發送範圍,有效地防止事故的發生,将損失降低到最小。越來越多的機房管理人員也開始意識到預警的重要性,是以機房監控系統必須有預警功能。

  那麼,機房監控該如何實作預警功能呢?首先,可以通過靈活的門檻值設定多種偵測方式,確定能及時地發現潛在危機;其次,通過設定多種預警的方式,確定所有相關人員無論在何時何地都能收到警訊;再次,設定多個預警流程,確定不同的相關人員在不同時間接收到不同程度的警訊。

  這樣,一旦有危機出現,立刻将資訊發送給相關人員直至危機得到有效處理,實作真正意義的預警功能,最大程度地保護系統的運作。

  這種将網絡運維和機房的配電電源監控、環境監控、和安全視訊監控結合在一起監控,基于TCP/IP及SNMP,就能夠高度的集中管理,不僅能夠将單個機房内各種動力裝置與環境裝置的各種狀态資訊、報警資訊、控制指令與曆史資料等進行完整的集中監控,并且能夠将分布在全國各地的多個機房實作跨區域的集中監控。使用者隻需登入一套系統就完成對整個資源的管理,免去了登入多套系統的麻煩。

繼續閱讀