天天看點

IT硬體故障的主要原因和預防的最佳實踐

  IT運維中常見的硬體問題,如裝置過熱或伺服器過載,即使是很短的時間,也可能導緻企業的巨大的損失和客戶流失。據Dynamic研究發現:企業組織面臨的超過 45% 的網絡中斷完全是由于硬體故障造成的,是以 24x7 全天候監控硬體至關重要。雖然硬體故障可能由于多種因素而發生,但下面列出了導緻跨網絡基礎設施硬體故障的一些最常見問題。

硬體故障最常見的因素 

  ●溫度峰值:溫度異常峰值是大多數硬體故障的主要原因。網絡裝置處理大量資料,為了使它們始終如一地運作,需要保持最佳溫度。裝置中的任何異常升溫或降溫都可能導緻硬體系統當機或關閉,進而導緻硬體故障。

  ●通風不良:裝置溫度不可避免的升高會降低裝置速度、影響其性能或使其損壞。由于裝置的布置或風扇設定無效而無法消除裝置産生的額外熱量而導緻的通風不良可能會對網絡的生産力産生不利影響。

  ●容量過度利用:用完裝置的剩餘容量會極大地減慢它的速度,進而導緻性能滞後。通過将裝置的工作負載配置設定給其他裝置來控制裝置容量的過度使用。即使是單個端點的小故障也可能影響整個網絡。

  ●電源波動:腐蝕的連接配接或其他外部因素可能會導緻電源的潛在波動。電源突然浪湧會導緻意外斷電,進而影響裝置的性能或導緻其短路。

  ●過度使用電池:當電池耗盡 80% 的能量時,電池往往會失去效率。電池完全耗盡将導緻緩存資料丢失或裝置或伺服器突然關閉。此外,低容量電池的保存期限很短,而且功率效率不高,這會影響裝置的性能。

  正确制定戰略的硬體監控實踐可以幫助避免這些問題,并確定組織的網絡基礎設施不會受到裝置硬體故障的影響。以下是一些利用硬體監控來建立高效網絡營運的方法。

硬體監控的最佳實踐

  1.確定多供應商支援:目前網絡架構變得越來越異構。除了預設的供應商支援的系統外,組織還利用自定義配置的裝置來提供業務解決方案。是以,硬體監控政策必須支援多供應商監控,并且能夠支援任何裝置,而不受供應商或配置障礙的影響。技術人員還需要對多供應商硬體裝置具有統一的實時可見性。

  2.對關鍵警報進行優先級排序和管道化:網絡硬體問題可能源于具有不同關鍵程度的衆多因素。應根據裝置的嚴重性和潛在問題的嚴重性對硬體故障進行優先級排序。處理硬體故障也可能涉及分布在不同團隊甚至不同地理區域的多方;重要的是通過正确的管道向正确的團隊發送警報,以建立一個管理良好、定義正确的故障解決路徑,以幫助更快地解決硬體故障。

  3.主動監控和故障排除: 與其在硬體發生故障後尋找解決方案,不如從一開始就采取主動措施防止故障,可以節省大量資源。應預先監控和管理硬體裝置,以提前提醒技術人員,促使他們在問題變得更糟并對組織造成嚴重損害之前解決問題。這可以通過利用報告形式的曆史性能資料來預測任何前所未有的硬體故障來實作。這種主動硬體監控和故障排除方法有助于提前結束問題的惡化。

繼續閱讀