天天看點

資料中心監控自動化中的兩個常見問題

如今,資料中心越來越趨于自動化,并已成為資料中心良好營運的強大力量。以下列出在資料中心監控自動化中經常出現的兩個主要問題。

資料中心監控自動化中的兩個常見問題

問題1:房間裡的大象

“房間裡的大象”是指人們私密生活和公共生活中對于某些顯而易見的事實,集體保持沉默的社會現象。人們在進一步深入自動化之前,無論是自動發現,報告傳遞或警報觸發操作,必須做出一個關鍵點:在某些方面,它被稱為dpr周期。dpr代表檢測,預防和響應。

警報是從業人員在發生錯誤時捕獲錯誤的方式,但是由資料中心從業人員來決定它們發生的原因,并找到一種防止錯誤再次發生的方法。當建構一個解決方案以自動響應警報并進行修複時,作為負責任的資料中心專業人員,還應該緻力于分析情況的艱苦工作,以找到模式和根本原因。然後需要解決根本原因,并建立檢查,以便知道是否再次出現問題。

對警報的自動響應保持企業的業務在所有的時間運作,并幫助確定知道你需要的時間,從業人員必須能夠看到發生了什麼,做的工作出來為什麼會發生,是以可以防止它在将來發生。這樣才不會出現“房間裡的大象”問題。

問題2:内心恐懼

許多資料中心專業人員在第一次提出自動響應警報的想法時感到擔心。而具有一個真正有活力的大腦的人會對這些警報進行仔細思考,然後謹慎采取行動。這種想法就像站在“自動化”海洋的邊緣。有點令人望而生畏。但你必須相信不會被海水淹死,并且有能力一步步地嘗試。這并不是一個全有或全無的命題,其風險也将會從零到全部。

與任何it工作一樣,有實施計劃有時比實施(或在這種情況下是自動化)本身更重要。是以可以再談談這個實施計劃:

首先識别測試機器。無論是為這些目的而部署的實驗室裝置還是那些不太重要的志願者,請設定警報,以便觸發這些機器。

學習使用反向門檻值。雖然企業的最終警報将檢查cpu的工作負載量大于90%,從業人員可能希望避免反複測試。而cpu的工作負載量小于90%将觸發更多的可靠性,至少從業人員希望如此。

查找複位選項。與上面密切相關,了解資料中心監控工具如何重置警報,以便再次觸發。也許很可能會很多使用那個功能。

詳細情況。資料中心從業人員想要了解發生什麼和什麼時候可能發生。如果資料中心的工具支援自己的日志記錄,請将其打開。在自動化中大量插入“我現在開始xyz步驟”消息。雖然很乏味,但你會很高興所做到的事情。

自己處理警報。如果你認為會通過發送這些警報到伺服器團隊進行測試,事實上,你并不會把它發送到任何團隊,而會認為自己可以處理這些警報。

你真的不需要通過電子郵件觸發那些警報。所有這一切都是在基礎設施上造成額外的延遲和壓力,以及如果你的警報同時啟動多個消息,可能會産生其他問題,會将消息發送到本地日志檔案和顯示屏。

分享警報提醒。現在,你可以通過對話與小組的其他人分享警報提醒。

采用對話。這個過程将涉及與其他人交談。設定自動化是協作的,因為你和那些每天都在一起工作的人都應該同意從基本功能到消息格式的一切。

将相位器設定為滿。一旦自動化在企業的測試系統上工作,計劃通過分階段的方法實施。使用相同的機制,你用來限制幾個警報,你向網絡擴充,也許10-20個系統。并且你再次測試觀察結果。然後你擴大到50個左右。確定你和收件人都很滿意所看到的結果。記住,在這一點上,團隊正在接收正常警報,但你仍然應該看到之前提到的詳細消息。你應該與團隊進行審查,以確定你認為發生的是真正發生的事情。

遵循這些指南,任何自動響應應該有很高的成功機率,或者至少你會避免陷入糟糕的自動化,不會産生太多的損害。采用自動化的一個很好的經驗法則是用最小的努力獲得最大的回報。無論你現在看到的是什麼基于系統的事件,這可能是你可以獲得的最大影響。另一個找到自動化想法的辦法就是聆聽團隊的想法,考慮是否有哪些使用者投訴是由系統故障驅動的。如果是這樣,它可能是解決自動化出現問題的機會。最後,不要計劃得太遠。你可能現在感到擔心在獲得一兩個成功之後,你會發現團隊正在尋求你的建議,以你的方式獲得幫助。

本文作者:佚名

來源:51cto

繼續閱讀