天天看點

優維EasyOps産品使用最佳實踐:Agent存活性監控

作者:優維科技
優維EasyOps産品使用最佳實踐:Agent存活性監控
優維EasyOps産品使用最佳實踐:Agent存活性監控

優維EasyOps平台内置Agent存活性監控啦!

Agent作為自動化/監控底層核心元件,它的可用性直接影響了上層功能的使用,故我們會非常關注它的狀态。但如果有網絡波動、Agent更新或機器故障等都可能導緻Agent異常,這時使用者希望這種異常能夠及時通知到平台運維負責人,以便于他能夠及時感覺并處理。過去我們平台一直沒内置Agent狀态存活的監控,現場人員為此使用了各種旁路的方式去做監控,而旁路的方式并不能實時可靠的感覺到Agent狀态的變化,現在平台内置了此功能将徹底解決這個問題!

負責管理Agent狀态的元件(gateway)直接将記憶體狀态資料暴露出來當做名額進入告警處理鍊路流,進而上層可利用此配置告警。另外,Agent狀态是觸發沿上報,是以會非常的靈敏。

适配發行版:6.19.0!

1.說明

Agent是Easyops平台上負責用戶端代理的元件,它能夠實作監控采集、資源發現和工具執行等功能。由于Agent的存活性對系統運作非常關鍵,Easyops平台内置了對Agent的監控功能,包括以下名額:

優維EasyOps産品使用最佳實踐:Agent存活性監控

這些名額在Easyops平台中預設進行采集,無需額外配置政策,隻需要簡單配置相應的告警規則即可。

2.告警規則配置

⑴ 建立告警規則:首先,需要建立一個告警規則來定義監控的目标範圍,即您希望監控的主機範圍。

優維EasyOps産品使用最佳實踐:Agent存活性監控

⑵ 設定告警名額:在告警規則中,選擇"主機Agent狀态"作為告警名額,并将門檻值設定為"不等于正常"。這樣一來,當Agent狀态異常時将會觸發告警。

優維EasyOps産品使用最佳實踐:Agent存活性監控

● 請注意:Agent狀态的名額每小時上報一次,并且可以基于觸發條件(狀态變化)進行即時觸發。換句話說,當Agent狀态從"正常"變為"異常"時,将立即觸發名額值的變化。為了確定準确性,觸發判斷填寫一個資料點來進行觸發。(如果填寫兩個資料點,那麼異常狀态至少維持1小時才會觸發,這樣告警延遲過大。)

這意味着即使名額每小時上報一次,一旦狀态發生變化,系統會立即捕捉到這個變化并觸發相應的動作。這樣設計的目的是確定對Agent狀态的監控是及時且敏感的。是以,您可以依靠這個特性來快速發現并處理Agent狀态異常的情況。

優維EasyOps産品使用最佳實踐:Agent存活性監控

⑶ 添加告警豐富資訊:您可以為告警添加更多的資訊,以便更清楚地描述告警的内容和上下文。

優維EasyOps産品使用最佳實踐:Agent存活性監控

⑷ 設定告警模闆:為告警消息設定模闆,使其包含關鍵資訊并具有易讀性。

【SLO事件告警】{{time|ts2str:'%Y-%m-%d %H:%M'}} 産生「{{levelName}}」級别告警

告警資源:{{target}}

告警等級:{{levelName}}

告警資訊:『 {{originContent}} 』

營運負責人:{{instance|jsonpath:'$.owner[*].name'|unique|join:','}}

告警首次發生時間:{{startTime|ts2str:'%Y-%m-%d %H:%M'}}

距離首次告警的持續時長:{{duration|duration_format:'zh'}}

事件詳情:http://修改為您的平台位址/next/events/{{eventId}}/detail

政策詳情:http://修改為您的平台位址/next/events/alert-rule/alert-rule/{{ruleId}}/edit

儲存配置後,當agent狀态異常時,您将收到如下告警(以釘釘告警為例)

告警

優維EasyOps産品使用最佳實踐:Agent存活性監控

恢複

優維EasyOps産品使用最佳實踐:Agent存活性監控