天天看點

SLS新版告警入門-告警嚴重度

告警嚴重度是什麼

在日常的打日志過程中,我們經常會按照不同日志級别來打日志,在日志級别中經常可以看到Info,Warn,Error,Crtical等級别,一般來說,越嚴重的日志越值得關注,因為它可能意味着系統出現了嚴重的故障,導緻不可用等行為。同樣,在監控系統中,如果在監控某不同名額時,如果名額的值偏離了我們設定的門檻值,會觸發一條告警,這條告警也應該表明事件的嚴重程度,比如機器down機的問題要比CPU使用率超過70%的問題要更嚴重,同樣,CPU使用率達到90%要比CPU達到75%的問題要嚴重。

在SLS新版告警中使用告警嚴重度來表示告警觸發時的嚴重程度,在SLS新版告警中,支援在告警監控規則中

配置告警嚴重度

,告警嚴重度被分為報告,低,中,高,嚴重五種級别,在配置告警時可以指定目前告警觸發時的告警嚴重度;同時我們還支援動态告警嚴重度,根據監控名額值來動态設定告警嚴重度,為告警配置增加了更多的靈活性。在後文中會對動态告警嚴重度有詳細的介紹。

告警嚴重度有什麼用

一條告警觸發之後,如果隻标明了告警嚴重度,在收到告警時,告警上的嚴重度可以決定我們對這條告警的處理方式,比如一條嚴重度為報告或者低的告警,直接忽略即可,但是對于嚴重級别的告警,我們就不能忽略了;同時,在SLS新版告警中還支援在行動政策中按照不同的嚴重度設定不同的處理方式,比如嚴重度為中的發送郵箱,嚴重度為高的發短信,嚴重度為嚴重的發送語音電話;或者根據不同的嚴重度發送給不同的組,嚴重度中的發給值班組,嚴重度為高發送給運維組。告警的嚴重度的作用主要展現在對告警的處理和降噪上,在SLS的告警政策和行動政策中,都支援根據告警嚴重度來設定,比如當嚴重的告警的産生時,可以抑制嚴重度為低的告警,可以參考

告警抑制政策

在SLS告警監控中配置告警嚴重度

靜态告警嚴重度

首先來看下靜态嚴重度,靜态嚴重度是指在告警監控規則中直接選擇告警嚴重度,如果被監控的名額滿足觸發條件,就會觸發告警,該告警在觸發時,會攜帶一個告警嚴重度的

告警屬性

,這條告警的嚴重度即為設定的嚴重度;這種情況一般對确定性的監控目标來設定。

下面以一個15分鐘内Nginx日志的500錯誤次數為監控目标,來舉例說明告警嚴重度的設定。比

如在15分鐘内出現500錯誤的次數超過了10次,就觸發告警,這條告警的嚴重度設定為中,也就是錯誤次數達到11次或者80次,産生的告警嚴重度都是中,告警監控規則中配置的即為告警觸發時的嚴重度。

SLS新版告警入門-告警嚴重度

動态告警嚴重度

SLS新版告警的告警監控規則支援通過監控名額的值的範圍來設定動态嚴重度。動态告警嚴重度時指在配置監控規則時,我們可以根據監控名額的值的不同範圍,來指定不同的嚴重度,比如監控目标是CPU使用率,超過70%就告警,但是如果CPU使用率在80%以下,告警嚴重度為中;CPU使用率在90%以下嚴重度為高,在90%以上嚴重度為嚴重。

下圖展示了某監控名額的值在不同的區間時,産生的告警可以設定為不同的嚴重度,不同的顔色框标記不同的嚴重度,比如取值區間在0-20之間嚴重度為中(綠色顯示),20-40之間嚴重度為高(黃色顯示),40-60之間嚴重度是嚴重(紅色顯示)。

SLS新版告警入門-告警嚴重度

接下來以Nginx日志為例,監控某站點的500錯誤環比昨天同時期,有沒有增高,如果有增高5%發出告警,同比超過100%時為嚴重,超過50%為高,其他超過10%時告警為中。

SLS新版告警入門-告警嚴重度

多條件判斷順序自上而下

設定動态告警嚴重度時,可以設定多個不同的“當...時嚴重度為...”,如上圖所示,在設定時需要把條件更嚴格的放在上面,條件更寬松的放在下面;比如ratio >= 1 比 ratio >= 0.5的條件為嚴格,是以ratio >= 1 需要放在上面,當且僅當上面的條件不滿足時,才會評估下面的條件,如果先判斷ratio >= 1 是否滿足,如果不滿足,會判斷 ratio >= 0.5,如果還不滿足,就會走到預設嚴重度。

預設嚴重度不可省略

在設定動态嚴重度時,預設嚴重度不可省略,預設嚴重度是一個托底行為,上面的所有條件都不滿足時,會比對到預設嚴重度。

與觸發條件的關系

告警嚴重度中的條件設定與觸發條件中的評估表達式文法類似,告警嚴重度的判斷是在觸發條件判斷之後。觸發條件用來決定告警是否觸發,隻有在觸發後,觸發産生一條告警,告警的嚴重度才有意義,一般情況下,動态告警嚴重度的條件需要比觸發條件設定的嚴格一些,比如上述例子中觸發條件是ratio > 0.05,動态嚴重度的設定條件可以設定為ratio >= 0.5和ratio >= 1

告警嚴重度在分組評估中的使用

在SLS新版告警監控中,有一個

分組評估

的設定,允許使用者對監控目标進行分組評估,告警嚴重度的判斷也是在分組之後進行的,會對每組産生的告警進行嚴重度評估。

比如可以同時監控不同ECS産生的監控資料,在配置對這些ECS的時序監控時,隻需要分組條件設定為标簽自動,觸發條件設定為 value > 80%時,如下圖,host2,host3,host4會分别産生一條告警資訊。

SLS新版告警入門-告警嚴重度

産生的告警如下

SLS新版告警入門-告警嚴重度

同理,動态告警嚴重度也會根據每組中的名額值,來判斷不同的嚴重度,比如我們在設定value > 95時告警嚴重度為嚴重,value > 90 時嚴重度為高;

則在上述例子中host3, host4産生的告警2和告警3為嚴重,host2産生的告警1嚴重度為高。

至此,在SLS新版中告警的嚴重度介紹就完畢了,其中主要涉及靜态告警嚴重度和動态告警嚴重度的設定,動态告警嚴重度的設定使得監控配置更加的靈活。

參考

  • 什麼是日志服務告警【 連結
  • SLS告警-設定告警嚴重度【
  • SLS告警-告警抑制政策【

進一步參考

SLS新版告警入門-告警嚴重度

最後,如果您還想了解更多智能運維前沿資訊,歡迎您報名參加【數智創新行·智能運維專場】。

6月25日|上海·西岸國際人工智能中心

數智創新行上海站·智能運維專場

阿裡雲将帶來雲原生智能運維解決方案,滿足海量事件有效感覺、高效響應,可觀測資料統一分析、故障定位,以及基于AI的異常檢測等需求,助力企業建構自己的運維平台,成為開發、運維人員高效可靠的助手。

掃描海報二維碼或點選下方連結報名, 期待您一起開啟智能運維新時代!

https://www.aliyun.com/page-source//developer/special/osssalon
SLS新版告警入門-告警嚴重度

繼續閱讀