SLS舊版本告警概述
日志服務支援為查詢或分析結果設定告警。設定告警後,日志服務定期檢查查詢或分析結果,當檢查結果滿足預設條件時發送告警通知,實作實時的服務狀态監控。

在舊版本的告警中,告警規則以及通知的配置都很簡單直覺,但是也存在着一些痛點,主要如下:
- 通知配置無法複用。例如手機号、郵箱、Webhook或者釘釘機器人的位址、通知内容等資訊。假如多個告警需要發給相同的人,發送相同的通知内容,就需要将使用者聯系方式以及通知内容配置多次,帶來了很多額外的配置負擔。
- 通知功能相對較弱,不支援動态的通知政策。例如:
-
- 多人值班
- 根據是否工作時間選擇不同的通知管道或者通知給不同的人
- 根據告警本身屬性(例如嚴重度等)通知到不同的人
- 容易産生告警風暴。例如某個服務接口挂掉,那麼所有依賴該服務的其它服務都可能報錯觸發告警,此時就會産生大量的通知,但是無法進行聚合和過濾。
- 缺少一些更進階、更靈活的編排功能。
- 等等…
SLS新版本告警概述
為了解決上述種種存在的痛點,我們對SLS的告警功能進行了更新,提供了更加強大的功能。可以完美解決以上的一些痛點。例如:
- 進階、靈活的編排機制(告警政策)
-
- 告警路由合并:避免告警風暴
- 告警抑制:處理告警之間的互相影響
- 告警靜默:預期内告警可以不發通知
- 通知基礎資源管理
-
- 使用者管理:手機号、郵箱的複用
- 使用者組管理:管理一組使用者
- 值班組管理:提供動态靈活的值班機制
- 月曆管理:支援工作時間配置以及國際化時區
- 内容模闆管理:可以複用通知内容
- 通知管理(行動政策)
-
- 通過什麼管道:短信、電話、郵件、釘釘、Webhook、阿裡雲消息中心
- 發送給誰:選擇使用者、使用者組或者值班組
- 發送什麼内容:選擇内容模闆
- 其它配置:例如發送時段(是否是工作時間)、釘釘機器人是否要@某個使用者、等等
完整的介紹可以參考
什麼是日志服務告警,整體的功能架構參考如下:
本文主要講解其中告警管理和通知管理部分内容。
告警管理流程
通常來說,如果要快速了解一個事物,那麼從整體上了解它的脈絡和結構,然後再逐部分細化深究,會起到不錯的效果。因為為了了解SLS新版本告警的處理流程,我們需要先從整體上來看一下,告警觸發後,究竟經曆了什麼。
在這個過程中,我們隻需要牢記兩個東西即可:告警政策、行動政策。其它一切都是圍繞着這兩種政策來進行的。整體上的流程如下圖所示:
簡而言之,告警政策就是對告警進行編排管理,行動政策是處理如何通知的問題。這麼想的話,事情就變得簡單起來,也就是說,當告警出發後,需要先決定哪些告警要發,然後再決定要發給誰,最後就是使用者收到了通知。
其中告警政策通過路由合并、抑制和靜默機制,不僅解決了哪些告警要發送的問題,同時對它們進行了合并,進而可以達到批量發送通知的效果,避免使用者同一時間收到大量的通知。而行動政策不僅解決了複用的問題,還提供了更強大的動态發送機制。
為了達到告警政策和行動政策的強大且靈活的特性,我們提供了一套可視化圖的方式來進行配置,進而可以很直覺地進行各種條件相關的配置。
到此為止,我們可以總結一下:
- 告警管理的核心就是告警政策和行動政策
- 告警政策和行動政策,都是基于可視化互動表單的方式來進行配置
關于它們的具體使用和配置,我們會在接下來的文章中進行詳細的介紹。
最後,如果您還想了解更多智能運維前沿資訊,歡迎您報名參加【數智創新行·智能運維專場】。
6月25日|上海·西岸國際人工智能中心
數智創新行上海站·智能運維專場
阿裡雲将帶來雲原生智能運維解決方案,滿足海量事件有效感覺、高效響應,可觀測資料統一分析、故障定位,以及基于AI的異常檢測等需求,助力企業建構自己的運維平台,成為開發、運維人員高效可靠的助手。
掃描海報二維碼或點選下方連結報名, 期待您一起開啟智能運維新時代!
https://www.aliyun.com/page-source//developer/special/osssalon