天天看點

抑制告警風暴—SLS告警智能合并釋出告警運維系統的痛點SLS一站式告警運維系統SLS最新釋出:告警智能合并總結參考文章

告警運維系統的痛點

随着現代業務的發展,開發運維人員在承擔越來越多的職責和角色。是以日常的開發運維過程中,對于告警監控運維系統是有很高的要求的,但現狀卻不容樂觀,正常的監控運維系統存在如下常見問題

抑制告警風暴—SLS告警智能合并釋出告警運維系統的痛點SLS一站式告警運維系統SLS最新釋出:告警智能合并總結參考文章

在上述常見問題中,我們日常運維過程中遇到的最多、影響最大的便是【告警風暴】問題。運維監控系統,一般都是通過配置固定門檻值、條件,達到門檻值或滿足特定條件後自動觸發告警。運維監控人員經常會困擾于如下的告警風暴場景:

  • 故障期間,告警風暴,手機/郵箱會被海量告警淹沒;
  • 運維人員很難從海量告警從篩選出重要告警,容易忽略重要告警;
  • 固定門檻值控制,頻繁誤報、漏報告警;
  • ...

在監控場景下,一旦出現告警風暴,告警本身就失去了意義和價值。是以需要有一套方案,幫助使用者在不遺漏重要告警前提下,有效減少告警數量。

SLS一站式告警運維系統

阿裡雲SLS

提供了

一站式告警運維系統

,支援對日志、時序等各類資料的告警監控,亦可接受三方告警,對告警進行降噪、事件管理、通知管理等,覆寫40+功能場景,充分考慮研發、運維、安全以及營運人員的告警監控運維需求。

抑制告警風暴—SLS告警智能合并釋出告警運維系統的痛點SLS一站式告警運維系統SLS最新釋出:告警智能合并總結參考文章

其中告警管理子產品為使用者提供了降噪控制的能力,使用者可以通過自定義降噪規則,完成對不同來源的告警的去重、合并、路由、抑制、靜默等降噪操作。

本次釋出對告警管理子產品中的告警合并能力進行更新,支援智能合并,一鍵開啟告警風暴抑制!

SLS最新釋出:告警智能合并

如前述介紹,SLS告警運維系統已經為使用者提供了自定義規則降噪的能力。然而現實環境總是十分複雜的,作為運維人員,往往很難确定如何按照某種固定的規則去對告警進行降噪;即使設定了比較合理的降噪規則,現實場景下也有可能出現意想不到的告警風暴。

是以SLS最新推出了告警智能合并能力,讓使用者隻需一些極簡的配置,便可開啟告警的智能降噪。

1. 什麼是告警智能合并

為了解決告警風暴問題,很多監控系統、平台都推出了告警合并(降噪)功能,來有效地減少告警數量,減輕運維人員的負擔。對于監控系統的運維人員來說,告警的合并不僅可以将相關告警作為單個聚合單元進行管理來降低噪音,還可以引導他們找到告警的可能共同的根本原因。

告警合并分為自定義規則合并和智能合并,其原理是通過一些使用者自定義的合并規則或者智能算法自動合并,将重複、備援或者有關聯的告警合并到一個分組中,并且每個分組的告警在一段時間内隻會通知一次,進而有效減少告警通知的數量。

抑制告警風暴—SLS告警智能合并釋出告警運維系統的痛點SLS一站式告警運維系統SLS最新釋出:告警智能合并總結參考文章

告警智能合并,可以在最小化使用者配置成本的同時,通過機器學習/NLP算法,自動化地去學習告警之間的關聯或相似關系進行合并,達到智能降噪的效果。

2. SLS告警智能合并原理

SLS告警智能合并依托于NLP算法,自動化地去學習告警之間的關聯或相似關系,在不依賴于曆史告警資料的前提下(冷啟動),可以實時地對不同來源的告警進行智能合并,然後再通知給使用者,讓使用者免于告警風暴的困擾。

抑制告警風暴—SLS告警智能合并釋出告警運維系統的痛點SLS一站式告警運維系統SLS最新釋出:告警智能合并總結參考文章

如上圖所示,SLS告警智能合并的核心步驟包括4個步驟:

  1. 多源告警資料彙集:将不同來源的告警資料彙集到一起,進行集中處理;
  2. 告警文本的預處理:基于告警專業特色詞/停用詞庫,資料字典,人工标注資訊等,對告警全文本進行預處理,剔除無用文本,提取關鍵詞。
  3. 告警文本聚類:采用兩種不同的聚類技術對告警文本進行聚類
    1. MinJoin聚類算法:一種通過最小化局部哈希值來進行文本編輯距離計算及聚類的高效率算法
    2. 向量相似度聚類:首先對告警文本進行分詞,接着利用特征工程将其向量化表示,最後基于告警向量之間的相似度(如餘弦相似度等)進行聚類
  1. 聚類蔟合并:将第3步中兩種聚類技術各自得到的聚類結果進行合并,得到一個最終的聚類結果,即是告警智能合并的最終結果。

3. 使用SLS告警智能合并

3.1 開啟告警智能合并模式

隻需要幾個簡單的步驟,便可開啟智能降噪模式:

  • Step1:從SLS Project下的告警中心進入【告警政策】管理子產品;或者從SLS告警管理中心APP進入【業務政策】管理子產品
  • Step2:建立或者修改一條已有的告警政策,在【路由合并政策】中點選開啟【智能合并模式】
抑制告警風暴—SLS告警智能合并釋出告警運維系統的痛點SLS一站式告警運維系統SLS最新釋出:告警智能合并總結參考文章
  • Step3:配置【智能合并模式】的參數
抑制告警風暴—SLS告警智能合并釋出告警運維系統的痛點SLS一站式告警運維系統SLS最新釋出:告警智能合并總結參考文章

完成上述三個步驟的配置後,所有使用該告警政策的告警,将會被智能合并、去重、靜默、路由之後,再通知到使用者。

3.2 智能合并模式相關參數說明

  • 合并基準: 基于告警的哪些資訊進行智能合并,支援【全文】和【自定義】。
    • 預設使用【全文】合并,将基于告警的名稱、所在項目、告警的全部标簽資訊以及全部标注資訊進行智能合并。
    • 使用者也可以自定義合并基準,智能合并子產品将根據使用者自定義的字段,使用智能算法進行合并。
  • 行動政策:定義了通知管道、通知人等邏輯,直接選擇或建立即可。參考 行動政策
  • 首次等待時間: 新觸發的告警,在該時間段内,按智能算法自動合并,然後再通知。
  • 重複等待時間:如果一個告警合并集合已經被發送通知,對于此合并集合,在該配置時間段内,新觸發的告警不會再重複通知。
抑制告警風暴—SLS告警智能合并釋出告警運維系統的痛點SLS一站式告警運維系統SLS最新釋出:告警智能合并總結參考文章
抑制告警風暴—SLS告警智能合并釋出告警運維系統的痛點SLS一站式告警運維系統SLS最新釋出:告警智能合并總結參考文章

4. 智能合并效果展示

  • 通知效果展示

對于OSS公網通路告警,一共觸發了11條告警,涉及了不同的子賬号公網通路不同的OSS Bucket。通過智能合并子產品處理後,這11條告警被合并為同一條告警發送給使用者,有效避免了告警風暴的産生(11條獨立告警的發送)。

抑制告警風暴—SLS告警智能合并釋出告警運維系統的痛點SLS一站式告警運維系統SLS最新釋出:告警智能合并總結參考文章
  • 總體降噪效果展示

下圖是告警的全局鍊路圖,可以看到初始狀态下累計觸發了近15000+次告警,在經過降噪子產品的智能合并、去重、靜默和路由之後,僅通知到使用者374次,降噪比近98%。這有效避免了告警風暴問題,提升運維人員的處理效率。

抑制告警風暴—SLS告警智能合并釋出告警運維系統的痛點SLS一站式告警運維系統SLS最新釋出:告警智能合并總結參考文章

總結

SLS告警智能合并依托于NLP算法,自動化地去學習告警之間的關聯或相似關系,可以實時地對新觸發的告警進行智能合并、去重、路由、靜默,然後再通知給使用者。對于監控系統的運維人員來說,隻需要一些極簡的配置,便可以開啟智能合并模式,有效減少告警風暴帶來的困擾。告警運維人員不僅可以将合并後的告警作為單個聚合單元進行管理來降低噪音,還可以引導他們找到告警的可能共同的根本原因。

參考文章

繼續閱讀