天天看點

SLS新版告警入門-監控主機CPU異常進一步參考

背景

随着使用者量的增加,背景服務經常需要部署在多台伺服器或者叢集中來提高性能和增強可用性,在提供服務的過程中,由于程式bug或者業務徒增導緻CPU飙高,如果CPU持續飙高,可能會導緻機器down機,對服務造成不可用。

是以,及時發現CPU資源緊張,并發出告警非常重要。

本文以此為背景,在主機監控時序資料中,配置SLS告警,來監控主機CPU飙高,并且在CPU飙高時發出告警到釘釘機器人;

SLS新版告警入門-監控主機CPU異常進一步參考

主要步驟

  • 設定監控目标,主機監控,時序資料
  • 配置告警規則:設定觸發告警
  • 設定行動政策:設定告警觸發後的通知管道
  • 接收告警通知

配置告警

查詢主機CPU使用率

  • 如果未接入主機監控資料,可以使用主機監控模拟接入來生成時序資料【 參考
  • 接入主機監控時序資料後,切到相應的時序庫,比如ecs-metric;點選查詢分析,選擇名額cpu_util,點選右邊預覽按鈕;頁面上方會展示出時序資料的圖表
    SLS新版告警入門-監控主機CPU異常進一步參考
  • 滑鼠滑過某個點區域,可以看到不同次元下名額值;接下來的告警将按照時序的次元來發出告警
    SLS新版告警入門-監控主機CPU異常進一步參考

配置告警規則

  • 在上述查詢頁面中,點選頁面右邊的另存為告警按鈕
    SLS新版告警入門-監控主機CPU異常進一步參考
  • 首次配置(每個使用者僅需配置一次):需要選擇告警中心Project的存儲位置,告警中心Project中預設有一個internal-alert-center-log的logstore(免費),會存儲一些告警的重要日志,還有三個重要報表供查詢分析,包括告警鍊路中心,監控規則中心,告警排障中心。
SLS新版告警入門-監控主機CPU異常進一步參考
  • 接下來将對名額值進行監控,如果cpu_util的值大于200%,需要發出告警給指定的釘釘機器人。
  • 配置告警規則名,觸發條件,和添加标注
SLS新版告警入門-監控主機CPU異常進一步參考
  • 觸發條件這裡設定的value > 200,表示任意機器的cpu_util高于200%,觸發告警;【 】.
  • 對于時序庫,使用SQL+PromQL查詢分析,value表示某個時間點對應的值;【
  • 标注預設包含标題和描述:在标題和描述中我們可以引用時序查詢結果中的hostname,ip和value;
  • 注意promql_query查詢出來的labels會被展開;
  • 标注标題:機器CPU過高
  • 标題描述:機器${hostname}CPU過高,目前值為${value}% 

新增行動政策

行動政策是指告警觸發後,需要執行什麼動作,比如可以發送郵件,發送釘釘,調用webhook等;這裡以首次配置行動政策為例,來講如何新增行動政策。

  • 點選新增,會跳轉到建立行動政策頁面,目前頁面不要關閉。
SLS新版告警入門-監控主機CPU異常進一步參考
  • 接下來在界面上配置行動政策,填寫行動政策ID和行動政策名稱,點選行動的小icon(上圖紅框位置),添加通知管道;
SLS新版告警入門-監控主機CPU異常進一步參考
  • 這裡通知管道例子使用釘釘機器人來通知,需要事先配置好釘釘機器人[參考],注意釘釘機器人的安全設定,可以啟用自定義關鍵詞,填入“告警”;行動組,選擇管道釘釘,請求位址寫釘釘機器人的Webhook,内容模闆選擇預設模闆【 内容模闆參考
SLS新版告警入門-監控主機CPU異常進一步參考
  • 點選結束按鈕
    SLS新版告警入門-監控主機CPU異常進一步參考
  • 會增加一個結束節點
SLS新版告警入門-監控主機CPU異常進一步參考
  • 點選确認按鈕,即建立好了行動政策
SLS新版告警入門-監控主機CPU異常進一步參考

配置行動政策

  • 建立完行動政策,傳回告警規則頁面,點選告警政策的重新整理按鈕
SLS新版告警入門-監控主機CPU異常進一步參考
  • 點選行動政策的下拉框,選擇剛才建立的行動政策
SLS新版告警入門-監控主機CPU異常進一步參考
  • 其他保持預設,點選确認按鈕,儲存告警規則

  • 等待5分鐘,在釘釘中可以收到告警消息,因為在配置告警規則時,分組評估預設為标簽自動,表示會按照時序的次元分開來告警,可以從下圖看到有兩台ECS出現CPU飙高,分别有兩條告警消息
  • 點選查詢詳情可以跳轉到告警執行時刻的日志查詢頁面,點選屏蔽5分鐘可以跳轉到告警規則頁面。
SLS新版告警入門-監控主機CPU異常進一步參考

常見問題

  • 如果想盡快收到告警,可以在配置告警規則步驟中,将檢查頻率設定為1分鐘;觸發條件設定為value > 80,這樣更容易觸發告警;
  • 釘釘機器人未收到告警可以排查是否設定了安全關鍵詞;

至此,一個監控主機CPU飙高的告警例子就完成了。這裡隻是一個簡單的告警項目,示範了告警的一些基本功能,SLS告警具有非常強大的功能,新版告警提供對日志、時序等各類資料的告警監控,亦可接受三方告警,對告警進行降噪、事件管理、通知管理等,新增40+功能場景,充分考慮研發、運維、安全以及營運人員的告警監控運維需求。【

更多參考

  • 什麼是日志服務告警【 連結
  • 告警監控,建立告警規則【
  • 告警管理,建立告警規則【
  • 使用者管理,建立使用者及使用者組【
  • 通知管理【

進一步參考

SLS新版告警入門-監控主機CPU異常進一步參考

最後,如果您還想了解更多智能運維前沿資訊,歡迎您報名參加【數智創新行·智能運維專場】。

6月25日|上海·西岸國際人工智能中心

數智創新行上海站·智能運維專場

阿裡雲将帶來雲原生智能運維解決方案,滿足海量事件有效感覺、高效響應,可觀測資料統一分析、故障定位,以及基于AI的異常檢測等需求,助力企業建構自己的運維平台,成為開發、運維人員高效可靠的助手。

掃描海報二維碼或點選下方連結報名, 期待您一起開啟智能運維新時代!

https://www.aliyun.com/page-source//developer/special/osssalon
SLS新版告警入門-監控主機CPU異常進一步參考

繼續閱讀