天天看點

SLS新版告警入門-監控OSS通路日志

背景

客戶A是一家多媒體類公司,主要産品有短視訊App,使用者可以在上面發短視訊,其他使用者可以看到使用者發的短視訊;客戶A使用了阿裡雲OSS來存儲使用者産生的短視訊;App每天的使用者活動具有一定周期性,一般情況下深夜的PV較低,其他時段PV較高。一個典型的pv類似下圖。

SLS新版告警入門-監控OSS通路日志

每天9點-10點之間的PV通路基本持平,如果5号9點-10點的PV是50萬,6号9點-10點的PV是51萬可以了解為正常波動,如果6号9-10點的PV突然變成了100萬或者20萬,應該告警出來,以提醒營運或者開發人員可能會出現問題;

SLS新版告警入門-監控OSS通路日志

本文将以此為背景,配置SLS告警,來監控PV日環比是否有陡增或陡降,如果出現陡增或陡降,比如陡增10%或者陡降10%,發出告警,并發送到釘釘機器人。

主要步驟

  • 設定監控目标,OSS通路日志PV日環比變化
  • 配置告警規則:設定觸發告警門檻值
  • 設定行動政策:設定告警觸發後的通知管道
  • 接收告警通知

配置告警

查詢OSS通路PV昨日環比

  • 如果未接入OSS通路日志,可以使用模拟接入來生成OSS通路日志, 參考
  • 接入OSS通路日志後,在查詢分析中,輸入如下語句

__topic__: oss_access_log and http_status < 400 | select diff[1] as curr, diff[2] as pre, round(diff[3]*100 - 100, 2) as ratio from ( select compare(pv, 86400) as diff from (SELECT count(client_ip) AS PV from log))

  • compare(列名, N),用于對比目前時間周期内的結果,與N秒之前的時間周期内的計算結果;列名:目标列的列名。該列的值必須為double類型或long類型。
  • 傳回值為資料[目前值,N秒前的值,目前值與N秒前的值的比值]
  • 通過 SELECT count(client_ip) AS PV from log求出目前時間周期(比如5分鐘)的pv
  • 通過compare(pv, 86400)求出目前5分鐘的pv,與一天前(86400秒)的同時期的5分鐘的環比資料
  • 通過select diff[1] as curr, diff[2] as pre, round(diff[3]*100 - 100, 2) as ratio,求出目前5分鐘pv(curr), 昨天同時刻的pv(pre),今天比昨天pv的增加百分比(ratio)
  • 查詢結果示例
SLS新版告警入門-監控OSS通路日志

配置告警規則

  • 在上述查詢頁面中,點選右上角另存為告警
SLS新版告警入門-監控OSS通路日志
  • 首次配置(每個使用者僅需配置一次):需要選擇告警中心Project的存儲位置,告警中心Project中預設有一個internal-alert-center-log的logstore(免費),會存儲一些告警的重要日志,還有三個重要報表供查詢分析
SLS新版告警入門-監控OSS通路日志
  • 接下來将對結果中的ratio進行監控,如果超過一定門檻值,升高10%或者降低10%,将要發出告警給指定的釘釘機器人。
  • 配置告警規則名,觸發條件,和添加标注
SLS新版告警入門-監控OSS通路日志
  • 觸發條件這裡設定的是如果PV的環比飙高10%或者降低了10%;【觸發條件文檔】.
  • 觸發條件設定為ratio < (-10) || ratio > 10,(對于負數,加上括号)【文法文檔】
  • 标注預設包含标題和描述:在标題和描述中我們可以引用查詢結果中的變量curr, pre, ratio;
  • 标注标題:OSS通路PV抖動過大
  • 标題描述:OSS通路PV:${curr},抖動為${ratio}%,昨天PV:${pre} 

新增行動政策

行動政策是指告警觸發後,需要執行什麼動作,比如可以發送郵件,發送釘釘,調用webhook等;這裡以首次配置行動政策為例,來講如何新增行動政策。

  • 點選新增,會跳轉到建立行動政策頁面,目前頁面不要關閉。
SLS新版告警入門-監控OSS通路日志
  • 接下來在界面上配置行動政策,填寫行動政策ID和行動政策名稱,點選行動的小icon(上圖紅框位置),添加通知管道;
SLS新版告警入門-監控OSS通路日志
  • 這裡通知管道例子使用釘釘機器人來通知,需要事先配置好釘釘機器人,注意釘釘機器人的安全設定,可以啟用自定義關鍵詞,填入“告警”;行動組,選擇管道釘釘,請求位址寫釘釘機器人的Webhook,内容模闆選擇預設模闆(關于内容模闆可以【 】)
SLS新版告警入門-監控OSS通路日志
  • 點選結束按鈕
    SLS新版告警入門-監控OSS通路日志
  • 會增加一個結束節點
SLS新版告警入門-監控OSS通路日志
  • 點選确認按鈕,即建立好了行動政策
SLS新版告警入門-監控OSS通路日志

配置行動政策

  • 建立完行動政策,傳回告警規則頁面,點選告警政策的重新整理按鈕
    SLS新版告警入門-監控OSS通路日志
  • 點選行動政策的下拉框,選擇剛才建立的行動政策
SLS新版告警入門-監控OSS通路日志
  • 其他保持預設,點選确認按鈕,儲存告警規則

  • 等待5分鐘,在釘釘中可以收到告警消息,點選查詢詳情可以跳轉到告警執行時刻的日志查詢頁面,點選屏蔽5分鐘可以跳轉到告警規則頁面。
SLS新版告警入門-監控OSS通路日志

常見問題

  • 如果想盡快收到告警,可以在配置告警規則步驟中,将檢查頻率設定為1分鐘;觸發條件設定為ratio < (-1) || ratio > 1,這樣更容易觸發告警;
  • 昨日環比用的compare(pv, 86400),在模拟資料時,可能還沒有昨天的資料,這時候可以将對比時間視窗減小,比如使用compare(pv, 120)來表示環比前2分鐘的資料;
  • 釘釘機器人未收到告警可以排查是否設定了安全關鍵詞;

至此,一個監控OSS PV昨日環比抖動的告警例子就完成了。這裡隻是一個簡單的告警項目,示範了告警的一些基本功能,SLS告警具有非常強大的功能,新版告警提供對日志、時序等各類資料的告警監控,亦可接受三方告警,對告警進行降噪、事件管理、通知管理等,新增40+功能場景,充分考慮研發、運維、安全以及營運人員的告警監控運維需求。【

更多參考

  • 什麼是日志服務告警【 連結
  • 告警監控,建立告警規則【
  • 告警管理,建立告警規則【
  • 使用者管理,建立使用者及使用者組【
  • 通知管理【

進一步參考

SLS新版告警入門-監控OSS通路日志

最後,如果您還想了解更多智能運維前沿資訊,歡迎您報名參加【數智創新行·智能運維專場】。

6月25日|上海·西岸國際人工智能中心

數智創新行上海站·智能運維專場

阿裡雲将帶來雲原生智能運維解決方案,滿足海量事件有效感覺、高效響應,可觀測資料統一分析、故障定位,以及基于AI的異常檢測等需求,助力企業建構自己的運維平台,成為開發、運維人員高效可靠的助手。

掃描海報二維碼或點選下方連結報名, 期待您一起開啟智能運維新時代!

https://www.aliyun.com/page-source//developer/special/osssalon
SLS新版告警入門-監控OSS通路日志

繼續閱讀