天天看點

SRE技術保障平台-盯屏中心TAC: 混合雲一站式告警運維平台

本文始發于:雲栖社群

時間:2020-06-01

原文連結:

https://yq.aliyun.com/articles/763123

1.目标定位

1.1背景

  • 告警管控平台種類繁多
  • 告警出現後未及時發現處理最終導緻故障産生
  • 專有雲監控能力拉起依賴版本更新,操作複雜,疊代慢
  • 異常問題和故障的感覺力不如客戶

1.2目标

  • 制定告警資料接入規範
  • 實作告警統一集中展示
  • 建設多種告警外發通知
  • 獨立部署、快速疊代
  • 告警嚴重程度區分,提升感覺力

1.3定位

SRE技術保障平台-盯屏中心TAC: 混合雲一站式告警運維平台

圖1:TAC定位

2.平台簡介

2.1介紹

SRE技術保障平台-盯屏中心(TAC-TAM Alarm Center)是TAM為混合雲精心打造的一站式告警運維平台,覆寫混合雲所涉及的雲産品、大資料、雲執行個體以及使用者所涉及的站點應用等告警,提供告警生命周期管理以及報警外發等解決方案。幫助混合雲平台快速發現、定位異常問題,協助産品團隊促進産品改進。

2.2特點

2.2.1告警彙聚
  • 預設內建:雲平台、大資料、雲執行個體、站點應用
  • 支援擴充:自定義監控
2.2.2報警通道
  • 釘釘&本地化釘釘
  • 短信服務
  • 企業郵箱
  • 警務微信

2.3業務服務流程

SRE技術保障平台-盯屏中心TAC: 混合雲一站式告警運維平台

圖2:TAC業務服務流程圖

3.主要功能及界面展示

3.1告警盯屏中心

  • 實時展示雲平台目前所有的告警資料以及列出近7天的産品告警TOP排行, 一目了然告警資料, 提升感覺力。
SRE技術保障平台-盯屏中心TAC: 混合雲一站式告警運維平台

圖3:告警盯屏中心界面展示

3.2SRE運維大盤

  • 通過名額化,更友善檢視産品的健康狀況,判斷是否有故障;
  • 名額項包含:健康率、成功率、轉執行個體、準時率、正常率、運作率、使用率、寫成功率、讀成功率。
SRE技術保障平台-盯屏中心TAC: 混合雲一站式告警運維平台

圖4:SRE運維大盤界面展示

3.3告警工作台

  • 使用者可以在平台告警頁面上認領新增的待處理告警,線下處理完成後可以在我的告警頁面上關閉該告警。
  • 當認領了自己不擅長處理的産品告警,可以通過線上轉發的方式移交給擅長處理的同學。
  • 若出現長期無法處理的告警,在确認無影響的情況下可以選擇忽略該告警,避免一直外發造成消息轟炸。
  • 自動恢複的告警無需手動認領關閉,在曆史告警中可以進行檢視。
SRE技術保障平台-盯屏中心TAC: 混合雲一站式告警運維平台

圖5:告警工作台界面展示

3.4事件服務中心

  • 打破簽字、短信、郵件式古老的運維管理方式,為客戶将衆多的線下流程移⾄線上,預設相應的管理體系,以線上送出、線上回報的模式,可以統一管理、追蹤閉環、資料存檔,為⽇常流程管理工作提供更多解決⽅法,逐漸代替線下管理。
SRE技術保障平台-盯屏中心TAC: 混合雲一站式告警運維平台

圖6:事件服務中心界面展示

3.5告警控制政策

  • 支援設定自動分派政策,當指定産品出現告警自動認領告警;
  • 當天首次出現的告警立即通知,非首次出現的告警遵循1440分鐘的靜默期後通知;
  • 支援控制告警發送時的狀态,“發生時”、“認領時”、“關閉時”;
  • 支援預約在指定的時間範圍内使某一類型的告警進入靜默期,告警外發暫時失效;
  • 支援對告警推送的告警類型,産品,級别,部門,項目等進行自定義配置。
SRE技術保障平台-盯屏中心TAC: 混合雲一站式告警運維平台

圖7:告警控制政策界面展示

3.6告警推送政策

  • 提供使用者體系,系統會識别使用者的手機号碼以及郵箱位址來發送告警;
  • 提供釘釘、短信、郵件的外發的webhook,api接口的配置;
  • 可以選擇的一個或多個告警政策自定義配置推送告警
SRE技術保障平台-盯屏中心TAC: 混合雲一站式告警運維平台

圖8:告警推送政策界面展示

3.7監控網關

  • 支援在監控任務頁面配置使用者關心的網站、機器或某個接口,TAC根據規則進行監控;
  • 若現場之前有提供過黑屏化的監控工具,使用者可以在注冊API頁面注冊一個APP,根據接口調用規範将監控結果上報至TAC以第三方告警來展示和外發。
SRE技術保障平台-盯屏中心TAC: 混合雲一站式告警運維平台

圖9:監控網關界面展示

3.8釘釘通知

SRE技術保障平台-盯屏中心TAC: 混合雲一站式告警運維平台

圖10:釘釘通知效果展示

4.結語

目前,混合雲多數項目已認證TAC實作告警通知功能。有效提高告警處理效率,減少因告警未及時處理導緻故障的情況,大幅提高項目運維品質,減少項目人力投入成本。

作者:黃家亮

阿裡雲智能GTS-SRE團隊資深技術支援工程師

7年IT從業經驗,超3年阿裡專有雲運維管理經驗,現就職于阿裡雲智能GTS-SRE團隊,負責運維開發工作,期間深度參與并負責銅雀、TAM企業服務營運管理平台以及TAC報警中心三個系統從0到1的建設工作,有效提高專有雲運維能力和效率。

我們是阿裡雲智能全球技術服務-SRE團隊,我們緻力成為一個以技術為基礎、面向服務、保障業務系統高可用的工程師團隊;提供專業、體系化的SRE服務,幫助廣大客戶更好地使用雲、基于雲建構更加穩定可靠的業務系統,提升業務穩定性。我們期望能夠分享更多幫助企業客戶上雲、用好雲,讓客戶雲上業務運作更加穩定可靠的技術,您可用釘釘掃描下方二維碼,加入阿裡雲SRE技術學院釘釘圈子,和更多雲上人交流關于雲平台的那些事。

SRE技術保障平台-盯屏中心TAC: 混合雲一站式告警運維平台

繼續閱讀