本文始發于:雲栖社群
時間:2020-06-01
原文連結:
https://yq.aliyun.com/articles/763123
1.目标定位
1.1背景
- 告警管控平台種類繁多
- 告警出現後未及時發現處理最終導緻故障産生
- 專有雲監控能力拉起依賴版本更新,操作複雜,疊代慢
- 異常問題和故障的感覺力不如客戶
1.2目标
- 制定告警資料接入規範
- 實作告警統一集中展示
- 建設多種告警外發通知
- 獨立部署、快速疊代
- 告警嚴重程度區分,提升感覺力
1.3定位

圖1:TAC定位
2.平台簡介
2.1介紹
SRE技術保障平台-盯屏中心(TAC-TAM Alarm Center)是TAM為混合雲精心打造的一站式告警運維平台,覆寫混合雲所涉及的雲産品、大資料、雲執行個體以及使用者所涉及的站點應用等告警,提供告警生命周期管理以及報警外發等解決方案。幫助混合雲平台快速發現、定位異常問題,協助産品團隊促進産品改進。
2.2特點
2.2.1告警彙聚
- 預設內建:雲平台、大資料、雲執行個體、站點應用
- 支援擴充:自定義監控
2.2.2報警通道
- 釘釘&本地化釘釘
- 短信服務
- 企業郵箱
- 警務微信
2.3業務服務流程
圖2:TAC業務服務流程圖
3.主要功能及界面展示
3.1告警盯屏中心
- 實時展示雲平台目前所有的告警資料以及列出近7天的産品告警TOP排行, 一目了然告警資料, 提升感覺力。
圖3:告警盯屏中心界面展示
3.2SRE運維大盤
- 通過名額化,更友善檢視産品的健康狀況,判斷是否有故障;
- 名額項包含:健康率、成功率、轉執行個體、準時率、正常率、運作率、使用率、寫成功率、讀成功率。
圖4:SRE運維大盤界面展示
3.3告警工作台
- 使用者可以在平台告警頁面上認領新增的待處理告警,線下處理完成後可以在我的告警頁面上關閉該告警。
- 當認領了自己不擅長處理的産品告警,可以通過線上轉發的方式移交給擅長處理的同學。
- 若出現長期無法處理的告警,在确認無影響的情況下可以選擇忽略該告警,避免一直外發造成消息轟炸。
- 自動恢複的告警無需手動認領關閉,在曆史告警中可以進行檢視。
圖5:告警工作台界面展示
3.4事件服務中心
- 打破簽字、短信、郵件式古老的運維管理方式,為客戶将衆多的線下流程移⾄線上,預設相應的管理體系,以線上送出、線上回報的模式,可以統一管理、追蹤閉環、資料存檔,為⽇常流程管理工作提供更多解決⽅法,逐漸代替線下管理。
圖6:事件服務中心界面展示
3.5告警控制政策
- 支援設定自動分派政策,當指定産品出現告警自動認領告警;
- 當天首次出現的告警立即通知,非首次出現的告警遵循1440分鐘的靜默期後通知;
- 支援控制告警發送時的狀态,“發生時”、“認領時”、“關閉時”;
- 支援預約在指定的時間範圍内使某一類型的告警進入靜默期,告警外發暫時失效;
- 支援對告警推送的告警類型,産品,級别,部門,項目等進行自定義配置。
圖7:告警控制政策界面展示
3.6告警推送政策
- 提供使用者體系,系統會識别使用者的手機号碼以及郵箱位址來發送告警;
- 提供釘釘、短信、郵件的外發的webhook,api接口的配置;
- 可以選擇的一個或多個告警政策自定義配置推送告警
圖8:告警推送政策界面展示
3.7監控網關
- 支援在監控任務頁面配置使用者關心的網站、機器或某個接口,TAC根據規則進行監控;
- 若現場之前有提供過黑屏化的監控工具,使用者可以在注冊API頁面注冊一個APP,根據接口調用規範将監控結果上報至TAC以第三方告警來展示和外發。
圖9:監控網關界面展示
3.8釘釘通知
圖10:釘釘通知效果展示
4.結語
目前,混合雲多數項目已認證TAC實作告警通知功能。有效提高告警處理效率,減少因告警未及時處理導緻故障的情況,大幅提高項目運維品質,減少項目人力投入成本。
作者:黃家亮
阿裡雲智能GTS-SRE團隊資深技術支援工程師
7年IT從業經驗,超3年阿裡專有雲運維管理經驗,現就職于阿裡雲智能GTS-SRE團隊,負責運維開發工作,期間深度參與并負責銅雀、TAM企業服務營運管理平台以及TAC報警中心三個系統從0到1的建設工作,有效提高專有雲運維能力和效率。
我們是阿裡雲智能全球技術服務-SRE團隊,我們緻力成為一個以技術為基礎、面向服務、保障業務系統高可用的工程師團隊;提供專業、體系化的SRE服務,幫助廣大客戶更好地使用雲、基于雲建構更加穩定可靠的業務系統,提升業務穩定性。我們期望能夠分享更多幫助企業客戶上雲、用好雲,讓客戶雲上業務運作更加穩定可靠的技術,您可用釘釘掃描下方二維碼,加入阿裡雲SRE技術學院釘釘圈子,和更多雲上人交流關于雲平台的那些事。