天天看點

封神-核心功能 | 釘釘告警+資料網關

封神-核心功能 | 釘釘告警+資料網關

1. 開發背景

1.1 使用者痛點

①租戶側運維能力弱

問題:租戶側,客戶沒有有效途徑,及時地擷取執行個體級的狀态、性能、容量的資料。

現狀:每日固定時間,駐場需要人肉收集資料,釘釘定時推送給客戶。

②問題排查效率低

問題:應用業務有問題,雲平台産品正常,客戶并不認可,需要幫助客戶解決問題。

現狀:發現應用執行個體出現性能、容量被打滿的問題,這個排查過程往往冗長, 效率很低。

③監控能力缺失

問題:雲平台監控不全,容量管理、性能管理等報表能力缺失。

現狀:駐場需要通過大量人肉巡檢,或者編寫腳本。

④監控 方式時效性低

問題:業務側總會優先于應用與雲平台感覺到故障,運維非常被動 。

現狀:客戶發現問題,通知應用,應用檢查後,再溯源到雲平台,排查鍊路串行并且低效。

1.2 解決方案

①保障業務穩定

通過雲産品的服務能力的變化情況及業務仿真模型的建立,提前預知客戶業務健康度,低于基線後便會觸發告警。

②SLA化展示

觸發門檻值自動報警,量化産品健康狀況。

2. 開發設計

2.1 系統架構

封神-核心功能 | 釘釘告警+資料網關

圖1:系統架構圖

封神系統架構如圖1所示,分為CLIENT與SERVER端兩大子產品。

  • CLINET端:部署在經典網銅雀容器内,通過定時任務控制去采集雲内各産品資料。
  • SERVER端:部署在VPC内ECS上,系統架構為FLASK,分為資料處理與資料存儲兩大部分。

    ①資料處理是指通過提供API接受CLIENT的資料并進行入庫操作以及資料的前端展示。

    ②資料存儲是指借助阿裡雲RDS資料庫,對資料進行持久化操作作。

2.2 業務架構

封神-核心功能 | 釘釘告警+資料網關

圖2:業務架構圖

封神業務架構如如2所示,分為五大闆塊。

  • 姜子牙:租戶側告警,主要包括ECS、RDS等雲産品執行個體性能以及業務相關告警。
  • 申公豹:運維側告警,主要包括雲産品健康狀态、水位容量等相關告警。
  • 雷震子:硬體告警,主要包括壞盤,實體機帶外等告警。
  • 比 幹:安全告警,主要來自雲盾相關安全類告警。
  • 楊 戬:故障告警,主要對各産品資料進行SLA算法處理,設定P0,P1等級故障門檻值。

3. 釘釘告警展示

封神-核心功能 | 釘釘告警+資料網關

圖3:姜子牙

封神-核心功能 | 釘釘告警+資料網關

圖4:申公豹

封神-核心功能 | 釘釘告警+資料網關

圖5:雷震子

封神-核心功能 | 釘釘告警+資料網關

圖6:比幹

封神-核心功能 | 釘釘告警+資料網關

圖7:楊戬-1

封神-核心功能 | 釘釘告警+資料網關

圖7:楊戬-2

封神-核心功能 | 釘釘告警+資料網關

圖7:楊戬-3

封神-核心功能 | 釘釘告警+資料網關

圖7:楊戬-4

4. 資料網關

資料網關分為兩大子產品:擷取資料、接收資料。

  • 擷取資料分為告警資料、全量資料、性能資料。

    ①告警資料:分别對應釘釘機器人推送的告警資訊,封裝成相應的資料格式,以API接口形式對外提供資料。

    ②全量資料:資料庫源表資料,不做任何加工處理,以API接口形式對外提供資料,可操作性較高。

    ③性能資料:産品性能資料會定期存儲到時序資料庫,存儲時間長,可查詢曆史性能資料。

  • 接收資料:提供對外API接收客戶自定義監控資料,封裝成MARKDOWN格式,實時進行釘釘告警。

4.1 擷取資料

4.1.1 告警資料

4.1.1.1 請求接口

請求方式:POST請求

URL位址:

http://

{ip}:{port}/api/v1/search/monitor

ip:封神ecs_ip

port:9**0

PARAM:參數清單可檢視文後資料[2]了解詳情。

封神-核心功能 | 釘釘告警+資料網關

4.1.1.2 DEMO

import sys
import requests
url = "http://{ip}:{port}/api/v1/search/monitor/"
data = {"product":"MQ", "title":"積壓告警", "stime":"2020-01-04 00:00:00", "etime":"2020-01-04 00:01:00"}
res = requests.post(url=url, json=data)
print res.content           
curl -H "Content-Type:application/json" 
-X POST -d '{"type":"ALL"}' http://{ip}:{port}/api/v1/search/monitor/           

4.1.1.3 資料傳回

封神-核心功能 | 釘釘告警+資料網關

①目前存在告警

{"code":0, "data":[{"info":"0.0.0.0,ecs,95% \n 0.0.0.1,ecs,95% ", "product":"ECS", "title":"性能告警", "level":"告警", "robot":"姜子牙", "monitor_time":"2020-01-14 00:00:00", "columns":"IP,産品,值"}]}

②目前未存在告警資料(告警恢複正常)

{"code":0, "data":[{"info":"", "product":"ECS", "title":"性能告警", "level":"告警", "robot":"姜子牙", "monitor_time":"2020-01-14 00:00:00", "columns":"IP,産品,值"}]}

③未查詢到資料:

{"code":0, "data":[]}

④查詢異常:

{"code":500, "data":"異常資訊"}

4.1.2 全量資料

4.1.2.1 請求接口

{ip}:{port}/api/v1/search/data/

封神-核心功能 | 釘釘告警+資料網關

4.1.2.2 DEMO

import sys
import requests
url = "http://{ip}:{port}/api/v1/search/data/"
data = {"product":"MQ", "title":"TIME", "stime":"2020-01-04 00:00:00", "etime":"2020-01-04 00:01:00"}
res = requests.post(url=url, json=data)
print res.content           

4.1.2.3 資料傳回

封神-核心功能 | 釘釘告警+資料網關
4.1.3 性能資料

4.1.3.1 請求接口

{ip}:{port}/api/v1/influxdb_query/

PARAM:參數為INFLUXDB SQL

封神-核心功能 | 釘釘告警+資料網關

4.1.3.2 DEMO

import sys
import requests
url = "http://{ip}:{port}/api/v1/influxdb_query/"
data = {"sql":"infudb sql"}
res = requests.post(url, data)
print res.content           

4.1.3.3 資料傳回

封神-核心功能 | 釘釘告警+資料網關

4.2 接收資料

4.2.1 請求接口

{ip}:{port}/api/v1/insert/third

PARAM:

封神-核心功能 | 釘釘告警+資料網關
4.2.2 DEMO
import sys
import requests
url = "http://1**.0.0.1:9**0/api/v1/insert/third/"
data = {"title":"ecs性能監控", "level":"預警", "source":"雲監控", "product":"ecs", "msg":"ip:10.0.0.1 cpu:98% ip:127.0.0.1 mem:99%", "robot":"姜子牙", "submitor":"高德臣", "monitor_time":"2021-03-10 16:00:00", "details":"兄弟 關注下"}
res = requests.post(url=url, json=data)
print res.text           
4.2.3 告警展示
封神-核心功能 | 釘釘告警+資料網關

圖8:告警展示圖

參考文章

[1] 封神榜部署前置檢查:

https://yuque.antfin-inc.com/docs/share/d3a743db-af85-47d2-89c5-4f22eb1693c5?

[2] 擷取封神資料-三方API:

https://yuque.antfin-inc.com/docs/share/2037fbb2-35fa-42ad-8476-ec7502e9ed33?#

我們是阿裡雲智能全球技術服務-SRE團隊,我們緻力成為一個以技術為基礎、面向服務、保障業務系統高可用的工程師團隊;提供專業、體系化的SRE服務,幫助廣大客戶更好地使用雲、基于雲建構更加穩定可靠的業務系統,提升業務穩定性。我們期望能夠分享更多幫助企業客戶上雲、用好雲,讓客戶雲上業務運作更加穩定可靠的技術,您可用釘釘掃描下方二維碼,加入阿裡雲SRE技術學院釘釘圈子,和更多雲上人交流關于雲平台的那些事。

封神-核心功能 | 釘釘告警+資料網關