天天看点

如何监控业务的响应速度?Cloud Insight SDK 实践分享

一直在说 cloud insight 是数据聚合平台,可以用 sdk 和 api 实现业务监控,如今不拿出点实践人们恐怕是不能信服。那今天本文就先简单介绍一下 sdk 可以应用在哪些方面,再举个真实用户场景来让大家看看。

首先说一点,通过 sdk 你可以把你想看的任何数据都接在 cloud insight 平台上,例如运营可以把涉及到的用户数据放上去,让开发,运维,boss 随时都可以看到自己产品的用户,如果涉及到多个层次的指标数据(日活,增长,转化,留存。。。)都有相应的简单操作;开发可以把自己 build 代码的次数,提交的次数放上去;销售也可以把用户签单数,签单额放上去(如果允许的话啊);运维就更不用说了,所有服务器监控指标都可以放上来。

下面介绍一个业务场景的监控,本实例来自真实用户场景。

监控可用性和响应速度,运营的需求要求每次接口响应控制在0.1-0.5s内。如果超出这个时间就要找到问题,进行优化。

在后端添加 serverid 和处理时间并放到 http header 中,通过 curl 去获得后端信息和处理时间,采样后生成报表。

后来改成通过 nginx 记录 upstream 的 response time,采样生成可视化数据。但由于 nginx 日志分布于不同的机器中,收集数据相对来讲还是比较麻烦的。

通过 cloud insight sdk 采集数据,通过探针发送这些数据到后端服务器,后端服务器对数据进行处理,进行展示。

真正操作起来很简单,安装 ci 探针,安装 python sdk,编辑代码,调用系统命令,获取 nginx,php 的响应时间,从几个响应时间中取最大值传到 cloud insight 服务器,探针默认 30s 抓取一次数据,但我们又想每秒统计三次响应最慢的请求,所以写一个定时执行这个命令的脚本。

部署好后,可以在自定义数据仪表盘上看到应用数据。把这些自定义数据放在一张仪表盘上,后期可以直接打开这个自定义仪表盘来查看 php 的响应情况,即使是多个不同服务器中的 nginx 消息也都可以放在一张图表上,效果如下图:

如何监控业务的响应速度?Cloud Insight SDK 实践分享

这样仪表盘是配置完了,其实还可以设置报警策略,在一些指标超出范围时触发报警。

依照平时使用习惯,进入监控界面,首先第一眼就是各个平台概览,看看是不是都在正常运行,正常情况下图标都应该是绿色的,如果变成红色了就点进去看看,上面会有相应报错。

上述平台如果没有问题,就进入仪表盘页面,首先左面是自定义仪表盘,在这就可以查看之前配置的 php 的响应情况,右面是平台仪表盘,一般你系统监控上什么就会自动出现相应的组件信息。

如何监控业务的响应速度?Cloud Insight SDK 实践分享

点击查看业务数据的仪表盘,发现了一个 php 响应时间达到 5s 的异常纪录,查看 ai(application insight) 的 web 事务(web 事务默认会抓取响应超过 2s 的事务),果然发现一个异常缓慢的事务,通过分析(代码级监控)确认问题,解决问题。

sdk 是 cloud insight 团队根据 statsd 进行了修改,方便用户上传自定义指标,目前支持的数据格式有 counters gauges 2种,支持的语言有 python ruby nodejs 3 种,其他的 java php 还在开发中。目前使用 sdk 的前提条件为需要安装 cloud insight agent。agent 的采集周期为 30 s,数据发送周期为 15 s。

我们还将提供 cloud insight api,它拥有更加强大的功能,通过它可以不受任何约束的发送符合 cloud insight 数据格式标准的任意数据,无论本机是否安装了 cloud insight agent,目前在开发中。

监控服务器,简单,一键安装

监控数据库等组件,简单,修改配置文件,重启探针

监控业务数据,依旧简单,使用 sdk

简单列几个有意思的 sdk 监控应用:

监控北京空气质量 监控不同地区 pm2.5

监控闭路电视的硬盘空间 github 上有项目

使用 cloud insight sdk 实现 druid 监控 实现大数据监控

参考文档:

使用oneapm ci sdk实现业务响应速度监控