
1. 项目背景
平台运维过程中,平台用户必然会产生一些问题。在最初运维阶段均是由用户直接与平台运维人员进行沟通,反馈问题或提出一些疑问,如此势必会增加大量的沟通成本,如图1所示。在长期运维过程中会暴露出如下问题。
图1
1.1 用户痛点
①不清楚有问题该去找谁解决或找不到人;
②无法感知问题处理进度;
③沟通成本较高,重要问题无法及时处理;
1.2 运维痛点
①内部信息不能有效共享;
②问题管理多入口,问题跟踪混乱,重复解决相同问题;
③问题处理周期长,交接过程繁琐易遗漏问题;
2. 业务架构
2.1 架构说明
问题管理机器人是用于帮助运维人员与用户建立各种类型的问题处理流程,管理所有的问题并跟踪记录这些问题的处理方法,同时为用户提供一个分配、流转和协作处理问题的工作平台。
问题管理机器人以解决问题为导向,通过对问题入口的统一,用户侧/运维侧业务入口均为钉钉群。钉钉群分为妲己(用户侧)/纣王(运维侧),客户问题在妲己群中提出并流转至纣王群,由运维人员进行接单处理,如图2所示。
图2
2.2 功能特点
- 依赖钉钉机器人集中管理所有的问题,手机、电脑多终端适配;
- 记录所有问题,保证它们被及时处理并最终解决,避免问题被忽略、拖延或遗忘,并不断累积;
- 从问题被录入开始,便一直有人对其负责,直至问题被关闭;
- 记录问题处理过程的全部信息(如处理人、处理时长、处理内容等);
- 减少大量询问、督促、报告等沟通工作;
2.3 功能分组
用户侧群
- 问题录入:规范化录入模板,由用户直接@机器人进行问题录入;
- 问题查询:随时查询问题,获知问题当前处理进度;
- 问题修改:用户可对问题进行指定问题处理人、评价问题、打回问题、加急问题等操作;
- 问题导出:个人维度支持多种导出选项并将问题导出为Excel,方便进行总结汇报;
图3
运维侧群
- 问题查询:多种查询模式,按照自身需求对问题进行查询;
- 问题修改:运维人员可以对问题进行暂挂、标记、变更状态、更新进度、转交问题等操作;
- 问题导出:全局维度支持多种导出选项并将问题导出为Excel,方便进行总结汇报;
- 进度监控:问题处理时长超时提醒,加快问题处理进度;
- 问题播报:定期播报未解决的问题列表,及时发现其中重要问题;
图4
问题大盘
- 数据可视化:按照问题分布平台、产品、处理人员、数量分布等维度生成报表。
- 问题详情:可以搜索问题详情、处理时长等。
图5
3. 问题处理
3.1 处理流程
图6
3.2 流程说明
部分重要流程说明如下:
环节 | 钉钉群 | 角色 | 说明 | 处理状态变更 |
---|---|---|---|---|
1.1 | 客户群 | 用户 | @妲己,机器人自动回复需要下一步操作选项。 | |
1.2 | @妲己机器人,选择录入问题,问题录入成功后,自动将问题推送到驻场群,等待接手。 | 待处理 | ||
1.3 | 妲己(机器人) | @妲己机器人,选择查询问题。 | ||
1.4 | 机器人自动分配问题ID,并推送问题录入详情,如要修改问题,需关闭重新提交。 | |||
1.5 | 回复目前未解决问题,点击问题可以查看详情。 | |||
1.6 | 选择是否修改问题状态,否/临时关闭/已解决。 | |||
1.7 | 选择“临时关闭”-此问题暂挂,问题不会通过“查询问题未解决”查询到,但可以通过“查询问题全部”中显示,通过@妲己修改问题,重新启动问题。 | 处理中->临时关闭 | ||
1.8 | 选择“已解决”-问题关闭,可通过@妲己查询全部问题查看。 | 处理中->已解决 | ||
1.9 | 收到驻场“问题处理更新”消息推送,进行处理状态选择操作。 |
4. 结语
本期为大家介绍了问题管理机器人的设计初衷及目前达到的效果。目前问题管理机器人已服务于数个混合云项目,项目问题跟踪效率明显提升,用户体验提升,大幅降低问题处理过程产生的沟通成本。
接下来会陆续给大家介绍封神的其他模块,包括运维大盘、报表分析、时序数据库等相关知识,敬请期待!
参考文档
[1] 钉钉机器人:
https://developers.dingtalk.com/document/tutorial相关内容
[1]
封神-运维大脑 | 日志检测工具[2]
封神-核心功能 | 钉钉告警+数据网关我们是阿里云智能全球技术服务-SRE团队,我们致力成为一个以技术为基础、面向服务、保障业务系统高可用的工程师团队;提供专业、体系化的SRE服务,帮助广大客户更好地使用云、基于云构建更加稳定可靠的业务系统,提升业务稳定性。我们期望能够分享更多帮助企业客户上云、用好云,让客户云上业务运行更加稳定可靠的技术,您可用钉钉扫描下方二维码,加入阿里云SRE技术学院钉钉圈子,和更多云上人交流关于云平台的那些事。