自动化线上巡检系统
目录
一、背景
业务配置复杂,人工难免核查错漏,经常出现一些配置异常问题导致的线上问题。此外,一些偶发的问题,难以排查原因,可以通过巡检的方式检测到,然后立即处理,降低损失。
二、触发方式
一、接入外部调度系统,通过 HTTP 触发
通过接入公司统一的任务调度系统,来管理任务的生命周期(如重试、失败追踪),HTTP 接口让调度系统可以按需触发,同时人工也可以很方便地触发。
二、接入消息系统,通过消息触发
接入公司统一的 databus,全量或者采样消息触发任务,可以检查该消息的数据以及相关系统是否按预期写入内容。
三、通知方式
接入项目管理系统,自动提 bug 单,并自动通过群机器人发送简要内容,通知相关人员处理。
四、运行环境
以微服务的方式运行在公司统一的容器平台,接入和业务服务一样的数据库、缓存系统,能与业务服务交互,能访问数据库、缓存数据。
五、总结
把人工 QA 的检查项转化为可执行的规则。维护成本低,新增巡检项只需实现新的任务处理器+注册路由,扩展成本很低。