目录

自动化线上巡检系统

一、背景

业务配置复杂,人工难免核查错漏,经常出现一些配置异常问题导致的线上问题。此外,一些偶发的问题,难以排查原因,可以通过巡检的方式检测到,然后立即处理,降低损失。

二、触发方式

一、接入外部调度系统,通过 HTTP 触发

通过接入公司统一的任务调度系统,来管理任务的生命周期(如重试、失败追踪),HTTP 接口让调度系统可以按需触发,同时人工也可以很方便地触发。

二、接入消息系统,通过消息触发

接入公司统一的 databus,全量或者采样消息触发任务,可以检查该消息的数据以及相关系统是否按预期写入内容。

三、通知方式

接入项目管理系统,自动提 bug 单,并自动通过群机器人发送简要内容,通知相关人员处理。

四、运行环境

以微服务的方式运行在公司统一的容器平台,接入和业务服务一样的数据库、缓存系统,能与业务服务交互,能访问数据库、缓存数据。

五、总结

把人工 QA 的检查项转化为可执行的规则。维护成本低,新增巡检项只需实现新的任务处理器+注册路由,扩展成本很低。