重点监控指标
关注责任田内微服务应用错误日志、存储性能、POD性能、接口响应时长等指标
错误日志:关注LTS近一周的ERROR关键字命中
存储性能:同数据库多实例,关注CPU、MEM、IOPS,是否触发告警或者有尖刺现象,重点关注峰值和慢SQL
POD性能:关注应用平均负载,如CPU、MEM、入网出网流量、峰值指标等
接口响应时长:SkyWalking,关注应用Top10的RTS等指标
应用错误日志
各服务设置告警,通过日常告警进行观察修复,正常业务异常不需要告警,系统运行异常需告警(通过邮件、办公软件等方式)。
发生告警需按业务告警等级修复,重点业务需立即修复,非重点业务按周统一修复。
存储性能
关注业务数据量及数据库性能是否稳定,在业务量上升期需重点关注。
POD性能
观察POD各项指标,关注系统使用高峰期,是否需要扩容/缩容进行节点调整。
接口响应时长
优化接口响应时间,提升系统使用体验。
Owner主要职责
- 关注微服务性能,对各项指标持续跟踪和优化
- 对系统代码质量负责,包括核心接口内聚、代码复杂度、代码易读性等
- 存储改动等整体方案适配需要强把控,确保领域建模标准
- 领域内应用告警第一责任人,需要主责跟踪和解决