项目管理—服务治理

简介: 日常服务管理,关注服务异常、告警、性能等方面指标,服务owner职责

重点监控指标

关注责任田内微服务应用错误日志、存储性能、POD性能、接口响应时长等指标
错误日志:关注LTS近一周的ERROR关键字命中
存储性能:同数据库多实例,关注CPU、MEM、IOPS,是否触发告警或者有尖刺现象,重点关注峰值和慢SQL
POD性能:关注应用平均负载,如CPU、MEM、入网出网流量、峰值指标等
接口响应时长:SkyWalking,关注应用Top10的RTS等指标

应用错误日志

各服务设置告警,通过日常告警进行观察修复,正常业务异常不需要告警,系统运行异常需告警(通过邮件、办公软件等方式)。
发生告警需按业务告警等级修复,重点业务需立即修复,非重点业务按周统一修复。

存储性能

关注业务数据量及数据库性能是否稳定,在业务量上升期需重点关注。

POD性能

观察POD各项指标,关注系统使用高峰期,是否需要扩容/缩容进行节点调整。

接口响应时长

优化接口响应时间,提升系统使用体验。

Owner主要职责

  1. 关注微服务性能,对各项指标持续跟踪和优化
  2. 对系统代码质量负责,包括核心接口内聚、代码复杂度、代码易读性等
  3. 存储改动等整体方案适配需要强把控,确保领域建模标准
  4. 领域内应用告警第一责任人,需要主责跟踪和解决
相关文章
|
存储 自然语言处理 Ubuntu
elasticsearch的字符串动态映射
在使用elasticsearch的动态映射能力时,字符串内容映射有些要注意的地方,咱们通过实战一起了解
250 0
elasticsearch的字符串动态映射
|
1天前
|
数据采集 人工智能 安全
|
11天前
|
云安全 监控 安全
|
2天前
|
自然语言处理 API
万相 Wan2.6 全新升级发布!人人都能当导演的时代来了
通义万相2.6全新升级,支持文生图、图生视频、文生视频,打造电影级创作体验。智能分镜、角色扮演、音画同步,让创意一键成片,大众也能轻松制作高质量短视频。
983 151
|
2天前
|
编解码 人工智能 机器人
通义万相2.6,模型使用指南
智能分镜 | 多镜头叙事 | 支持15秒视频生成 | 高品质声音生成 | 多人稳定对话
|
16天前
|
机器学习/深度学习 人工智能 自然语言处理
Z-Image:冲击体验上限的下一代图像生成模型
通义实验室推出全新文生图模型Z-Image,以6B参数实现“快、稳、轻、准”突破。Turbo版本仅需8步亚秒级生成,支持16GB显存设备,中英双语理解与文字渲染尤为出色,真实感和美学表现媲美国际顶尖模型,被誉为“最值得关注的开源生图模型之一”。
1684 8
|
8天前
|
人工智能 自然语言处理 API
一句话生成拓扑图!AI+Draw.io 封神开源组合,工具让你的效率爆炸
一句话生成拓扑图!next-ai-draw-io 结合 AI 与 Draw.io,通过自然语言秒出架构图,支持私有部署、免费大模型接口,彻底解放生产力,绘图效率直接爆炸。
630 152
|
10天前
|
人工智能 安全 前端开发
AgentScope Java v1.0 发布,让 Java 开发者轻松构建企业级 Agentic 应用
AgentScope 重磅发布 Java 版本,拥抱企业开发主流技术栈。
601 15