优雅关闭:如何避免服务停机带来的业务损失?
本讲深入探讨RPC中的优雅关闭机制。服务重启时,若未妥善处理,可能导致调用方请求失败。通过引入关闭钩子、连接通知与请求挡板,结合引用计数等待在途请求完成,可实现无损下线,保障系统稳定与业务连续性。
如何做好SQL质量监控
SLS推出用户级SQL质量监控功能,集成于CloudLens for SLS,提供健康分、服务指标、运行明细、SQL Pattern分析及优化建议五大维度,助力用户全面掌握SQL使用情况,实现精细化管理与性能优化。
健康检测:这个节点都挂了,为啥还要疯狂发请求?
本文深入探讨RPC框架中的服务健康检测机制,针对超大规模集群中节点“半死不活”导致请求失败的问题,分析传统心跳机制的局限性。提出结合业务请求可用率的动态评估方案,避免误判与漏判,并通过多机房部署探活程序提升检测可靠性,最终实现“推拉结合,以拉为准”的最终一致性目标,保障业务高可用。
如何做好SQL质量监控
SLS推出用户级SQL质量监控功能,集成于CloudLens for SLS,提供健康分、服务指标、运行明细、SQL Pattern分析及优化建议五大维度,助力用户全面掌握SQL使用情况,精准识别高耗业务、排查错误根源,提升资源利用与管理效率。
生产环境缺陷管理
针对大型团队多分支开发中bug协同难、易漏修漏发等问题,我们基于go-git打造了通用型工具git-poison,实现分布式、自动化bug追溯与管理。通过“投毒-解毒-银针”机制,精准阻塞带未修复bug的发布,避免人为疏漏导致的生产故障,显著降低沟通成本,提升发布安全与效率,已在百人团队落地验证。
物理部署图
物理部署图描述系统运行时的硬件配置与软件部署结构,展现节点、构件、物件及连接关系,帮助理解分布式系统的网络架构与运维部署,是实现软硬件协同运行的重要设计工具。
物理部署图
物理部署图从运维视角展示系统运行时的硬件配置与软件部署结构,描述节点、构件、物件及连接关系,常用于理解分布式系统。通过UML元素呈现应用如何在硬件上部署运行。
如何做好SQL质量监控
SLS推出用户级SQL质量监控功能,集成于CloudLens for SLS,提供健康分、服务指标、运行明细、SQL Pattern分析及优化建议五大维度,帮助用户全面掌握SQL使用情况,精准识别高耗能业务,优化查询性能与资源治理。
整合Logback,滚动记录+多文件
logback-spring.xml配置文件实现日志分级输出,支持控制台与文件双写入,按日滚动归档。通过LogProxy获取指定名称的Logger,实现INFO、ERROR、SQL、支付、任务等模块化日志分离,便于排查问题与运维管理。