运维

首页 标签 运维
# 运维 #
关注
37858内容
如何做好SQL质量监控
SLS推出用户级SQL质量监控功能,集成于CloudLens for SLS,提供健康分、服务指标、运行明细、SQL Pattern分析及优化建议五大维度,助力用户全面掌握SQL使用情况,提升查询效率与资源治理能力。
生产环境缺陷管理
为解决大型团队多分支开发中bug漏修、漏发导致的生产故障,我们基于go-git打造了通用化工具git-poison。它实现分布式bug追溯与管理,支持投毒、解毒、银针三步闭环,自动阻塞带未修复bug的发布,降低协同成本,提升发布安全性,已在内部落地应用一年,显著减少“重复翻车”。
优雅关闭:如何避免服务停机带来的业务损失?
本讲深入探讨RPC优雅关闭机制。服务重启时,若未妥善处理,可能导致请求失败。通过引入关闭挡板、ShutdownHook钩子、引用计数与超时控制,确保正在处理的请求完成,新请求被拒绝并触发重试,实现业务无损下线。
如何在线上环境里兼容多种 RPC 协议?
本讲探讨了如何在线上环境兼容多种RPC协议。由于历史原因,系统中常存在多类RPC框架,导致维护成本高。为实现平滑升级,可通过支持多协议共存,利用magic number识别协议类型,动态选择解析方式,实现新老协议无缝切换,降低升级复杂度,提升系统可维护性与扩展性。
如何做好SQL质量监控
SLS推出用户级SQL质量监控功能,集成于CloudLens for SLS,提供健康分、服务指标、运行明细、SQL Pattern分析及优化建议五大维度,助力用户全面掌握SQL使用情况,实现精细化管理与性能优化。
健康检测:这个节点都挂了,为啥还要疯狂发请求?
本文深入探讨RPC框架中的服务健康检测机制,针对超大规模集群中节点“半死不活”导致请求失败的问题,分析传统心跳机制的局限性。提出结合业务请求可用率的动态评估方案,避免误判与漏判,并通过多机房部署探活程序提升检测可靠性,最终实现“推拉结合,以拉为准”的最终一致性目标,保障业务高可用。
生产环境缺陷管理
针对大型团队多分支开发中bug协同难、易漏修漏发等问题,我们基于go-git打造了通用型工具git-poison,实现分布式、自动化bug追溯与管理。通过“投毒-解毒-银针”机制,精准阻塞带未修复bug的发布,避免人为疏漏导致的生产故障,显著降低沟通成本,提升发布安全与效率,已在百人团队落地验证。
物理部署图
物理部署图描述系统运行时的硬件配置与软件部署结构,展现节点、构件、物件及连接关系,帮助理解分布式系统的网络架构与运维部署,是实现软硬件协同运行的重要设计工具。
|
1天前
| |
来自: 数据库
生产环境缺陷管理
git-poison基于go-git实现,通过“投毒-解毒”机制在分布式环境中精准追踪和管理bug,避免多分支开发中bug修复遗漏问题。它自动化同步各角色间的bug信息,降低沟通成本,支持发布卡点与影响范围查询,有效防止“重复翻车”,提升发布安全性与效率,适用于所有git仓库,已成功应用于大型团队实践。
免费试用