性能瓶颈定位更快更准:ARMS 持续剖析能力升级解析
本文介绍了阿里云ARMS持续剖析技术,助力企业快速定位云原生应用的性能瓶颈。通过代码热点、CPU热点和内存热点分析,结合AI Copilot与差分火焰图功能,实现高效问题诊断与优化验证,全面提升系统性能与稳定性。
Log/Trace/Metric 完成 APIServer 可观测覆盖
12 月 11 日,OpenAI 出现了全球范围的故障,影响了 ChatGPT/API/Sora/Playground/Labs 等服务,持续时间超过四个小时。究其背后原因,主要是新部署的服务产生大量的对 K8s APIServer 的请求,导致 APIServer 负载升高,最终导致 DNS 解析不能工作,影响了数据面业务的功能。面对 APIServer 这类公用基础组件,如何通过 Log/Trace/Metric 完成一套立体的覆盖体系,快速预警、定位根因,降低不可用时间变得非常重要。