云原生可观测-博文-阿里云开发者社区-阿里云

osswangxining

|

Prometheus 监控 Cloud Native

|

博文

扩展AlertManager集成钉钉助力Istio on ACK可观测性监控能力

阿里云容器服务Kubernetes（简称ACK）支持一键部署Istio，可以参考[文档](https://help.aliyun.com/document_detail/89805.html)在ACK上部署使用Isito。Istio on ACK提供了丰富的监控能力，为网格中的服务收集遥测数据，其中Mixer是负责提供策略控制和遥测收集的Istio组件。使用Prometheus进行监控是Istio

2960 0 0

SelectDB

|

2月前

|

存储人工智能 JSON

|

博文

Litefuse 正式发布：Agent 可观测与效果评估，比 Langfuse 成本低 88%

Litefuse 是一个 Agent 可观测与评估平台，兼容 Langfuse SDK 和 100 多个 AI 生态，并支持 Hermes、OpenClaw、Claude Code 等通用 Agent。存储成本比 Langfuse 降低 88%、简化部署架构、Trace 文本检索效率提升 10 倍，帮助团队以更低成本构建可靠的观测平台。

1163 9 10

bubbleMan

|

9天前

|

人工智能自然语言处理监控

|

博文

开源 APM 详细功能对比：SkyWalking vs Databuff

本文对比 SkyWalking 与 Databuff 在服务监控、链路追踪、拓扑、告警及 AI 问数五大核心场景的实操差异，基于双 Demo 真实界面截图与功能表，突出 Databuff 的 OTLP 原生接入、服务关系首屏、瀑布图着色、中文告警直读及自然语言智能问数等优势，助力团队面向 OTel 统一与智能化运维选型。（239字）

125 3 3

云上的喵酱

|

存储前端开发数据可视化

|

博文

Grafana Loki，轻量级日志系统

本文介绍了基于Grafana、Loki和Alloy构建的轻量级日志系统。Loki是一个由Grafana Labs开发的日志聚合系统，具备高可用性和多租户支持，专注于日志而非指标，通过标签索引而非内容索引实现高效存储。Alloy则是用于收集和转发日志至Loki的强大工具。文章详细描述了系统的架构、组件及其工作流程，并提供了快速搭建指南，包括准备步骤、部署命令及验证方法。此外，还展示了如何使用Grafana查看日志，以及一些基本的LogQL查询示例。最后，作者探讨了Loki架构的独特之处，提出了“巨型单体模块化”的概念，即一个应用既可单体部署也可分布式部署，整体协同实现全部功能。

6004 70 72

1086822487162812

|

7月前

|

人工智能运维监控

|

博文

FinOps for AI 概述

本文探讨生成式AI带来的新型成本挑战，如cost-per-token计费、GPU资源稀缺与波动定价。提出通过FinOps实践实现AI支出管控：建立成本基线、优化资源分配、实施配额与标记、加强跨团队协作，并将财务监控与业务成果对齐，推动AI成本管理从“爬”到“跑”的渐进式成熟。

912 1 1

乘云数字DATABUFF

|

7月前

|

机器学习/深度学习人工智能运维

|

博文

AIOps已逝，欢迎进入AgenticOps（运维智能体）时代

GenAI和智能体技术的爆发，为IT运维打开了一扇新的大门，一个更具主动性、自治性和协作性的新时代已经来临，这就是AgenticOps（基于智能体的IT运维）。

1733 2 2

观测云

|

数据采集 Kubernetes 网络协议

|

博文

eBPF 实践 -- 网络可观测

观测云采集器，是一款开源、一体式的数据采集 Agent，它提供全平台操作系统支持，拥有全面数据采集能力，涵盖基础设施、指标、日志、应用性能、用户访问以及安全巡检等各种场景。通过 eBPF 技术的引入，观测云采集器实践了网络传输层和应用层的部分协议的可观测。

1033 0 0

龙蜥社区（OpenAnolis）

|

数据采集运维监控

|

博文

iLogtail——一款延迟仅在毫秒级的千万实例可观测采集器利器来了 | 龙蜥技术

如何使用 iLogtail 采集各类可观测数据?

1137 0 0

charlieroro

|

缓存 NoSQL Linux

|

博文

Linux调试

本文介绍了Linux调试、性能分析和追踪的培训资料，涵盖调试、性能分析和追踪的基础知识及常用工具。

1757 63 63

阿里云云原生

|

4月前

|

消息中间件人工智能缓存

|

博文

一行命令，给你的 OpenClaw 龙虾装上 X 光机——阿里云可观测，让养虾更经济更安全

本文将聊聊如何用一行命令，给你的 OpenClaw 装上一台 X 光机——让每一次 LLM 调用、每一步工具执行、每一个 Token 的消耗，都从水下浮出水面。

1044 6 7

阿里云云原生

|

存储运维监控

|

博文

跟误告警说再见，Smart Metrics 帮你用算法配告警

本文从两类常见的无效告警规则入手，分析有效告警配置难，误告警泛滥的原因，介绍 Smart Metrics 是如何帮助用户解决告警难配的问题的，并介绍一些最佳实践。

1921 0 0

成喆

|

存储 SQL 机器学习/深度学习

|

博文

可观测平台下告警降噪实践——GOPS分享

本文介绍阿里云SLS丁来强（花名成喆）在GOPS2021上海站分享时的议题内容，结尾有PPT下载链接。

2351 0 1

zqyi

|

4月前

|

存储人工智能运维

|

博文

为 OpenClaw 注入企业级长期记忆——AgentLoop MemoryStore 集成方案

OpenClaw 是一款个人 AI 助理平台，其原生记忆系统通过系统提示词、会话历史和本地 Markdown 记忆文件三层结构，为 Agent 提供基础的跨会话记忆能力。然而，原生系统在记忆提取维度、更新机制、检索精度和运维成本等方面存在明显局限，难以满足企业级场景的高质量个性化需求。本文介绍如何将 OpenClaw 与阿里云 AgentLoop MemoryStore 集成，以获得更强大的长期记忆能力。AgentLoop MemoryStore 是一款完全托管的企业级 Agent 记忆管理产品，具备多维度记忆提取、智能记忆更新、异步流水线架构和分层检索等特性。

837 4 4

阿里云云原生

|

消息中间件弹性计算 Prometheus

|

博文

问题盘点｜使用 Prometheus 监控 Kafka，我们该关注哪些指标

Kafka 作为当前广泛使用的中间件产品，承担了重要/核心业务数据流转，其稳定运行关乎整个业务系统可用性。本文旨在分享阿里云 Prometheus 在阿里云 Kafka 和自建 Kafka 的监控实践。

3482 30 33

ma2ascs2xr5ce

|

人工智能运维监控

|

博文

助力企业提升运维效率蚂蚁数科发布业务智能可观测平台

蚂蚁数科发布业务智能可观测平台可助力企业提升运维效率3倍以上

609 0 0

开源MES

|

数据采集监控供应链

|

博文

MES系统软件体系架构及应用

MES系统是数字化车间的核心。MES通过数字化生产过程控制，借助自动化和智能化技术手段，实现车间制造控制智能化、生产过程透明化、制造装备数控化和生产信息集成化。生产管理MES系统主要包括车间管理系统、质量管理系统、资源管理系统及数据采集和分析系统等，由技术平台层、网络层以及设备层实现。

3214 1 1

阿里云存储

|

存储人工智能运维

|

博文

QCon大会精彩分享：数据湖、可观测、自动驾驶训练，阿里云存储独家技术详解与案例实践！

QCon 全球软件开发大会是由极客邦科技旗下 InfoQ 中国主办的综合性技术盛会，每年在伦敦、北京、纽约、圣保罗、上海、旧金山召开。自2007年3月份开始举办以来，已经有超万名有多年从业经验的技术人员参加过QCon大会。QCon 内容源于实践并面向社区，演讲嘉宾依据热点话题，面向5年以上工作经验的技术团队负责人、架构师、工程总监、开发人员分享技术创新和实践。

1805 2 3

阿里云云原生

|

7月前

|

存储人工智能关系型数据库

|

博文

告别数据库“膨胀”：Dify x SLS 构建高可用生产级 AI 架构

告别数据库“膨胀”！借助SLS打造高可用生产级的Dify日志场景，通过将工作流日志从PostgreSQL迁移至SLS，实现存储压力降低95%+、成本下降近10倍，并支持实时分析、监控告警与数据闭环，彻底解决高并发下的连接池打满、慢查询频发等痛点，助力AI应用高效稳定运行！

619 4 4

阿里云云原生

|

SQL 监控数据挖掘

|

博文

SLS 重磅升级：超大规模数据实现完全精确分析

SLS 全新推出的「SQL 完全精确」模式，通过“限”与“换”的策略切换，在快速分析与精确计算之间实现平衡，满足用户对于超大数据规模分析结果精确的刚性需求。标志着其在超大规模日志数据分析领域再次迈出了重要的一步。

1057 118 120

SelectDB

|

4月前

|

SQL 人工智能安全

|

博文

我们用 AI Observe Stack 观测了 OpenClaw，发现 AI Agent 背后的这些隐患

本文基于 AI Observe Stack 构建的 OpenClaw 可观测系统是使用 AI 在一天内完成的。用户也可以用阿里云 SelectDB 云服务或者开源 Apache Doris 在几分钟内快速搭建起来亲身体验

1459 5 6

元乙

|

存储 Prometheus 监控

|

博文

打造Java可观测性的5个关键步骤

伴随云原生和微服务的普及，可观测性设计基本上是作为一个线上业务服务必备的基础能力。这篇文章我将介绍天罡项目围绕可观测性的三大支柱：日志，指标以及链路追踪所做的可观测性设计和实践，以及项目中实施可观测性的5个关键步骤。

1241 0 2

成喆

|

存储 SQL 数据采集

|

博文

可观测性平台下的低代码技术实践——PyCon2021分享

本文介绍阿里云SLS丁来强（花名成喆）在PyCon2021上海站分享时的议题内容，结尾有录播的视频和PPT下载链接。

881 0 0

星尘安全

|

云安全安全 Cloud Native

|

博文

一文了解什么是CNAPP

在云计算蓬勃发展的今天，企业面临的安全挑战愈发复杂。传统安全方案已力不逮，CNAPP（云原生应用保护平台）应运而生，革新云安全领域。CNAPP专为云环境设计，提供全生命周期安全保护，具备微隔离、访问控制、数据保护等功能，并利用自动化与AI技术简化管理、智能响应威胁，适用于多云、DevOps等多种场景。尽管存在技术复杂性和成本等挑战，CNAPP仍将持续进化，变得更加智能、自动且易于集成，助力企业构建稳健的云安全体系。

1236 0 0

fogin

|

编解码前端开发 JavaScript

|

博文

Grafana Plugin: 支持 jsx 实时渲染的 grafana 面板插件

A JSX real-time rendering grafana panel plugin. / 一个支持 JSX 实时渲染的 grafana 面板插件

836 3 3

扬流

|

SQL 运维资源调度

|

博文

开源大数据可观测性方案实践 - 助力集群运维智能化、便捷化

在本篇文章中，我们将介绍大数据集群领域所需的可观测性，实践大数据集群可观测所需要的条件和面临的挑战，以及阿里云EMR 产品如何通过 EMR Doctor 实现大数据可观测并向用户提供相关能力。

18023 4 5

1752192245978413

|

9月前

|

存储 SQL Prometheus

|

博文

图文解析带你精通时序PromQL语法

[阿里云SLS可观测团队发布] 本文通过图文解析深入讲解PromQL的计算原理，涵盖其与SQL的差异、时间线模型、选点机制、聚合函数、窗口函数及常见非预期场景，帮助用户掌握PromQL的核心语法与执行逻辑。

1278 10 13

阿里云云原生

|

人工智能 API 数据库

|

博文

MCP Server 开发实战 | 大模型无缝对接 Grafana

以 AI 世界的“USB-C”标准接口——MCP（Model Context Protocol）为例，演示如何通过 MCP Server 实现大模型与阿里云 Grafana 服务的无缝对接，让智能交互更加高效、直观。

4213 124 130

阿里云云原生

|

存储缓存 Prometheus

|

博文

阿里云下一代可观测时序引擎-MetricStore 2.0

我们开发了 MetricStore 2.0 版本，从存储到计算进行了全面升级，致力于成为阿里云下一代可观测时序引擎。

931 47 48

做运维的乔不思

|

存储运维监控

|

博文

SRE方法论之监控设计

监控系统的四个黄金指标是：延迟（Latency）、流量（Traffic）、错误（Errors）、饱和度（Saturation）

1741 1 1

技术工程师

|

存储 Prometheus 监控

|

博文

《阿里云可观测最佳实践》——阿里云可观测解决方案介绍

911 0 0

-开发达人-

|

传感器人工智能监控

|

博文

1143 0 0

观测云

|

机器学习/深度学习监控 Kubernetes

|

博文

What is observability?｜一文读懂什么是系统可观测性

一文带你走近可观测世界

1498 0 0

1086822487162812

|

7月前

|

监控 Cloud Native 安全

|

博文

FinOps云成本分配指南

成本分配是FinOps核心实践，通过层级结构、标签等元数据将云成本精准归因至部门、项目或所有者，实现成本展示与回收。需跨财务、工程、业务团队协作，建立强制标签策略并推动执行，提升财务透明度、问责制及优化能力。衡量指标包括标签合规率、成本分配时效等，成熟实施可显著增强组织云成本管控力。

508 4 4

阿里云云原生

|

监控中间件 Go

|

博文

免去繁琐的手动埋点，Gin 框架可观测性最佳实践

本文将着重介绍 Gin 框架官方推荐的几种可观测性方案并进行对比，从而得出 Gin 框架可观测性的最佳实践。

724 4 4

真的很搞笑

|

SQL 监控测试技术

|

博文

PTS压测问题之token值不一样配置如何解决

PTS（Performance Testing Service）是一项面向网站、应用等提供的压力测试服务，用于模拟不同场景下的用户访问，评估系统的性能表现；在进行PTS压测时，可能会出现一些异常或报错，本合集将PTS压测中频繁出现的问题及其解决办法进行汇编，旨在帮助用户更有效地进行性能测试和问题定位。

616 1 1

ux6t45lknjgbo

|

存储 Prometheus 监控

|

博文

当 OpenTelemetry 遇上阿里云 Prometheus

本文以构建系统可观测（重点为指标监控体系）为切入点，对比 OpenTelemetry 与 Prometheus 的相同与差异，后重点介绍如何将应用的 OpenTelemetry 指标接入 Prometheus 及背后原理，最后介绍阿里云可观测监控 Prometheus 版拥抱 OpenTelemetry 及相关落地实践案例，希望能更好的帮助读者更好的理解 OpenTelemetry 及与 Prometheus 的生态融合。

1806 0 0

xpq5m73nuriiq

|

存储运维监控

|

博文

云监控cms与ali promethues 结合 ali grafana 的“百变金刚”灵活观测心得

阿里云的云监控cms与实时应用监控arms众多用户将其理解为竟品，实则不然，两者如以互补的心态使用则会发现另一片天地。依靠cms与云产品数据强一致性与arms下promethues的超高灵活整合能力，完成想要的观测、告警之运维能力。本文介绍一下，云监控数据同步在promethues中结合grafana展示，最后达到统一管理大盘集、统一告警平台。关键词：可预测告警自定义报警统一报警统一观测前提：开启企业云监控、开启arms

464 0 0

愿天堂没有BUG（公众号同名）

|

存储 SQL 运维

|

博文

十年磨一剑：蚂蚁集团可观测性平台 AntMonitor 揭秘

蚂蚁集团的业务种类繁多，兼具金融级的“稳” 和互联网的 “快”，支撑又快又稳的业务发展需要完善的稳定性保障体系，这个体系的基石就是可观测性平台-AntMonitor 。早在2011年前，监控平台就已经完成初代建设，在2012到2017年这五年间，蚂蚁监控技术团队抽象出了业务视角监控牵引的模式，大大提升了核心业务的故障发现能力，同期研发了可视化引擎与易用的配置系统。为了支撑双11等大规模海量计算场景，在底层数据技术上做到了实时稳定的大规模日志和指标处理能力。随着这些能力的完成，可观测平台的产品也逐渐成熟。

1409 0 0

龙蜥社区（OpenAnolis）

|

运维监控安全

|

博文

从趋势到挑战，资深工程师一站式解读：操作系统运维和可观测性

结合传统运维工具和 eBPF 技术，我们可以对整个系统的进行全栈观测。

494 0 1

烨陌

|

Prometheus 监控 Kubernetes

|

博文

可观测数据采集端的管控方案的简单对比

当前，主流的日志采集产品除了SLS的ilogtail，还有Elastic Agent、Fluentd、Telegraf、Sysdig、Logkit、Loggie、Flume等。详细的对比结果见下表：备注： ○ 集群监控：表示工具可以查看管理采集端的运行状态、采集速度等数据 ○ 集群管理：表示工具可以对管理采集端的采集配置、运行参数等进行添加、修改、删除

1214 0 0

龙蜥社区（OpenAnolis）

|

监控 Kubernetes 安全

|

博文

关于 eBPF 安全可观测性，你需要知道的那些事儿

聊一聊eBPF 安全可观测性。

2167 0 0

阿里云云原生

|

数据采集运维 Prometheus

|

博文

如何在实际场景中使用异常检测？阿里云Prometheus智能检测算子来了

异常检测作为智能运维（AIOps）系统中基础且重要功能，其旨在通过算法自动地发现 KPI 时间序列数据中的异常波动，为后续的告警、自动止损、根因分析等提供决策依据。那么，我们该如何在实际场景中使用异常检测呢，而异常检测又是什么，今天我们就进行一次深入讲解。

1892 0 0

阿里云云原生

|

缓存运维监控

|

博文

面对DNS劫持，只能坐以待毙吗？

借助 ARMS-云拨测，我们可实时对网站进行监控，实现分钟级别的监控，及时发现 DNS 劫持以及页面篡改。

767 0 0

1086822487162812

|

7月前

|

存储监控安全

|

博文

FinOps如何管理共享云成本

本页面介绍共享云成本管理，涵盖其重要性、分配方法及各方职责。通过公平、透明的成本分摊，提升财务责任与预算准确性，推动组织优化云支出。

417 0 1

阿里云云原生

|

人工智能监控安全

|

博文

从 DeepSeek 敏感信息泄露谈可观测系统的数据安全预防

本文将探讨 SLS 中增强数据安全的几种方式：权限精细化管控有效减少了潜在安全风险；接入层脱敏技术阻止敏感数据落库，提升了隐私保护；StoreView 字段集控制通过限制查询数据范围，降低数据泄露损害。智能监控系统提供实时监测，快速识别并阻断异常拖库行为，为企业提供了迅速响应和抵御威胁的能力。

594 1 1

云原生可观测

最新

全部内容

博文

问答

电子书

视频

学习

活动

扩展AlertManager集成钉钉助力Istio on ACK可观测性监控能力

Litefuse 正式发布：Agent 可观测与效果评估， 比 Langfuse 成本低 88%

开源 APM 详细功能对比：SkyWalking vs Databuff

Grafana Loki，轻量级日志系统

FinOps for AI 概述

AIOps已逝，欢迎进入AgenticOps（运维智能体）时代

eBPF 实践 -- 网络可观测

iLogtail——一款延迟仅在毫秒级的千万实例可观测采集器利器来了 | 龙蜥技术

Linux调试

一行命令，给你的 OpenClaw 龙虾装上 X 光机——阿里云可观测，让养虾更经济更安全

跟误告警说再见，Smart Metrics 帮你用算法配告警

可观测平台下告警降噪实践——GOPS分享

为 OpenClaw 注入企业级长期记忆——AgentLoop MemoryStore 集成方案

问题盘点｜使用 Prometheus 监控 Kafka，我们该关注哪些指标

助力企业提升运维效率 蚂蚁数科发布业务智能可观测平台

MES系统软件体系架构及应用

QCon大会精彩分享：数据湖、可观测、自动驾驶训练，阿里云存储独家技术详解与案例实践！

告别数据库“膨胀”：Dify x SLS 构建高可用生产级 AI 架构

SLS 重磅升级：超大规模数据实现完全精确分析

我们用 AI Observe Stack 观测了 OpenClaw，发现 AI Agent 背后的这些隐患

打造Java可观测性的5个关键步骤

可观测性平台下的低代码技术实践——PyCon2021分享

一文了解什么是CNAPP

Grafana Plugin: 支持 jsx 实时渲染的 grafana 面板插件

开源大数据可观测性方案实践 - 助力集群运维智能化、便捷化

图文解析带你精通时序PromQL语法

MCP Server 开发实战 | 大模型无缝对接 Grafana

阿里云下一代可观测时序引擎-MetricStore 2.0

SRE方法论之监控设计

《阿里云可观测最佳实践》——阿里云可观测解决方案介绍

Gartner发布《2023年十大战略技术趋势》，应用可观测性入选！

基于阿里云Elasticsearch打造强大的可观测性平台

可观测可回溯 | Continuous Profiling 实践解析

K8s场景下Logtail组件可观测方案升级-Logtail事件监控发布

阿里云技术专家杨泽强：弹性计算云上可观测能力构建

移动域全链路可观测架构和关键技术

What is observability?｜一文读懂什么是系统可观测性

FinOps云成本分配指南

免去繁琐的手动埋点，Gin 框架可观测性最佳实践

PTS压测问题之token值不一样配置如何解决

当 OpenTelemetry 遇上阿里云 Prometheus

云监控cms与ali promethues 结合 ali grafana 的“百变金刚”灵活观测心得

十年磨一剑：蚂蚁集团可观测性平台 AntMonitor 揭秘

从趋势到挑战，资深工程师一站式解读：操作系统运维和可观测性

可观测数据采集端的管控方案的简单对比

关于 eBPF 安全可观测性，你需要知道的那些事儿

如何在实际场景中使用异常检测？阿里云Prometheus智能检测算子来了

面对DNS劫持，只能坐以待毙吗？

FinOps如何管理共享云成本

从 DeepSeek 敏感信息泄露谈可观测系统的数据安全预防

活跃用户

相关产品

Litefuse 正式发布：Agent 可观测与效果评估，比 Langfuse 成本低 88%

助力企业提升运维效率蚂蚁数科发布业务智能可观测平台