基于 ASM 简化可观测管理、提升业务洞察力(1)

简介: 基于 ASM 简化可观测管理、提升业务洞察力

image.png

随着应用系统的复杂度越来越高,越来越难保证所有的系统都一直处于稳健状态,有可能某些部分会因问题而处于降级状态。因此我们不仅必须将应用程序构建得更可靠和更具弹性,还必须通过可观测性工具在运行时能够理解实际发生的事情。如果我们能够了解应用服务和基础设施在运行时发生了什么,我们就可以学会检测故障并在观察到某些意外情况时进行深入调试。这将有助于降低平均恢复时间,快速恢复对业务的影响。

可观测性是指通过查看系统的外部特征来理解和推理系统的内部处于什么样的状态。它基于控制理论的研究,最初由 Rudolf E. Kálmán 在 1960 年的论文“关于控制系统的一般理论”中提出。从实际应用的角度来看,我们在系统中需要重视其稳定性,需要理解什么时候系统运行良好或出现问题,从而可以更快地识别错误,并实施正确的自动化及手动控制来维护系统的可用性。

阿里云服务网格 ASM 提供了统一标准化方式,为用户提供一种收敛后的可观测数据生成与采集配置模式,以更好地支持云原生应用的可观测性。


01 概述

可观测介绍
可观测性是一个包含各种级别的系统特征,必须结合应用程序的指标采集、网络的的指标采集、以及基础设施如数据库存储等来筛选存储大量的数据,以便在发生不可预测的情况时拼凑出一个完整的视图。Service Mesh 在可观测性方面可以有效提升应用程序级别的网络指标采集。

Service Mesh 的数据平面代理位于服务之间的网络请求路径中,通过捕获代理的可观测性数据可以在运行时了解应用程序网络和网格的运行情况。

image.png


在 Service Mesh 中实现可观测性,涉及了日志、监控指标以及链路追踪这些可观测性数据的生成规则配置和采集配置,以及如何将这些可观测数据采集到云托管服务或者自建服务中。同时,还需要考虑如何支持针对网格代理与网关 Pod 分别定义采集配置,以支持不同的场景诉求。阿里云服务网格 ASM 提供了统一标准化方式,为用户提供一种收敛后的可观测数据生成与采集配置模式,以更好地支持云原生应用的可观测性。

image.png


内置最佳实践

虽然 Telemetry CRD 允许在多个命名空间内可以创建多个对象,但如果随意定义造成冲突等,可能使得实际执行的结果与预期不符合。我们在产品中总结并落实了如下几个最佳实践:

  • 在根配置命名空间 istio-system 中定义多个网格范围的 Telemetry 资源对象是无效的,也就是说只能在存在一个 Telemetry 资源对象。阿里云服务网格 ASM 中已经内置了该最佳实践,在 istio-system 命名空间内只允许存在一个名称为 default 的 Telemetry 资源对象。
  • 所有的命名空间下约束为只存在一个 Telemetry 资源对象允许工作负载的选择器 selector 为空,且名称为 default。
  • 可以通过使用工作负载选择器 selector 在所需命名空间中应用新的 Telemetry 资源对象来实现特定于工作负载的覆盖。
  • 如果存在具有相同的工作负载选择器 selector 的两个 Telemetry 资源对象,也就是说这两个 Telemetry 资源对象选择了相同的工作负载,那么在这种情况下,产生行为是不确定的, 即不确定是这两个 Telemetry 资源对象中的哪一个会被执行。
  • 当根配置命名空间 istio-system 下的全局 Telemetry 资源对象中,未定位监控指标部分,默认对应的是不启用生成指标。
  • 为了避免这些指标产生的存储成本较大,在阿里云服务网格 ASM 中第一次开启时的指标设置中全局范围内只开启 SERVER 侧指标,未开启 CLIENT 侧指标。请根据需要,自行进行开启,例如需要针对网关进行监控,则需要进行开启 CLIENT 侧指标。需要注意的是,如果已经开启过,重新开启之后的指标设置将保留使用上一次的设置规则。


目录
相关文章
|
4月前
|
人工智能 自然语言处理 安全
使用阿里云服务网格高效管理LLM流量:(一)流量路由
ASM支持通过LLMProvider和LLMRoute资源管理大型语言模型流量。LLMProvider负责注册LLM服务,LLMRoute负责设定流量规则,应用可灵活切换模型,满足不同场景需求。
|
6月前
|
存储 机器学习/深度学习 负载均衡
模型服务网格:云原生下的模型服务管理
模型服务网格:云原生下的模型服务管理
78521 13
模型服务网格:云原生下的模型服务管理
|
存储 Prometheus 运维
基于 ASM 简化可观测管理、提升业务洞察力
基于 ASM 简化可观测管理、提升业务洞察力
|
监控 Cloud Native 微服务
基于 ASM 简化可观测管理、提升业务洞察力(4)
基于 ASM 简化可观测管理、提升业务洞察力
99 0
基于 ASM 简化可观测管理、提升业务洞察力(4)
|
存储 Prometheus 运维
基于 ASM 简化可观测管理、提升业务洞察力(3)
基于 ASM 简化可观测管理、提升业务洞察力
119 0
基于 ASM 简化可观测管理、提升业务洞察力(3)
|
存储 Prometheus 运维
基于 ASM 简化可观测管理、提升业务洞察力(2)
基于 ASM 简化可观测管理、提升业务洞察力
66 0
基于 ASM 简化可观测管理、提升业务洞察力(2)
|
监控 安全 Cloud Native
构建无缝的服务网格体验:分享在生产环境中构建和管理服务网格的最佳实践
构建无缝的服务网格体验:分享在生产环境中构建和管理服务网格的最佳实践
63 0
|
6月前
|
Oracle 关系型数据库
oracle asm 磁盘显示offline
oracle asm 磁盘显示offline
316 2
|
18天前
|
存储 Oracle 关系型数据库
数据库数据恢复—Oracle ASM磁盘组故障数据恢复案例
Oracle数据库数据恢复环境&故障: Oracle ASM磁盘组由4块磁盘组成。Oracle ASM磁盘组掉线 ,ASM实例不能mount。 Oracle数据库故障分析&恢复方案: 数据库数据恢复工程师对组成ASM磁盘组的磁盘进行分析。对ASM元数据进行分析发现ASM存储元数据损坏,导致磁盘组无法挂载。
|
6月前
|
存储 Oracle 关系型数据库
【数据库数据恢复】Oracle数据库ASM磁盘组掉线的数据恢复案例
oracle数据库ASM磁盘组掉线,ASM实例不能挂载。数据库管理员尝试修复数据库,但是没有成功。
【数据库数据恢复】Oracle数据库ASM磁盘组掉线的数据恢复案例
下一篇
无影云桌面