网络分析与监控:阿里云拨测方案解密

本文涉及的产品
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
Serverless 应用引擎免费试用套餐包,4320000 CU,有效期3个月
注册配置 MSE Nacos/ZooKeeper,118元/月
简介: 阿里云网络拨测业务提供了全球、多种协议、多种网络态势的用户网络性能和用户体验监控场景的全面可观测方案。该文章从拨测场景下,介绍了用户如何快速的构建一套全球用户视角的服务可用性大盘,为客户的业务保驾护航。

随着互联网的蓬勃发展,网络和服务的稳定性已成为社会秩序中不可或缺的一部分。一旦网络和服务发生故障,其带来的后果将波及整个社会、企业和民众的生活质量,造成难以估量的损失。


  • 2020 年 12 月:Akamai 的 DNS 服务中断,导致包括银行和航空公司在内的众多美国企业官网无法访问。
  • 2021 年 6 月:Fastly CDN 故障,影响了《纽约时报》、亚马逊、Twitch 和 Reddit 等网站的正常运行。
  • 2021 年 10 月:Facebook 遭遇大规模宕机,旗下 Facebook、Instagram 和 WhatsApp 三大社交平台全球范围内停摆长达六小时。
  • 2022 年 12 月:阿里云香港可用区 C 服务中断,故障持续超过十二小时,严重影响了大量企业的日常运营。


在这样的背景下,拨测(Sythetic Monitoring)作为可观测在网络性能和用户体验监控场景下的核心功能,借助全球覆盖的网络探测节点,模拟用户请求对目标服务/域名/IP 等进行主动网络拨测,监控目标地址在不同地域、运营商网络环境下访问的可用性、性能和用户体验。使用拨测功能,不仅能加速故障发现与定位过程,还能帮助企业优化网络资源配置和访问链路,从而提升整体业务效率及用户体验。


本文主要介绍一下拨测的主要功能和应用场景,所有功能和截图都来自于阿里云可观测团队云监控的拨测产品:网络分析与监控链接

image.png


1. 网络拨测和 RUM(真实用户监控)有何不同


网络拨测和 RUM 都是用户数字体验监控的两个核心功能。拨测为模拟用户请求,RUM 为真实用户客户端的请求数据采集。两者各有优劣势,从不同维度帮助用户发现服务性能和体验问题。用户可根据自己的业务和需求选择其一或结合使用效果最佳。拨测相比 RUM 的主要优劣势如下:


优势:

  • 非侵入式部署:无需前端集成任何 SDK 代码即可快速启用。
  • 前瞻性故障检测:通过主动发起测试,在实际用户遭遇问题前预先识别并解决潜在故障。
  • 预发布全网验证:允许企业在正式推出产品之前或者在新地域开服前进行全面的网络兼容性和稳定性测试。

劣势:

  • 仿真性:RUM 为真实终端用户请求数据采集,拨测为模拟请求,不能完全真实反应用户体验
  • 覆盖面:无法捕捉所有可能的用户行为和交互场景,一些复杂的用户行为无法模拟。无法定位和分析单一用户维度的问题。


2. 网络拨测的分类和典型场景


2.1 协议拨测(可用性拨测)

协议拨测通过使用不同的网络层协议(DNS, HTTP, TCP, UDP, PING, MTR,WEBSOCKET 等)模拟用户的在线行为来分析互联网服务和网络的表现,旨在确保服务的稳定运行,并通过分析延迟、丢包率等关键指标优化用户体验。


1)可用性监控:从世界各地的不同城市运营商节点定期检查网站是否可访问,以便于提前预警可能影响业务连续性的风险。同时支持用户对探测结果是否“可用”的自定义断言规则,包含响应延时,状态码,响应头,响应 body 的内容匹配,以及证书过期检查等。

image.png

2)网络质量监控:采用网络拨测测量各地区各运营商到服务之间的网络状况,帮助决策者制定有效的链路优化和网络产品部署决策,如 CDN 测速,出海网络架构优化,游戏用户比较关注的运营商链路性能分析等。

image.png

3)DNS 解析劫持监控:确保重要域名能够被正确解析,防止因 DNS 配置错误和运营商 DNS 劫持导致的服务中断现象发生。由于每个运营商每个省甚至到一些城市都有自己独立的 local dns 服务器,每个地区运营商对域名的管理和封禁策略也经常不同。所以对一些受监管比较严格的行业和服务如果需要及时发现自己的域名在某个城市遭到了封禁策略的影响就需要配置拨测任务并部署覆盖全面的探测节点,及时发现问题,及时向当地运营商反馈申请解封。

image.png

image.png

4)竞品分析:对比同类竞品网站的页面访问性能和体验,提升服务在同类行业中的访问体验。

image.png

2.2 浏览器拨测

基于分布在全球各地的探测节点,通过使用真实浏览器(Chrome,Firefox, Edge,Safari 等)打开目标站点页面。该功能不仅能够准确反映网页加载时间,还能深入剖析页面中每个元素的渲染效率,并支持在线录制用户浏览行为(User Journey)在探测中回放验证完整的多步业务流程, 最后还能保存探测时刻的网页截图帮助用户更加直观的定位页面渲染问题。


1)用户体验分析:追踪页面首次渲染、主要内容呈现直至完全交互所需的时间,为提升视觉反馈速度提供数据支撑。

image.png

2)页面元素优化:利用瀑布流图揭示拖慢整个文档加载进度的具体因素,助力开发者精确定位瓶颈所在。

image.png

3)页面投毒检测:检测是否存在未授权第三方内容注入的情况,保障网站免受恶意软件攻击,如 CDN 投毒,JS 投毒等造成的页面篡改劫持问题。如某个静态资源是否需要配置 CDN 优化性能,某个动态资源是否需要配置全球加速获取更快的回源性能。

image.png

4)用户行为完整性校验:通过录制完整的用户行为(如:登陆,浏览,搜索,购买,下单等 User  Journey),在探测中回放完整用户行为,验证完整且复杂的业务流程。

image.png

2.3 内网拨测

聚焦于云上内网环境下服务和实例的健康状态,此类拨测有助于维护云上内网服务的可用性和性能。


1)VPC 连通性监控:持续监视云上 vpc 内各实例间的网络连通性,及时发现并修复连接障碍。

image.png

image.png

2)云服务巡检:全面审核托管在云端的各项内网服务和云产品实例(如 RDS, REDIS 等),确认其正常运作且符合预期标准。


3. 探测点分类


在拨测工具中,探测点的种类主要分四大类型,用户需要根据业务的类型,自身的需求和成本的考量选择不同类型的探测节点:          

image.png

  • 云主机探测点:探测节点为阿里云,微软,谷歌,亚马逊等云上的机器资源。网络出口为多线路 BGP。探测结果稳定,噪声小,适用于只关注整体服务可用性,但不特别强调具体 ISP 线路特性差异的场景。同时因为仿真性差,也无法发现运营商出现的劫持和链路性能故障问题。
  • 运营商 IDC:探测节点为部署在各大电信运营商数据中心内的物理设备,网络出口为单线指定运营商。探测结果稳定,噪声小,适合那些希望深入了解自身服务在中国乃至全世界范围内不同运营商环境下表现差异的企业。能够发现大部分运营商 DNS 劫持和链路性能故障问题,少量运营商在接入端的流量劫持问题无法识别。
  • PC 端 Lastmile 网民:探测节点为部署在家庭环境下的网民客户端资源,探测结果稳定性一般,有一定噪声,成本略高,但仿真性好,探测结果视角更贴近大众日常生活中的实际体验,可以发现从接入端到 Backbone 的故障。
  • 移动端网民:探测节点为部署在家庭环境下的网民手机移动端资源,探测结果稳定性一般,有一定噪声,仿真性好,成本略高,代表了当今社会越来越依赖手机和平板电脑上网的趋势,尽管这类样本可能存在较大的波动性,但对于理解移动应用性能至关重要。


不同拨测点探测可用率和性能对比:

image.png


4. 总结


总之,网络和服务的稳定性在当今社会中至关重要。通过拨测(Synthetic Monitoring)技术,企业可以主动监控和优化其服务的可用性、性能和用户体验。每种拨测类型和拨测点类型都有其特定的应用场景和优势。通过合理选择探测节点并实施多层次的拨测策略,企业不仅能提前发现潜在故障,还能优化资源配置和提升整体业务效率。最终,这将为企业提供更加稳定可靠的服务,保障用户的高质量体验。


最后还是广告:欢迎大家来体验来自阿里云可观测团队云监控的拨测产品:网络分析与监控链接


作者:俞嵩(榆松)

相关文章
|
2月前
|
安全 虚拟化
在数字化时代,网络项目的重要性日益凸显。本文从前期准备、方案内容和注意事项三个方面,详细解析了如何撰写一个优质高效的网络项目实施方案,帮助企业和用户实现更好的体验和竞争力
在数字化时代,网络项目的重要性日益凸显。本文从前期准备、方案内容和注意事项三个方面,详细解析了如何撰写一个优质高效的网络项目实施方案,帮助企业和用户实现更好的体验和竞争力。通过具体案例,展示了方案的制定和实施过程,强调了目标明确、技术先进、计划周密、风险可控和预算合理的重要性。
53 5
|
3月前
|
安全 网络架构
MPLS线路构建稳定、高效网络的优选方案
【10月更文挑战第17天】MPLS线路构建稳定、高效网络的优选方案
91 5
|
1天前
|
存储 监控 安全
网络安全视角:从地域到账号的阿里云日志审计实践
日志审计的必要性在于其能够帮助企业和组织落实法律要求,打破信息孤岛和应对安全威胁。选择 SLS 下日志审计应用,一方面是选择国家网络安全专用认证的日志分析产品,另一方面可以快速帮助大型公司统一管理多组地域、多个账号的日志数据。除了在日志服务中存储、查看和分析日志外,还可通过报表分析和告警配置,主动发现潜在的安全威胁,增强云上资产安全。
|
13天前
|
负载均衡 容灾 Cloud Native
云原生应用网关进阶:阿里云网络ALB Ingress 全能增强
在过去半年,ALB Ingress Controller推出了多项高级特性,包括支持AScript自定义脚本、慢启动、连接优雅中断等功能,增强了产品的灵活性和用户体验。此外,还推出了ingress2Albconfig工具,方便用户从Nginx Ingress迁移到ALB Ingress,以及通过Webhook服务实现更智能的配置校验,减少错误配置带来的影响。在容灾部署方面,支持了多集群网关,提高了系统的高可用性和容灾能力。这些改进旨在为用户提供更强大、更安全的云原生网关解决方案。
241 13
|
18天前
|
运维 供应链 安全
阿里云先知安全沙龙(武汉站) - 网络空间安全中的红蓝对抗实践
网络空间安全中的红蓝对抗场景通过模拟真实的攻防演练,帮助国家关键基础设施单位提升安全水平。具体案例包括快递单位、航空公司、一线城市及智能汽车品牌等,在演练中发现潜在攻击路径,有效识别和防范风险,确保系统稳定运行。演练涵盖情报收集、无差别攻击、针对性打击、稳固据点、横向渗透和控制目标等关键步骤,全面提升防护能力。
|
20天前
|
存储 监控 安全
网络安全视角:从地域到账号的阿里云日志审计实践
日志审计的必要性在于其能够帮助企业和组织落实法律要求,打破信息孤岛和应对安全威胁。选择 SLS 下日志审计应用,一方面是选择国家网络安全专用认证的日志分析产品,另一方面可以快速帮助大型公司统一管理多组地域、多个账号的日志数据。除了在日志服务中存储、查看和分析日志外,还可通过报表分析和告警配置,主动发现潜在的安全威胁,增强云上资产安全。
|
1月前
|
云安全 人工智能 安全
|
2月前
|
人工智能 云计算 网络架构
阿里云引领智算集群网络架构的新一轮变革
11月8日~10日在江苏张家港召开的CCF ChinaNet(即中国网络大会)上,众多院士、教授和业界技术领袖齐聚一堂,畅谈网络未来的发展方向,聚焦智算集群网络的创新变革。
阿里云引领智算集群网络架构的新一轮变革
|
2月前
|
云安全 人工智能 安全
再登榜首!阿里云蝉联中国公有云网络安全即服务市场份额第一
再登榜首!阿里云蝉联中国公有云网络安全即服务市场份额第一
52 5
|
2月前
|
弹性计算 监控 数据库
制造企业ERP系统迁移至阿里云ECS的实例,详细介绍了从需求分析、数据迁移、应用部署、网络配置到性能优化的全过程
本文通过一个制造企业ERP系统迁移至阿里云ECS的实例,详细介绍了从需求分析、数据迁移、应用部署、网络配置到性能优化的全过程,展示了企业级应用上云的实践方法与显著优势,包括弹性计算资源、高可靠性、数据安全及降低维护成本等,为企业数字化转型提供参考。
65 5