eBPF 实践 -- 网络可观测

本文涉及的产品
性能测试 PTS,5000VUM额度
可观测监控 Prometheus 版,每月50GB免费额度
应用实时监控服务ARMS - 应用监控,每月50GB免费额度
简介: 观测云采集器,是一款开源、一体式的数据采集 Agent,它提供全平台操作系统支持,拥有全面数据采集能力,涵盖基础设施、指标、日志、应用性能、用户访问以及安全巡检等各种场景。通过 eBPF 技术的引入,观测云采集器实践了网络传输层和应用层的部分协议的可观测。

简介

观测云采集器,是一款开源、一体式的数据采集 Agent,它提供全平台操作系统支持,拥有全面数据采集能力,涵盖基础设施、指标、日志、应用性能、用户访问以及安全巡检等各种场景。通过 eBPF 技术的引入,观测云采集器实践了网络传输层和应用层的部分协议的可观测。

采集器架构

  • 采集管理:配置加载模块用于配置动态管理与采集插件的开启关闭;监视器模块用于查看采集器资源使用、采集插件开启、数据处理器脚本工作状况、采集器外部数据接入API 的响应与延迟信息等
  • 数据采集:采集器不仅可以通过内置插件进行数据采集,还能接入外部数据源,如云原生计算基金会下的可观测项目 OTEL 的链路、指标数据等
  • 数据清洗:在采集插件生成数据后和数据上传之间的数据清洗层,用户可以通过编程介入,如使用可编程数据处理器的语言编写脚本修改 Point ,使用内置函数分析提取网络数据中 IP 归属的城市、省份和国家到 Point 中;脚本支持动态加载和卸载
  • 数据上传:采集器对各种数据进行分类上传,类别有日志、指标、链路、网络等,所有类别的数据均使用 Point 结构封装,每一个 Point 代表一条数据,大致由四个部分:名字、 标签字典、字段字典以及时间戳构成 (其名字可以是指标名 cpu, 日志来源 nginx ,网络的 httpflow等)

ebpf_1.png

eBPF 技术应用

观测云采集器使用了三种类型的 eBPF 程序:socket filter、kprobe、uprobe,能够抓取以太网帧、跟踪与 socket 和 TCP/IP 协议栈相关的内核函数以及用户共享库函数,实现网络协议可观测。下图介绍观测云采集器如何实践 eBPF 技术进行主机上的网络观测。

ebpf_2.png

数据采集

观测云采集器的 eBPF 网络观测功能采集并生成了三个数据集,分别为 netflow, dnsflow 和 httpflow,其 tag 基本相同,以下是其 tag 名与描述。

Tag 描述
src_ip 源 IP
dst_ip 目标 IP
src_port 源端口
dst_port 目标端口
transport tcp 或 udp
family IPv4 或 IPv6
direction 传输方向(incoming/outgoing)
srciptype 源 IP 类型 (other/private/multicast)
dstiptype 目标 IP 类型 (other/private/multicast)
host 主机名
source 数据源(netflow,httpflow,dnsflow)
pid 进程 id,仅 netflow
dst_domain 仅 netflow,来自 dnsflow 抓包记录
srck8snamespace 源 service 归属的 namespace
srck8sdeployment_name 源 serivce 归属的 deployment
srck8sservice_name 源 service
srck8spod_name 源 pod
dstk8snamespace 目标 service 归属的 namespace
dstk8sdeployment_name 目标 serivce 归属的 deployment
dstk8sservice_name 目标 service
dstk8spod_name 目标 pod
sub_source 子来源,默认 N/A,如若为 Kubernetes 流量则为 K8s

传输层网络观测

  • 采集器使用 kprobe 类型 eBPF 程序获取部分内核函数的输入与返回值
  • 通过 inetbind(6) 函数判断 srcip + src_port 是否为服务端
  • 通过协议栈 tcp\udp 以及 ip 相关的内核函数,获取服务与客户端之间的流量大小以及 TCP 协议的连接的建立与关闭次数、重传和 RTT 信息
Field 描述
bytes_read 接收字节数
bytes_written 发送字节数
retransmits 重传次数
rtt rtt
rtt_var rtt_var
tcp_closed TCP 连接关闭次数
tcp_established TCP 连接建立次数

应用层网络观测

  • 采集器使用 AF_PACKET + BPF 在采集器上分析 DNS 请求,以支持 CentOS(RedHat)7.6 (其不支持 socket filter 类型 eBPF 程序),记录请求信息支持 netflow 进行域名反向解析;
  • 对于 HTTP 请求使用 socket filter 和 uprobe 类型 eBPF 程序实现 HTTP(S) 请求分析。

下面的为采集 dns 协议生成的字段 和 http 协议生成字段。

Field 名(dns) 描述
count 一个采集周期内的请求总数
latency DNS 平均请求响应时间间隔
latency_max DNS 最大请求的响应时间间隔
rcode DNS 响应码: 0 - NoError, 1 - FormErr, 2 - ServFail, 3 - NXDomain, 4 - NotImp, 5 - Refused, ...
Field 名(http) 描述
count 一个采集周期内的请求总数
http_version 1.1 / 1.0 ...
latency TTFB
method GET/POST...
path 请求路径
status_code 状态码,如 200, 301, 404 ...
truncated 请求路径长度达到采集的(约 150)字节上限,存在截断可能

用户地理分布及 TCP 时延

通过内置数据处理器编写脚本,来解析 ip 并获取 ip 归属的省份、国家等信息作为标签追加到生成的 Point 上,并在观测云前端创建仪表板。下图通过世界地图和中国地图展示 netflow 中客户端 ip 的地理分布和服务端之间的 tcp 时延。

ebpf_3.png

主机间四层网络拓扑

下图为当前工作空间内部署了观测云采集器并开启了 eBPF 网络采集器的主机间的网络拓扑图,图上我们可以看到主机间的数据发送与接受的字节数和网络波动等信息。

ebpf_4.png

K8s Pod 间网络拓扑

当 eBPF 采集插件获取到 K8S 的 ip 和端口信息后将自动追加到生成的数据上,通过观测云前端构建不同的网络拓扑图,下图是构建的 Pod 网络拓扑关系图。

ebpf_5.png

K8s Deployment 间网络拓扑

下图是构建的 Deployment 网络拓扑关系图,从图中可以看到 nginx deployment 上的 HTTP 协议的每秒请求数和请求错误率。

ebpf_6.png

相关实践学习
通过Ingress进行灰度发布
本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
目录
相关文章
|
3天前
|
存储 监控 安全
网络安全与信息安全:保护数据的重要性与实践措施
本文深入探讨了网络安全和信息安全领域内的关键概念,包括网络漏洞、加密技术以及安全意识的重要性。通过分析这些要素,文章提供了实用的策略来增强个人和企业的数据保护能力。我们将探讨如何识别和防范潜在的网络威胁,并强调了持续更新安全知识和采取预防措施的必要性。
|
13天前
|
云安全 安全 网络安全
云计算环境下的网络安全策略与实践
【9月更文挑战第6天】在数字化浪潮中,云计算已成为企业转型和创新的强大引擎。随之而来的网络安全挑战亦日益突出,成为制约云服务发展的关键因素。本文深入探讨了云计算环境中的安全风险,并提出了一系列切实可行的网络安全策略。从基础的数据加密到高级的身份验证机制,再到细致的访问控制和入侵检测系统的应用,我们细致勾勒出一幅全面的云计算安全蓝图。通过实例分析,文章揭示了安全策略在实际场景中的应用效果,并对未来云计算安全的发展趋势进行了前瞻性的预测。旨在为云计算服务提供商和用户双方提供指导,共同构筑更为坚固的网络安全防线。
|
11天前
|
机器学习/深度学习 数据采集 数据可视化
深度学习实践:构建并训练卷积神经网络(CNN)对CIFAR-10数据集进行分类
本文详细介绍如何使用PyTorch构建并训练卷积神经网络(CNN)对CIFAR-10数据集进行图像分类。从数据预处理、模型定义到训练过程及结果可视化,文章全面展示了深度学习项目的全流程。通过实际操作,读者可以深入了解CNN在图像分类任务中的应用,并掌握PyTorch的基本使用方法。希望本文为您的深度学习项目提供有价值的参考与启示。
|
16天前
|
监控 安全 网络安全
云计算与网络安全的融合之路:探索云服务中的信息安全实践
【9月更文挑战第3天】在数字化转型的浪潮中,云计算已成为现代企业不可或缺的技术基石。然而,随着数据和应用逐渐迁移至云端,网络安全和信息安全的挑战亦随之升级。本文将深入探讨云计算环境下的网络安全挑战,并分享如何通过策略和技术手段加强云服务的安全防护,确保企业资产与数据的完整性、可用性和保密性。
34 5
|
14天前
|
安全 算法 网络安全
网络安全与信息安全:知识分享与实践
本文将深入探讨网络安全漏洞、加密技术和安全意识等方面的知识。我们将分析常见的网络攻击方式,如病毒、木马和黑客攻击,并介绍如何通过防火墙、入侵检测系统等技术手段来防止这些攻击。同时,我们还将讨论密码学在保护数据安全中的重要性,包括对称加密、非对称加密和哈希函数等概念。最后,我们将强调提高个人和组织的安全意识的重要性,包括定期更新软件、使用强密码和多因素认证等措施。
|
20天前
|
自然语言处理 C# 开发者
Uno Platform多语言开发秘籍大公开:轻松驾驭全球用户,一键切换语言,让你的应用成为跨文化交流的桥梁!
【8月更文挑战第31天】Uno Platform 是一个强大的开源框架,允许使用 C# 和 XAML 构建跨平台的原生移动、Web 和桌面应用程序。本文详细介绍如何通过 Uno Platform 创建多语言应用,包括准备工作、设置多语言资源、XAML 中引用资源、C# 中加载资源以及处理语言更改。通过简单的步骤和示例代码,帮助开发者轻松实现应用的国际化。
28 0
|
20天前
|
存储 安全 网络安全
云端防御:云计算时代的网络安全策略与实践
【8月更文挑战第31天】 在数字化转型的浪潮中,云计算已成为企业信息技术架构的核心。然而,云服务的广泛应用也带来了新的安全挑战。本文将探讨云计算环境中的网络安全问题,分析云服务的安全风险,并提出相应的防护措施。文章旨在通过技术解析和代码示例,为读者提供一套实用的云网络安全策略,确保数据安全和业务连续性。
|
20天前
|
监控 安全 网络安全
云计算环境下的网络安全策略与实践
【8月更文挑战第31天】 在数字化浪潮中,云计算以其高效、灵活的特点成为企业IT架构的首选。然而,随之而来的网络安全挑战也日益严峻。本文将深入探讨云服务中的安全风险,提出相应的防护措施,并通过代码示例展示如何在云计算环境中实现信息安全的最佳实践。我们将从基础的安全配置谈起,逐步过渡到复杂的网络攻击防御策略,旨在为读者提供一套系统的云计算网络安全解决方案。
|
20天前
|
监控 安全 网络安全
云计算与网络安全:探索云服务中的信息安全实践
【8月更文挑战第31天】 在数字化转型的浪潮中,云计算成为企业信息技术架构的核心。然而,随之而来的网络安全挑战也日益严峻。本文将深入探讨云计算环境中的网络安全问题,并提供实用的信息安全策略和代码示例,旨在帮助企业构建更加安全的云环境。
|
20天前
|
机器学习/深度学习 人工智能 自然语言处理
TensorFlow 中的循环神经网络超厉害!从理论到实践详解,带你领略 RNN 的强大魅力!
【8月更文挑战第31天】循环神经网络(RNN)在人工智能领域扮演着重要角色,尤其在TensorFlow框架下处理序列数据时展现出强大功能。RNN具有记忆能力,能捕捉序列中的长期依赖关系,适用于自然语言处理、机器翻译和语音识别等多个领域。尽管存在长期依赖和梯度消失等问题,但通过LSTM和GRU等改进结构可以有效解决。在TensorFlow中实现RNN十分简便,为处理复杂序列数据提供了有力支持。
22 0