结合部属集策略实现更低的eRDMA时延

简介: 弹性RDMA(eRDMA)是阿里云ECS提供的RDMA加速功能。为了取得更低的延迟效果,我们可以结合上ECS的部属集策略,使eRDMA尽可能获取到更低的时延。

阿里云ECS提供的部属集策略[1],可以控制ECS的物理分布。部属集支持多种策略:

  • 高可用策略。将部署集内所有ECS实例在指定地域内严格地分散在不同的物理服务器上,进而保证ECS实例上业务的高可用性和ECS实例的底层物理服务器容灾能力;
  • 低延迟策略。这种模式下会将部署集内所有ECS实例尽可能地集中部署到所在可用区内同一个网络拓扑范围内,以降低网络互通的时延。

我们知道,RDMA本身具有低延迟、高吞吐的特点。实际使用的时候,也会受到实际的物理网络距离的影响:距离越远,节点之间的的延迟就会增大。在阿里云当中,我们可以结合上部属集策略,使ECS提供弹性RDMA加速功能[2]尽可能获取到更低的时延。

我们接下来通过实际的实验,看一下部属集所能带来的效果。

1. 创建部属集

首先,进入云服务器ECS的控制台,在左侧的导航栏中,找到“部属与弹性”一节。如果部属集没有显示在这一节中,那么就可以在“更多”按钮的部分找到。

在部属集的页面,点击“创建部属集”,给部属集命名,并选择“网络低延迟策略”,然后点击确认,等待部属集创建完成。

2. 购买ECS实例,并添加到部属集当中

在这一步当中,我们可以直接在部属集页面,找到刚才创建的部属集,点击“创建实例”,就会直接跳转到ECS的购买界面。

在ECS购买界面,我们购买ecs.g8ae.xlarge规格,安装Alibaba Cloud Linux 3系统,并且允许系统自动安装eRDMA驱动程序。

同时,我们在弹性网卡部分,勾选“弹性RDMA接口”。

因为我们是通过部属集页面点击“创建实例”跳转的ECS购买界面,所以在ECS购买界面当中的高级选项中已经默认为我们勾选了部属集。如果没有的话,需要手动选择刚才创建的部属集。

3. 对比测试

创建完实例之后,等待OS初始化完之后,安装perftest(一款可以测试RDMA功能的基准测试程序)。在alinux3当中,可以通过yum直接安装:

yum install -y perftest

以RDMA Write的时延测试为例。我们将刚才分别购买的两个实例分别充当server节点和client节点。

  1. 在server节点运行:
    ib_write_lat -R -a -F
    
  2. 在client节点运行:
    ib_write_lat -R -a -F <server_ip>
    

测试结果如下图所示。

我们可以看到小消息的时延<10us。

我们再次购买两台相同规格的实例,除了不选择部属集,其他的配置均一样。我们再次测试ib_write_lat,可以看到这次平均时延在12.5us附近。说明这次购买的实例分布在相距较远的两个物理机上。

4. 总结

为了达到更低的延迟结果,在购买实例时,尽量选择“网络低延迟”部属集策略。此外,部属集可以尽力保证购买的实例在物理分布上尽可能靠近,但是也会受到实际库存的影响。
[1] https://help.aliyun.com/zh/ecs/user-guide/overview-43
[2] https://help.aliyun.com/zh/ecs/user-guide/erdma-overview

相关实践学习
使用操作系统智能助手OS Copilot解锁操作系统运维与编程
在本实验场景中,将在阿里云ECS上体验OS Copilot产品。OS Copilot是阿里云操作系统团队基于大模型构建的OS智能助手。它具有自然语言问答、辅助命令执行、系统运维调优等功能,帮助用户更好地使用Linux,提升阿里云的使用体验。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情:&nbsp;https://www.aliyun.com/product/ecs
相关文章
|
弹性计算 Ubuntu Shell
为eRDMA注册超大内存
本文介绍如何在eRDMA环境下注册大量内存。
898 0
|
11月前
|
存储 缓存 人工智能
Mooncake 最新进展:SGLang 和 LMCache 基于 Mooncake 实现高效 PD 分离框架
Mooncake 的架构设计兼具高性能和灵活性,为未来的扩展性和生态建设奠定了坚实基础。
|
8月前
|
存储 机器学习/深度学习 缓存
阿里云企业级九代云服务器:c9i、g9i、r9i实例的收费标准、性能与选型攻略
计算型c9i、通用型g9i和内存型r9i实例是阿里云专为需要高性能云服务器的用户推出的第九代新品云服务器实例规格,适用于机器学习推理应用,数据分析等场景。本文为大家介绍阿里云服务器的新品实例——计算型c9i、通用型g9i、内存型r9i实例各自的性能参数与适用场景,再到最新的活动价格与其他实例的对比选型指南,以供参考。
|
存储 弹性计算 安全
云基础设施处理器CIPU 2.0技术解读
本文深入解读阿里云的CIPU(Cloud Infrastructure Processing Unit)技术,探讨其在云计算中的定位与价值。面对当前XPU命名泛滥的问题,阿里云为何选择CIPU这一名称?CIPU旨在解决云计算中的弹性、安全、稳定、性能和成本五大核心需求。通过对比DPU和IPU,CIPU更专注于云环境下的基础设施处理,确保数据的安全性、传输的可靠性和存储的稳定性。此外,文章还回顾了神龙计算的历史发展,强调CIPU2.0在提升性能、优化资源调度和满足大客户需求方面的进展。最终,CIPU作为手段,其核心目标是为客户提供更高性价比和更稳定的云服务。
|
消息中间件 Kubernetes Cloud Native
【混沌工程】Chaos Mesh:Kubernetes 的混沌工程平台。
Chaos Mesh 是云原生计算基金会 (CNCF) 托管的项目。 它是一个云原生混沌工程平台,可在 Kubernetes 环境中编排混沌。 在当前阶段,它具有以下组件:
|
Kubernetes 监控 测试技术
k8s学习--OpenKruise详细解释以及原地升级及全链路灰度发布方案
k8s学习--OpenKruise详细解释以及原地升级及全链路灰度发布方案
785 0
|
存储 网络协议 数据中心
|
消息中间件 存储 Kafka
【Kafka】Replica、Leader 和 Follower 三者的概念分析
【4月更文挑战第11天】【Kafka】Replica、Leader 和 Follower 三者的概念分析
|
消息中间件 监控 Kafka
【Kafka】Kafka 分区Leader选举策略
【4月更文挑战第7天】【Kafka】Kafka 分区Leader选举策略
|
弹性计算 TensorFlow 算法框架/工具
在ECS上使用eRDMA加速Tensorflow
eRDMA是8代ECS自带的RDMA加速功能,可以充分发挥RDMA的优势,提升应用的性能。本文将介绍如何使用eRDMA来加速Tensorflow,并实测benchmark下的性能。
785 0

热门文章

最新文章