使用ACK Edge统一管理多地域的ECS资源

本文涉及的产品
性能测试 PTS,5000VUM额度
简介: 本文介绍如何使用ACK Edge来管理分布在多个地域的ECS资源。

【阅读原文】戳:使用ACK Edge统一管理多地域的ECS资源

ACK Edge面向分布式计算场景,在云端提供一个标准、安全、高可用的Kubernetes集群。支持将地域分散的计算资源接入云端Kubernetes集群,以云原生方式实现分布式计算场景下的应用统一生命周期管理和资源统一调度。同时,能够与云上现有的产品能力融合,保障分布式计算场景下应用的稳定运行。本文介绍如何使用ACK Edge来管理分布在多个地域的ECS资源。

 

 

 

 

场景描述

 

 

 

在多个VPC中都有ECS实例,希望用一个Kubernetes集群来统一管理这些ECS实例和应用;

 

在多个地域中都有ECS实例,希望用一个Kubernetes集群来统一管理这些ECS实例和应用;

 

在多个账号中都有ECS实例,希望用一个Kubernetes集群来统一管理这些ECS实例和应用。

 

 

 

 

方案优势

 

 

 

提供标准的云原生接口,采用云原生的方式运维分布式应用,降低业务的运维成本;

 

Kubernetes集群的控制面由阿里云托管,并提供SLA保障,用户无需运维Kubernetes集群;

 

与已有的云产品,包括弹性、网络、存储、可观测等能力融合,保障应用的稳定运行;

 

支持数十种不同操作系统的异构计算资源接入;

 

提供边缘自治、云边运维通道、单元化管理,支持中心管边场景下的运维、稳定性以及业务通信需求;

 

优化了云边通信流量,降低流量成本,单集群可纳管上千节点。

 

 

 

 

方案示例

 

 

 

示例一:使用ACK Edge管理地域分散的应用

 

 

当您有大量分散在不同地域的ECS需要统一管理或者部署相同的业务,您可以创建一个ACK Edge集群来统一接入不同地域的ECS,通过部署DaemonSet、或者OpenKruise DaemonSet来实现统一容器化管理。例如:

 

安全防护场景

 

在分布式计算环境中,为了防止系统被恶意攻击、数据泄露等问题,通常需要分布式资源上部署网络安全的Agent来为系统提供安全保障,可以使用ACK Edge完成安全Agent的统一部署和运维。

 

分布式压测、拨测场景

 

在大规模的业务压测场景中,压测工具从各个地域同时发起压测任务。因此,压测工具需要部署在地域分散的资源中,可以使用ACK Edge来纳管这些资源,快速地向不同地域部署压测工具。

 

缓存加速场景

 

分布式缓存加速服务,需要在各个地域部署缓存服务来加速网络内容的传输速度,采用ACK Edge可以实现对分布式缓存服务的统一部署和运维。

 

 

 

操作步骤

 

1. 环境准备

 

 

选择一个地域作为中心地域,创建ACK Edge集群

 

在组件管理中安装OpenKruise

 

为每个地域分别创建缘节点池, 并将ECS实例接入到对应的节点池中

 

 

2. 采用原生的DaemonSet模型管理业务

 

 

部署示例,在集群详情页面选择守护进程集,按需求选择命名空间以及部署方式,并按提示一步一步完成部署。

 

 

业务升级,同样在守护进程集页面,编辑DaemonSet的模版,实现业务版本及配置的升级。

 

 

 

3. 使用OpenKruise的DaemonSet部署业务

 

 

部署示例,在集群详情页面选择容器组,选择用yaml的方式部署,并选择模版自定义,将部署的yaml粘贴到编辑框中并提交。

 

 

业务升级, 在自定义工作负载页面,找到OpenKruise的DaemonSet,在要修改的工作负载后面编辑yaml即可实现业务版本及配置的升级。

 

 

 

示例二:单地域GPU资源不足时,可跨地域购买GPU实例扩容

 

当您在某个地域部署AI任务时,如果遇到了GPU资源不足的问题,您可以去其他地域购买需要的GPU实例,然后将对应的GPU实例接入到ACK Edge集群中,ACK Edge可以将任务调度到满足条件的实例上。

 

 

 

操作步骤

 

1. 准备环境

 

 

创建ACK Edge集群

部署训练或者推理任务

 

 

2. 集群所在地域GPU资源不足时,去其它地域购买GPU实例

 

 

部署yaml示例

 

apiVersion: apps/v1
kind: Deployment
metadata:
  name: tensorflow-mnist
  labels:
    app: tensorflow-mnist
spec:
  replicas: 1
  selector:
    matchLabels:
      app: tensorflow-mnist
  template:
    metadata:
      name: tensorflow-mnist
      labels:
        app: tensorflow-mnist
    spec:
      containers:
      - name: tensorflow-mnist
        image: registry.cn-beijing.aliyuncs.com/acs/tensorflow-mnist-sample:v1.5
        command:
        - python
        - tensorflow-sample-code/tfjob/docker/mnist/main.py
        - --max_steps=100000
        - --data_dir=tensorflow-sample-code/data
        resources:
          limits:
            nvidia.com/gpu: "1"
          requests:
            nvidia.com/gpu: "1"
        workingDir: /root

 

 

3. 新建边缘节点池,生成GPU实例接入脚本,将GPU实例接入该节点池。

 

 

4. 任务调度到新加入的GPU实例上

 

 

 

相关文档:

 

[1] 创建ACK Edge集群

https://help.aliyun.com/zh/ack/ack-edge/user-guide/create-an-ack-edge-cluster-1?spm=a2c4g.11186623.help-menu-85222.d_1_0_0.79b85e75UIWnHJ&scm=20140722.H_124723._.OR_help-T_cn~zh-V_1

 

[2] 创建和管理边缘节点池

https://help.aliyun.com/zh/ack/ack-edge/user-guide/edge-node-pool-management?spm=a2c4g.11186623.help-menu-85222.d_1_1_1.5f4484886zKHZx&scm=20140722.H_199462._.OR_help-T_cn~zh-V_1

 

[3] ACK Edge集群组件管理

https://help.aliyun.com/zh/ack/ack-edge/user-guide/component-overview?spm=a2c4g.11186623.help-menu-85222.d_1_3.576375a81t11zj&scm=20140722.H_2856040._.OR_help-T_cn~zh-V_1

 

[4] ACK Edge集群计费说明

https://help.aliyun.com/zh/ack/ack-edge/product-overview/billing-of-ack-edge-clusters?spm=a2c4g.11186623.help-menu-85222.d_0_2.129f1961BpAEz3&scm=20140722.H_178718._.OR_help-T_cn~zh-V_1

 

[5] OpenKruise DaemonSet

https://openkruise.io/zh/docs/user-manuals/advanceddaemonset/



我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。

欢迎关注 “阿里云基础设施”同名微信微博知乎

获取关于我们的更多信息~

相关实践学习
2分钟自动化部署人生模拟器
本场景将带你借助云效流水线Flow实现人生模拟器小游戏的自动化部署
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
1月前
|
人工智能 弹性计算 运维
ACK Edge与IDC:高效容器网络通信新突破
本文介绍如何基于ACK Edge以及高效的容器网络插件管理IDC进行容器化。
|
1月前
|
安全 云计算
服务器系统资源不足怎么办
服务器系统资源不足怎么办
41 4
|
2月前
|
存储 人工智能 弹性计算
阿里云弹性计算(ECS)提供强大的AI工作负载平台,支持灵活的资源配置与高性能计算,适用于AI训练与推理
阿里云弹性计算(ECS)提供强大的AI工作负载平台,支持灵活的资源配置与高性能计算,适用于AI训练与推理。通过合理优化资源分配、利用自动伸缩及高效数据管理,ECS能显著提升AI系统的性能与效率,降低运营成本,助力科研与企业用户在AI领域取得突破。
75 6
|
3月前
|
JSON 运维 Kubernetes
|
3月前
|
弹性计算 开发框架 .NET
阿里云服务器购买教程及云服务器地域、实例、操作系统、带宽等参数选择指南
对于初次购买阿里云服务器的用户来说,想使用阿里云服务器搭建网站或者运行APP、小程序等项目,第一步就是要先购买阿里云服务器,下面小编以图文形式给大家介绍一下阿里云服务器的购买流程,以及购买过程中如何云服务器地域、实例、带宽等关键配置和选择这些参数的一些注意事项,以供参考。
|
3月前
|
存储 监控 Linux
充分利用服务器的磁盘资源,提高系统的稳定性和可维护性
充分利用服务器的磁盘资源,提高系统的稳定性和可维护性
47 0
|
5月前
|
弹性计算 监控 安全
重装系统后,无法通过云监控查看ecs资源占用怎么解决
如果您在重装系统后无法通过云监控查看ECS资源占用,可以按以下步骤排查:1. 确认云监控插件状态是否“运行中”,若不是则需重新安装;2. 通过自动安装流程安装插件,并确认状态变回“运行中”;3. 检查ECS网络配置,确保能访问外部网络;4. 验证监控功能是否正常显示数据;5. 可选设置报警规则。如问题仍存,请检查防火墙或安全组设置。通过上述步骤,您应能重新启用云监控。
|
5月前
|
Kubernetes Cloud Native 应用服务中间件
Kubernetes 自动伸缩策略:优化资源利用率
【8月更文第29天】在现代云原生环境中,应用的流量往往具有不可预测性。为了应对这种变化,Kubernetes 提供了多种自动伸缩机制来动态调整应用实例的数量和每个实例分配的资源。本文将深入探讨两种主要的自动伸缩工具:水平 Pod 自动伸缩器 (HPA) 和垂直 Pod 伸缩器 (VPA),并提供实际的应用示例。
155 0
|
11天前
|
Web App开发 安全 前端开发
一个接口4个步骤轻松搞定最新版Chrome、Edge、Firefox浏览器集成ActiveX控件
目前的浏览器市场,谷歌浏览器占据了半壁江山,因此,谷歌也是最有话语权的,2015年开始取消支持 NPAPI 插件,2022 年10月停止支持 PPAPI 插件;而曾经老大哥IE浏览器也已停止服务,退出历史舞台,导致大量曾经安全、便捷的ActiveX控件无法使用。为了解决这个难题,本人特研发出allWebPlugin中间件,重新让所有ActiveX控件能在谷歌、火狐等浏览器使用。
|
3月前
|
Web App开发 安全 中间件
谷歌、火狐、Edge等浏览器如何使用ActiveX控件
allWebPlugin 是一款为用户提供安全、可靠且便捷的浏览器插件服务的中间件产品,支持 Chrome、Firefox、Edge 和 360 等浏览器。其 V2.0.0.20 版本支持一个页面加载多个插件,并解决了插件与浏览器之间的焦点问题。用户可通过“信息化系统 + allWebPlugin + 插件 + 浏览器”的解决方案实现 ActiveX 插件的无缝集成。下载地址见文末,安装包含详细说明。
1084 16