阿里云ECS健康状态产品详解

简介: 详细介绍阿里云ECS健康状态的功能和使用案例

1. 功能介绍。

1.1. 简介

实例健康状态表示实例操作系统的运行状态,通过实例健康状态,您可以快速确定ECS实例是否真正可用(例如是否可以通过SSH、RDP等访问)。本文主要为健康状态产品的功能介绍,以及如何通过ECS控制台或API查看实例健康状态。

1.2. 功能描述

实例健康状态关注的是实例操作系统的运行状态,包括操作系统是否正常运行,实例的网络是否连通,CPU或磁盘等性能是否受到影响等。例如,实例的生命周期状态为Running,并不意味着实例的操作系统已经运行起来了;只有当实例健康状态为OK时,实例的操作系统才真正完成启动用户态可用,才可以通过SSH或RDP进行访问。可以根据实例健康状态来识别实例是否存在故障,以便及时处理相应问题。

1.3. 实例健康状态值与定义

实例健康状态与实例生命周期状态之间的区别和对应的场景说明,如下表所示。

实例健康状态

实例生命周期状态

中文描述

实例真正状态说明

建议修复方案

Initializing

Starting

操作系统正在启动

实例正处于初始化阶段。

等待实例启动。

Running

实例操作系统正在启动中。

等待实例启动。

Impaired

Running

操作系统运行存在异常

  • 实例操作系统正在运行中,但是实例可能受到底层宿主机、存储、网络等限制,导致性能受到影响或降级。
  • 实例操作系统正在运行中,但是遭到OOM出现了蓝屏、夯住(Hang)等问题。
  • 通过启动/重启实例,响应对应实例因操作系统错误需重启事件。
  • 上报故障,等待阿里云处理。

OK

Running

正常

实例操作系统正在运行中,且实例未受任何外部因素影响。

InsufficientData

Stopping/Stopped

数据不足

实例处于关机中或已关机状态。

启动实例。

NotApplicable

Deleted

不适用

实例当前生命周期状态无效。

1.4. 实例健康状态示例

  • Initializing

image.png

  • Impaired

image.png

  • OK

image.png

  • InsufficientData:实例已关机,不显示健康状态。

image.png

  • NotApplicable:实例已删除,控制台无对应的实例记录。

2. 健康状态使用

2.1. ECS控制台

  1. 登录ECS管理控制台
  2. 按下图标注步骤依次点击。

image.png

  1. 实例列表设置对话框里,单击未显示区域中健康状态右侧的图标,然后单击继续。

image.png

  1. 找到目标实例,在健康状态列,查看实例健康状态。

image.png

2.2. OpenApi与SDK使用说明

  1. OpenApi-SDK 相关配置(以Java调用为例)
  • pom文件
<dependencies>
  <dependency>
    <groupId>com.alibaba</groupId>
    <artifactId>fastjson</artifactId>
    <version>1.2.83</version>
  </dependency>
  <dependency>
    <groupId>com.aliyun</groupId>
    <artifactId>aliyun-java-sdk-core</artifactId>
    <version>4.6.1</version>
  </dependency>
  <dependency>
    <groupId>com.aliyun</groupId>
    <artifactId>aliyun-java-sdk-ecs</artifactId>
    <version>5.11.7</version>
  </dependency>
</dependencies>
  • OpenClient实现
public class OpenClient {
    private IAcsClient client;
    public void initClient() {
        DefaultProfile profile = DefaultProfile.getProfile(
                "your region",          // The region ID
                "your ak",      // The AccessKey ID of the RAM account
                "your sk"); // The AccessKey Secret of the RAM account
        client = new DefaultAcsClient(profile);
    }
    public <R extends AcsResponse> R getResponse(RpcAcsRequest<R> request) {
        try {
            return this.client.getAcsResponse(request);
        } catch (ServerException e) {
            e.printStackTrace();
            return null;
        } catch (ClientException e) {
            e.printStackTrace();
            return null;
        }
    }
}
  1. DescribeInstancesFullStatus(查看实例状态以及实例健康状态)
  • 描述:查询一台或多台ECS实例的全状态信息。
  • 主要请求参数

名称

类型

必填

描述

示例值

regionId

string

实例所属的地域ID

cn-hangzhou

InstanceId

list<string>

默认查询指定地域下的所有实例

["i-bp67acfmxazb4p****", "i-bp67acfmxazb4p****", … "i-bp67acfmxazb4p****"]

pageNumber

integer

默认值:1

起始值:1

1

pageSize

integer

默认值:10

最大值:100

10

status

string

指定实例的生命周期状态。取值范围:

  • Starting:启动中。
  • Running:运行中。
  • Stopped:已停止

Runing

healthStatus

string

指定实例的健康状态。取值范围:

  • OK:正常。
  • Impaired:服务损坏。
  • Initializing:初始化中。
  • InsufficientData:数据不足。
  • NotApplicable:不适用。

以上参数取值均区分大小写。

OK

  • 主要返回参数

名称

类型

描述

示例值

totalCount

integer

查询到的实例总数

1

InstanceFullStatusSet

instanceFullStatus[]

实例全状态数组。

instanceFullStatus主要参数

名称

类型

描述

示例值

instanceId

string

查询到的实例总数

1

status

object

healthStatus

object

status/healthStatus参数

名称

类型

描述

示例值

name

string

实例生命周期/健康状态名称

OK

code

integer

实例生命周期/健康状态代码

1

  • api调用示例
// 查看实例健康状态
    public void describeInstancesFullStatus() {
        DescribeInstancesFullStatusRequest request = new DescribeInstancesFullStatusRequest();
        List<String> instanceIds = new ArrayList<String>();
        instanceIds.add("i-bp13olycxni4rhwh****");
        // 添加指定的实例
        request.setInstanceIds(instanceIds);
        request.setPageSize(100);
        // 添加指定实例生命周期状态
        // request.setStatus("Stopped");
        // 添加指定实例健康状态
        // request.setHealthStatus("Healthy");
        DescribeInstancesFullStatusResponse response = getResponse(request);
        for (DescribeInstancesFullStatusResponse.InstanceFullStatusType instanceFullStatusType : response.getInstanceFullStatusSet()) {
            System.out.printf("instanceId: %s, healthStatus:%s, status: %s%n", instanceFullStatusType.getInstanceId(), instanceFullStatusType.getHealthStatus().getName(), instanceFullStatusType.getStatus().getName());
        }
    }

image.png

2.3. 阿里云CLI

  1. 官网介绍
  2. 命令参数介绍:参数参考对应的OpenApi,cols展示的列名,需要与 JSON 数据中的字段相对应。rows指定过滤字段所在的JMESPath路径。
aliyun <product> <ApiName> [--parameter1 value1 --parameter2 value2 ...] --output cols=col1,col2 rows=rows.row[]
  1. 使用示例
  • 查看特定实例的健康状态。
aliyun ecs DescribeInstances --RegionId TheRegionId --output cols=InstanceId,InstanceName rows=Instances.Instance[]
------------------------------------------
|  InstanceId             | InstanceName  |
|  ----------             | ------------  |
|  i-bp13olycxni4rhwh**** | lf_test       |
------------------------------------------
aliyun ecs DescribeInstancesFullStatus --RegionId TheRegionId --InstanceId.1 i-bp13olycxni4rhwh**** --output cols=HealthStatus rows=InstanceFullStatusSet.InstanceFullStatusType[]
-------------------------
|  HealthStatus         |
|  ------------         |
|  map[Code:0 Name:Ok]  |
-------------------------
  • 查看指定地域下所有实例的健康状态。
aliyun ecs DescribeInstancesFullStatus --RegionId TheRegionId --output cols=HealthStatus,InstanceId rows=InstanceFullStatusSet.InstanceFullStatusType[]
---------------------------------------------------------------
|  HealthStatus                      | InstanceId              |
|  ------------                      | ----------              |
|  map[Code:0 Name:Ok]               | i-bp19trejji1vzvjr1qps  |
|  map[Code:0 Name:Ok]               | i-bp19trejji1vzvjr1qq0  |
|  map[Code:1 Name:InsufficientData] | i-bp19trejji1vzvjr1qpy  |
|  map[Code:0 Name:Ok]               | i-bp19y1z08hlzzldsdod2  |
|  map[Code:0 Name:Ok]               | i-bp18hf5w2tc6o4irxm7l  |
---------------------------------------------------------------

3. 云监控订阅实例健康状态通知

云监控(CloudMonitor)是一项针对阿里云资源和互联网应用进行监控的服务。云监控服务可用于收集获取阿里云资源的监控指标,探测互联网服务可用性,以及针对指标设置警报。

3.1. 创建订阅策略

若您的账户已经创建了报警联系人,且已经加入到报警联系组中,请跳过第二步。(点击链接查看您的报警联系人)

若您的账户已经存在通知配置策略,请跳过第三步。(点击链接查看您的通知配置策略)

  1. 登录云监控控制台
  2. 依次点击报警服务 > 报警联系人 > 创建联系人

image.png

image.png

image.png

  1. 依次点击事件中心 > 通知配置 > 创建策略

image.png

  1. 依次点击事件中心 > 事件订阅 > 创建订阅策略

image.png

报警订阅和通知按下图配置,其余步骤保持默认即可。

image.png

image.png

创建成功后,页面如下图所示

image.png

  1. 调试事件订阅。

image.png

单击确定。系统提示操作成功,云监控自动根据订阅策略中的通知方式给报警联系人发送一条报警测试通知。

image.png

3.2. 健康状态改变系统事件查询

image.png

3.3. 通知历史查询

image.png

image.png

相关实践学习
2分钟自动化部署人生模拟器
本场景将带你借助云效流水线Flow实现人生模拟器小游戏的自动化部署
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情:&nbsp;https://www.aliyun.com/product/ecs
相关文章
|
1天前
|
弹性计算 运维 开发者
关于ECS 健康状态 诊断功能评测
这是一位开发兼运维工程师的观点,认为云资源的健康状态和诊断功能作用有限,因为大多数问题根源在于代码质量,而这些工具无法改善低下的代码质量导致的资源异常。
|
1天前
|
弹性计算 运维 Serverless
产品测评 | ECS的健康保障新助手——云服务诊断
本文评测了阿里云的云服务诊断工具,该工具旨在帮助运维工程师和开发者快速定位和解决云资源问题。工具提供了“健康状态”和“诊断”两大核心功能,能够实时监控云资源状态,排查如网站无法访问、ECS故障等多种问题,并给出修复建议。该工具显著提升了排障效率,但在文档清晰度、功能描述准确性及部分功能实现上仍有改进空间。总体而言,该工具值得推荐给其他用户或团队使用。
|
1月前
|
存储 弹性计算 数据库
阿里云服务器ECS产品试用、ECS试用攻略、试用宝典及试用产品续用相关活动介绍
阿里云服务器ECS产品免费试用是阿里云为新手用户提供的免费体验的权益,旨在为新手开发者提供 0 成本高质量的上云体验服务,打造开放,敏捷的开发者环境。阿里云为广大用户提供基础版、企业版试用产品服务(二选一),帮您0门槛轻松体验1个月,基础版最高可试用4核 (vCPU) 8 GiB配置,企业版最高可最高可试用8核 (vCPU) 16 GiB。本文为大家介绍云服务器ECS产品试用、试用宝典、ECS试用攻略及试用产品续用相关活动,以供参考。
|
3月前
|
弹性计算 Linux 网络安全
阿里云ECS健康诊断产品详解
介绍阿里云ECS健康诊断产品详情和使用案例,包括各个产品概念、控制、OpenAPI、SDK等。
|
4月前
|
云安全 弹性计算 安全
阿里云服务器基础安全防护简介,云服务器基础安全防护及常见安全产品简介
在使用云服务器的过程中,云服务器的安全问题是很多用户非常关心的问题,阿里云服务器不仅提供了一些基础防护,我们也可以选择其他的云安全类产品来确保我们云服务器的安全。本文为大家介绍一下阿里云服务器的基础安全防护有哪些,以及阿里云的一些安全防护类云产品。
阿里云服务器基础安全防护简介,云服务器基础安全防护及常见安全产品简介
|
3月前
|
编解码 小程序
无影云电脑产品使用黑神话悟空之:游戏服务器更新/配置问题
该文档主要介绍了使用无影云电脑玩《黑神话:悟空》时可能遇到的问题及解决方法,包括游戏服务器更新、配置问题、画质建议及如何开启帧数显示等内容,并提供了详细的步骤指导与参考链接。
|
3月前
|
消息中间件 弹性计算 运维
阿里云ECS事件通知产品详解
介绍阿里云ECS事件通知产品的详情和使用案例,包括控制台、OpenAPI、调试等。
|
5月前
|
弹性计算 NoSQL Shell
云服务器 ECS产品使用问题之执行sh 56.sh报错,该如何解决
云服务器ECS(Elastic Compute Service)是各大云服务商阿里云提供的一种基础云计算服务,它允许用户租用云端计算资源来部署和运行各种应用程序。以下是一个关于如何使用ECS产品的综合指南。
|
5月前
|
弹性计算 Java 应用服务中间件
云服务器 ECS产品使用问题之变更服务器配置时一直显示400异常报错,该怎么办
云服务器ECS(Elastic Compute Service)是各大云服务商阿里云提供的一种基础云计算服务,它允许用户租用云端计算资源来部署和运行各种应用程序。以下是一个关于如何使用ECS产品的综合指南。
|
5月前
|
弹性计算 前端开发 网络安全
云服务器 ECS产品使用问题之遇到报错“failed to create session manager connector for”,该怎么办
云服务器ECS(Elastic Compute Service)是各大云服务商阿里云提供的一种基础云计算服务,它允许用户租用云端计算资源来部署和运行各种应用程序。以下是一个关于如何使用ECS产品的综合指南。

相关产品

  • 云服务器 ECS