运维编排场景系列-----每日统计多Region实例的运行状态

本文涉及的产品
系统运维管理,不限时长
简介: 应用场景 一个账号内存在一个Region或者多个Region时,并且每个Region都存在多个实例。需要自定义指定时间来查看所有Region下或者查看指定的部分Region的全部实例的运行状态,并统计出各种实例状态的数量,将输出的报告以钉钉的形式通知指定用户。

应用场景

一个账号内存在一个Region或者多个Region时,并且每个Region都存在多个实例。需要自定义指定时间来查看所有Region下或者查看指定的部分Region的全部实例的运行状态,并统计出各种实例状态的数量,将输出的报告以钉钉的形式通知指定用户。

解决方案

任务步骤
1.设置定时器
2.循环多个Region
3.查询每个Region的实例数量
4.计算不同状态的实例数量
5.将结果发送给指定的钉钉用户

一、打开控制台,找到运维编排
1565838531882_d0df7bfe_0d75_4864_9358_f32f97ea4380

二、创建模版
根据以上的任务步骤来看可以把此任务创建为以下两个模版。点击
创建模版**
1565838175874_155750e5_fa1a_423d_9b81_c6177749f8c1

模版一:
此模版是子模版,根据父模版传进来的RegionId来分别计算此RegionId下不同运行状态的实例数量,并将结果传回父模版去做处理。自定义此模版名称或这将此模版命名为:InstanceDifferentStatusCountInfo

FormatVersion: OOS-2019-06-01
Outputs:
  runningCount:
    Type: String
    Value: '{{ regionId }}:{{ runningInstance.count }}'
  stoppedCount:
    Type: String
    Value: '{{ regionId }}:{{ stoppedInstance.count }}'
  totalCount:
    Type: String
    Value: '{{ regionId }}:{{ totalInstance.count }}'
Parameters:
  regionId:
    Description: The region id for instance.
    Type: String
  OOSAssumeRole:
    Description: The RAM role to be assumed by OOS.
    Type: String
    Default: OOSServiceRole
RamRole: '{{ OOSAssumeRole }}'
Tasks:
  - Name: runningInstance
    Action: 'ACS::ExecuteAPI'
    Description: >-
      describe instances with specified parameters, refer them here:
      https://help.aliyun.com/document_detail/63440.html
    Properties:
      Service: Ecs
      API: DescribeInstances
      Parameters:
        Status: Running
        RegionId: '{{ regionId }}'
    Outputs:
      count:
        Type: String
        ValueSelector: .TotalCount
  - Name: stoppedInstance
    Action: 'ACS::ExecuteAPI'
    Description: >-
      describe instances with specified parameters, refer them here:
      https://help.aliyun.com/document_detail/63440.html
    Properties:
      Service: Ecs
      API: DescribeInstances
      Parameters:
        Status: Stopped
        RegionId: '{{ regionId }}'
    Outputs:
      count:
        Type: String
        ValueSelector: .TotalCount
  - Name: totalInstance
    Action: 'ACS::ExecuteAPI'
    Description: >-
      describe instances with specified parameters, refer them here:
      https://help.aliyun.com/document_detail/63440.html
    Properties:
      Service: Ecs
      API: DescribeInstances
      Parameters:
        RegionId: '{{ regionId }}'
    Outputs:
      count:
        Type: String
        ValueSelector: .TotalCount

模版二:
    此模版在嵌套模版中为父模版,主要作用是定时执行循环输入的RegionId,并给子模版传RegionId,将属于不同Region的模版一输出的结果做聚合处理,聚合处理后的结果通过钉钉发送给指定的用户。自定义此模版名称或将此模版命名为DifferentRegionInstanceStatusCount
注意:由于此功能使用了嵌套模版,需要先将模版一创建成功后再创建模版二,并将【模版一】的名称作为【模版二】instanceStatusInfoTemplateName参数

FormatVersion: OOS-2019-06-01
Outputs: {}
Parameters:
  regionId:
    Description: The region id for instance.
    Type: List
    Default:
      - cn-hangzhou
      - cn-beijing
  token:
    Description: DingTalk webhook token.
    Type: String
  expression:
    Description: 'Daily task execution time(UTC),for example:0 0 2 ? * *'
    Type: String
  endDate:
    Description: 'The task execution end date(UTC),for example:2019-08-02T08:06:49Z or 2019-08-02'
    Type: String
  OOSAssumeRole:
    Description: The RAM role to be assumed by OOS.
    Type: String
    Default: OOSServiceRole
RamRole: '{{ OOSAssumeRole }}'
Tasks:
  - Name: DailyStatisticsStatus
    Action: 'ACS::TimerTrigger'
    Description: Timer for executing task.
    Properties:
      Type: cron
      Expression: '{{ expression }}'
      EndDate: '{{ endDate }}'
  - Name: instanceStatusInfo
    Action: 'ACS::Template'
    Description: Check if the user has an MFA Device.
    Properties:
      TemplateName: InstanceDifferentStatusCountInfo
      Parameters:
        regionId: '{{ACS::TaskLoopItem}}'
    Outputs:
      runningCount:
        Type: String
        ValueSelector: runningCount
      stoppedCount:
        Type: String
        ValueSelector: stoppedCount
      totalCount:
        Type: String
        ValueSelector: totalCount
    Loop:
      Items: '{{ regionId }}'
      MaxErrors: 100
      Concurrency: 10
      Outputs:
        RunningCount:
          AggregateField: runningCount
          AggregateType: 'Fn::ListJoin'
        StoppedCount:
          AggregateField: stoppedCount
          AggregateType: 'Fn::ListJoin'
        TotalCount:
          AggregateField: totalCount
          AggregateType: 'Fn::ListJoin'
  - Name: NotifyDingTalk
    Action: 'ACS::Notify'
    Description: >-
      Send notification to DingTalk via webhook. Please refer
      https://open-doc.dingtalk.com/microapp/serverapi2/qf2nxq for details.
    Properties:
      NotifyType: WebHook
      WebHook:
        URI: 'https://oapi.dingtalk.com/robot/send?access_token={{ token }}'
        Headers:
          Content-Type: application/json
        Content:
          msgtype: text
          text:
            content: >-
              Total Instance Count: {{ instanceStatusInfo.TotalCount }},  
              Running Instance Count: {{ instanceStatusInfo.RunningCount}},  
              Stopped Instance Count: {{ instanceStatusInfo.StoppedCount}}

三、创建执行
两个模版全部创建成功后就点击创建执行了,此时必须只执行模版二。
1565838783576_785ed5ca_c1d4_4619_a3d1_6f89b028bd63

四、设置参数
如下所示,根据实际情况设置参数。参数输入完毕后点击下一步:确认创建。
参数介绍:
regionId:实例的地区,可以根据实际情况输入一个或多个regionId。
token:报告接收者的token
expression:设置的定期执行时间,此处的设置参数方式如下所示(必须为UTC格式时间,参考云助手的设置定时执行命令,UTC时间在平常的基础上 -8h):
0 15 2 ?   每天上午10:15执行任务
0 0 2,6,8 ?  每天上午10:00点、下午14:00以及下午16:00执行任务
0 0/5 6 ? 每天下午14:00到下午14:55时间段内每隔5分钟执行任务
0 0/30 1-9 ?  每天上午09:00到下午17:00时间段内每隔半小时执行任务
0 10,44 4 ? 3 WED 每年3月的每个星期三下午14:10到14:44时间段内执行任务
0 15 2 ? * 6L 2002-2005  2002年至2005年每月最后一个星期五上午10:15执行任务
endDate:设置执行结束时间(必须为UTC格式的时间:2019-08-02T08:06:49Z  or 2019-08-02)
1565924519363_ae29ee11_529b_4307_8435_50cc808e8f9a

五、创建执行
参数设置完毕后,就可以点击创建执行了,此任务开始执行。
1565840688253_e3672be8_ea7a_4c29_b038_98c025823da1

由于时间定时器的关系,此任务在指定的时间执行任务结束后,此任务继续回到等待中。下图为第一层子执行。
1565925651936_9530bbc4_e2a4_41b1_b306_c1d9dcc710a8

账号内包含多个regionId时此执行会有多个子执行,时间定时器下的任务子执行显示如下图所示。
1565841043280_47ff6ba8_2594_472e_8f28_bc15d45b8dc4

六、输出结果
当循环完所有的regionId后,任务执行结束,并将输出的报告发送给指定的钉钉用户,其显示如下所示。
1565853551907_fea3a79d_8bce_4aa3_89bb_d8c071b50644

总结

此执行主要是为了定时查看某一账号内的所有实例的运行状态。在高压任务下或者是日常检查中方便随时了解账号内所有实例的实际运行情况。通过嵌套模版的方法解决了在一个模版下无法统计不同Region的实例不同运行状态,并根据需要来输出理想的数据格式。目前OOS运维编排处于公测中欢迎试用。


系列文章

主题文章

阿里云重磅发布云上自动化利器——运维编排OOS

最佳实践

玩转运维编排服务的权限:Assume Role+Pass Role

场景系列

运维编排场景系列----更新ECS镜像
运维编排场景系列-----给ECS实例自动打TAG
运维编排场景系列----从实例中拷贝文件到OSS
运维编排场景系列----给实例加到SLS机器组
运维编排场景系列----检测MFA功能状态
阿里云运维编排新功能:一键批量克隆ECS

相关文章
|
2月前
|
存储 运维 监控
API明细日志及运维统计日志全面提升API可运维性
在数字化转型的大潮中,数据已成为企业最宝贵的资产之一。而数据服务API可快速为数据应用提供数据接口。面对越来越多的API以及越来越多的应用调用,如何快速查看API的服务情况、异常情况及影响范围,以及查看API的调用详情,进行API的性能优化、错误排查变得越来越重要,本文将介绍如何配置和开通API运维统计及明细日志,以及如何查看日志进行介绍。
142 0
|
3月前
|
运维 自然语言处理 开发者
作为一名运维人员,使用通义灵码个人版处理日常工作中的代码相关任务,极大地提升了我的工作效率。以下是我使用通义灵码的具体实践场景、效果和心得,以及相应的截图。
作为一名运维人员,我使用通义灵码处理日常工作中的代码任务,效率提升了30%。通义灵码帮助我快速理解复杂代码、生成准确的代码注释,并能从自然语言生成代码示例,大幅减少了代码编写和理解的时间。
106 3
|
4月前
|
机器学习/深度学习 人工智能 运维
|
4月前
|
弹性计算 JSON 运维
阿里云ECS实例运维属性-如何控制实例的宕机表现
介绍如何通过运维属性指定阿里云ECS的宕机运维表现等
|
5月前
|
存储 边缘计算 运维
边缘计算问题之OpenYurt 对边缘计算场景中的运维难题如何解决
边缘计算问题之OpenYurt 对边缘计算场景中的运维难题如何解决
55 1
|
5月前
|
存储 运维 监控
监控与日志管理:保障系统稳定运行与高效运维的基石
【8月更文挑战第16天】监控与日志管理是保障系统稳定运行和高效运维的基石。它们不仅能够帮助企业及时发现并解决问题,还能够为性能调优、资源优化和业务决策提供有力支持。因此,在构建系统架构时,企业应高度重视监控与日志管理的规划和实施,确保它们能够充分发挥作用,为企业的发展保驾护航。同时,随着技术的不断进步和应用场景的不断拓展,监控与日志管理也将持续演进和创新,为企业带来更多的价值和便利。
|
5月前
|
运维 分布式计算 DataWorks
DataWorks产品使用合集之运维中心中的运行日志可以保留多久
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
4月前
|
运维 监控 数据可视化
高效运维的秘密武器:自动化工具链的构建与实践在当今数字化时代,IT系统的复杂性和规模不断增加,使得传统的手动运维方式难以应对日益增长的业务需求。因此,构建一套高效的自动化工具链成为现代运维的重要任务。本文将深入探讨如何通过自动化工具链提升IT运维效率,确保系统稳定运行,并实现快速响应和故障恢复。
随着企业IT架构的不断扩展和复杂化,传统的手动运维已无法满足业务需求。自动化工具链的构建成为解决这一问题的关键。本文介绍了自动化工具链的核心概念、常用工具及其选择依据,并通过实际案例展示了自动化工具链在提升运维效率、减少人为错误、优化资源配置等方面的显著效果。从监控系统到自动化运维平台,再到持续集成/持续部署(CI/CD)的流程,我们将一步步揭示如何成功实施自动化工具链,助力企业实现高效、稳定、可靠的IT运维管理。
|
5月前
|
运维 监控 测试技术
5个常见运维场景,用这几个Python脚本就够了!
5个常见运维场景,用这几个Python脚本就够了!
|
7月前
|
XML 运维 Java
Spring运维之boot项目打包jar和插件运行并且设置启动时临时属性和自定义配置文件
Spring运维之boot项目打包jar和插件运行并且设置启动时临时属性和自定义配置文件
66 1

热门文章

最新文章