阿里云田涛涛:云上运维新思维

简介: 本篇内容分享了云上运维新思维,为大家阐述云上运维的新形态,以及阿里云弹性计算提供了哪些云上运维新能力。

封面-田涛涛.jpg

图:阿里云弹性计算管控平台技术负责人田涛涛


2021年10月22日,在云栖大会的《云上运维最佳实践》分论坛,阿里云弹性计算管控平台技术负责人田涛涛发表了主题为“云上运维新思维”的演讲,为大家阐述云上运维的新形态,以及阿里云弹性计算提供了哪些云上运维新能力。


以下是根据他的演讲整理成的文章,主要通过三个部分来介绍云上运维新思维。

  1. 云上运维的新形态
  2. 新产品
  3. 新能力


一、云上运维的新形态


image001.png

在过去的十二年里面,阿里云弹性计算快速的成长,以ECS实例为中心,构建了强大的计算力,我们最近新发布的第四代神龙架构就是典型代表,同时围绕最中心的实例,我们构建了更好的弹性能力,从创建弹性到监控运维的全生命周期,来保证客户可以方便使用ECS和ECI。


随着越来越多企业开始在云上使用DevOps,我们发布了“三环“产品,里面有很多很熟悉的产品,比如资源编排、运维编排等。过去很多年,我们持续打造自动化运维能力,今天给大家汇报一下过去一年我们在自动化运维能力的进展,开源生态能力的建设,以及如何更好的支持其它开源的产品。

image003.png

过去几年里,越来越多企业拥抱了DevOps之后,如何更好支持在云上做更好的运维,我们观察到以下四个方面的趋势:

  • 第一,客户已经从传统资源视角到应用视角转变。
  • 第二,应用的安全合规
  • 第三,问题诊断方面。
  • 第四,开放兼容,体验一致开放。


二、新产品

image005.png

今天的第一个新产品发布是Application Manager,它的使用非常简单。只需要选择导入已有的资源,将自己的服务变成应用。结合应用,我们就会自动化来生成,通过分组维度的运行状态,自动化监控报警以及通知。同时,我们还提供基于应用视角的分组维度的运维,可以一键完成代码编译到代码发布全过程。

image007.png

除了应用管理之外,另外一个重要的发布是ECS Session Manager,可以更好地管控和运维通道。它可以实现无密码直接登录服务器,可以自定义用户界面,可以对连接记录及运行命令进行审计,操作过程非常的简单。


三、新能力


1、ECS Workbench新能力

image009.png

ECS Workbench,在2018年年底发布的,现在大部分客户选择Workbench作为最佳的Web指令操作工作来替代传统的SSH或者RDP。今天发布了很多新能力:

  • 第一,命令审计的能力,甚至对高风险命令进行拦截.它可以强制拒绝一些高危命令,高危操作以及安卓后门程序,都会通过实时模式拦截。
  • 第二,我们也提供了录屏功能。只要开启录屏回放,所有记录都可以实时回放。
  • 最后,我们结合Session manager,更加简化连接通道


2、运维编排新功能

image011.png

运维编排是我们提供的Pipeline(Ops) as Code的重要产品,今天我们继续发布一系列的增强能力:


  • 配置清单。如果你有两台ECS,当注册表和配置参数不同的时候,做调优和排查时会非常难。所以,我们会做实时数据分析和计算,找出两台机器的配置参数差异,并且也可以通过配置清单做分布式的大规模机器的配置下发。
  • 补丁管理。很多客户希望在补丁管理过程中做更好的定制,混合以及自定义开发。
  • 参数管理。今天有很多命令和参数需要重复使用的,通过参数管理就可以把这些参数托管给阿里云。同时用户可以对参数加密,加密之后可以保证参数管理的过程是加密可信的。


3、TAG新功能

image013.png

过去几年越来越多的客户都已经开始使用TAG来管理云上的资源,今天我们针对TAG的新功能再次做了升级。

  • 统一API及控制台,对阿里云跨所有资源类资源进行标记时,支持通过统一API及控制台进行标签管理。
  • 预置标签。这个标签只能查看,不能变更。如果需要变更,可以交给CSV及云产品来更改。这样可以方便做审计和跟踪。
  • CreatedBy,通过CreatedBy创建主账号时,可以基于主账号、子账号、角色扮演等方式进行标签分账。
  • 标签模板,基于标签使用场景配置,环境标签、组织标签、角色标签、成本标签、使用者标签等。


4、自助排障能力提升

image015.png

自助排障能力是去年云栖大会发布的重磅能力,今年继续做了增强。去年我们的自主排障支持70多项能力,今天扩展并支持100多项能力。后台可以实时查找出来问题所在。今天着重讲的三个功能:安全组的诊断;实例在启动和停止时的诊断;网络全链路实时诊断

通过我们的诊断会给你建议和方法,包括一些修复的策略,帮你自助完成整个生命周期的管理。同时我们也开放了API,可以结合自助诊断系统快速拿到结果。


5、Auto Scaling ECI

image017.png

很多客户希望实现定制模式、报警模式。一方面可以简化自己的成本,另一方面可以简化自己的操作,实现自动化扩容。我们今天也发布了Auto Scaling ECI。我们成功实现了免运维、低成本以及丰富的伸缩模式。用户无需关心底层服务器,无需预先创建集群和维护集群,可以专注业务领域创新。它可以根据业务流量自动弹性伸缩,减少空置费用,可同时配置定时任务、报警任务、固定容量等多种模式。


6、云助手支持混合云

image019.png

现在每天数以万计的客户,包括我们自己的CICD Build都是完全由云助手来实现的。云助手已经成为云上最重要的安全管控通道之一。现在云助手可以管理物理机,并且所有操作都是可审计、可追溯、可回放的。同时,你也可以把这个功能安装在其他云平台的服务器上,依然无缝的做管理。所以我们认为云助手将会是未来新的云的管理通道,它可能替换和简化云的思维和运维


7、ROS支持Terraform

image021.png

很多客户非常喜欢Terraform。Terraform是客户端运营,需要自己构建一套机器在客户端运营,如果出现问题也不能实时跟踪和演进。资源编排一直是阿里云最重要的载体,所以我们重磅发布ROS已经支持Terraform,并且该功能已经上线。可以直接将Terraform的脚本交给ROS执行和在客户端运行Terraform无差别,在实现这个功能时,我们会在这个过程中会做审计、追踪、实名验证,已经完全做到无缝的迁移。

image023.png


从资源到应用上,我们发布了应用管理,极大简化运营操作;ECS实例清单,实时做参数的对比、验证的对比、更多的审计;我们也发布了ECI,像ECS一样非常极简;Session Manager,提供无密码管控通道,让运维更加安全。


我们相信云时代的运维将会有自己的特点。在新的云模式下如何更好做运维需要大家一起探索,让运维变得更简单,更智能,更自动化。


点击大会官网,观看田涛涛的精彩演讲视频。

相关实践学习
2分钟自动化部署人生模拟器
本场景将带你借助云效流水线Flow实现人生模拟器小游戏的自动化部署
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
2月前
|
存储 运维 Cloud Native
阿里云国际CloudOps的优势和云上运维的特点
阿里云国际CloudOps的优势和云上运维的特点
|
3月前
|
存储 弹性计算 运维
阿里云日常运维-购买服务器
这篇文章是关于如何在阿里云购买和配置云服务器ECS的教程。
85 6
阿里云日常运维-购买服务器
|
3月前
|
域名解析 运维
阿里云日常运维-购买域名
这篇文章是关于如何在阿里云进行日常运维,包括购买域名的详细步骤和一些推荐阅读资源。
110 4
|
4月前
|
机器学习/深度学习 人工智能 运维
"颠覆传统运维!揭秘阿里云AIGC如何化身运维界超级大脑,让故障预警、智能告警不再是梦,运维大神之路从此开启!"
【8月更文挑战第14天】随着AI技术的发展,AIGC正革新依赖人工经验的传统运维行业。阿里云凭借其领先的云计算能力和AI服务生态,为运维智能化提供了坚实基础。通过分析历史数据和系统日志,AIGC能自动发现并预测故障,大幅提升运维效率。例如,结合阿里云SLS和PAI,可构建智能告警系统,实现异常检测和实时预警。随着AIGC技术的进步,运维领域将迎来全面智能化转型,开启运维新时代。
131 3
|
4月前
|
运维 安全 网络安全
运维笔记:基于阿里云跨地域服务器通信
运维笔记:基于阿里云跨地域服务器通信
183 1
|
4月前
|
存储 运维 Cloud Native
"Flink+Paimon:阿里云大数据云原生运维数仓的创新实践,引领实时数据处理新纪元"
【8月更文挑战第2天】Flink+Paimon在阿里云大数据云原生运维数仓的实践
284 3
|
2月前
|
运维 Linux Apache
,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具
【10月更文挑战第7天】随着云计算和容器化技术的发展,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具,通过定义资源状态和关系,确保系统始终处于期望配置状态。本文介绍Puppet的基本概念、安装配置及使用示例,帮助读者快速掌握Puppet,实现高效自动化运维。
63 4
|
24天前
|
机器学习/深度学习 数据采集 人工智能
智能运维:从自动化到AIOps的演进与实践####
本文探讨了智能运维(AIOps)的兴起背景、核心组件及其在现代IT运维中的应用。通过对比传统运维模式,阐述了AIOps如何利用机器学习、大数据分析等技术,实现故障预测、根因分析、自动化修复等功能,从而提升系统稳定性和运维效率。文章还深入分析了实施AIOps面临的挑战与解决方案,并展望了其未来发展趋势。 ####
|
1月前
|
机器学习/深度学习 数据采集 运维
智能化运维:机器学习在故障预测和自动化响应中的应用
智能化运维:机器学习在故障预测和自动化响应中的应用
55 4
|
2月前
|
存储 运维 监控
高效运维:从基础架构到自动化管理的全面指南
【10月更文挑战第11天】 本文将深入探讨如何通过优化基础架构和引入自动化管理来提升企业IT运维效率。我们将从服务器的选择与配置、存储解决方案的评估,到网络的设计与监控,逐一解析每个环节的关键技术点。同时,重点讨论自动化工具在现代运维中的应用,包括配置管理、持续集成与部署(CI/CD)、自动化测试及故障排除等方面。通过实际案例分析,展示这些技术如何协同工作,实现高效的运维管理。无论是IT初学者还是经验丰富的专业人员,都能从中获得有价值的见解和实操经验。
86 1