阿里云田涛涛:云上运维新思维

简介: 本篇内容分享了云上运维新思维,为大家阐述云上运维的新形态,以及阿里云弹性计算提供了哪些云上运维新能力。

封面-田涛涛.jpg

图:阿里云弹性计算管控平台技术负责人田涛涛


2021年10月22日,在云栖大会的《云上运维最佳实践》分论坛,阿里云弹性计算管控平台技术负责人田涛涛发表了主题为“云上运维新思维”的演讲,为大家阐述云上运维的新形态,以及阿里云弹性计算提供了哪些云上运维新能力。


以下是根据他的演讲整理成的文章,主要通过三个部分来介绍云上运维新思维。

  1. 云上运维的新形态
  2. 新产品
  3. 新能力


一、云上运维的新形态


image001.png

在过去的十二年里面,阿里云弹性计算快速的成长,以ECS实例为中心,构建了强大的计算力,我们最近新发布的第四代神龙架构就是典型代表,同时围绕最中心的实例,我们构建了更好的弹性能力,从创建弹性到监控运维的全生命周期,来保证客户可以方便使用ECS和ECI。


随着越来越多企业开始在云上使用DevOps,我们发布了“三环“产品,里面有很多很熟悉的产品,比如资源编排、运维编排等。过去很多年,我们持续打造自动化运维能力,今天给大家汇报一下过去一年我们在自动化运维能力的进展,开源生态能力的建设,以及如何更好的支持其它开源的产品。

image003.png

过去几年里,越来越多企业拥抱了DevOps之后,如何更好支持在云上做更好的运维,我们观察到以下四个方面的趋势:

  • 第一,客户已经从传统资源视角到应用视角转变。
  • 第二,应用的安全合规
  • 第三,问题诊断方面。
  • 第四,开放兼容,体验一致开放。


二、新产品

image005.png

今天的第一个新产品发布是Application Manager,它的使用非常简单。只需要选择导入已有的资源,将自己的服务变成应用。结合应用,我们就会自动化来生成,通过分组维度的运行状态,自动化监控报警以及通知。同时,我们还提供基于应用视角的分组维度的运维,可以一键完成代码编译到代码发布全过程。

image007.png

除了应用管理之外,另外一个重要的发布是ECS Session Manager,可以更好地管控和运维通道。它可以实现无密码直接登录服务器,可以自定义用户界面,可以对连接记录及运行命令进行审计,操作过程非常的简单。


三、新能力


1、ECS Workbench新能力

image009.png

ECS Workbench,在2018年年底发布的,现在大部分客户选择Workbench作为最佳的Web指令操作工作来替代传统的SSH或者RDP。今天发布了很多新能力:

  • 第一,命令审计的能力,甚至对高风险命令进行拦截.它可以强制拒绝一些高危命令,高危操作以及安卓后门程序,都会通过实时模式拦截。
  • 第二,我们也提供了录屏功能。只要开启录屏回放,所有记录都可以实时回放。
  • 最后,我们结合Session manager,更加简化连接通道


2、运维编排新功能

image011.png

运维编排是我们提供的Pipeline(Ops) as Code的重要产品,今天我们继续发布一系列的增强能力:


  • 配置清单。如果你有两台ECS,当注册表和配置参数不同的时候,做调优和排查时会非常难。所以,我们会做实时数据分析和计算,找出两台机器的配置参数差异,并且也可以通过配置清单做分布式的大规模机器的配置下发。
  • 补丁管理。很多客户希望在补丁管理过程中做更好的定制,混合以及自定义开发。
  • 参数管理。今天有很多命令和参数需要重复使用的,通过参数管理就可以把这些参数托管给阿里云。同时用户可以对参数加密,加密之后可以保证参数管理的过程是加密可信的。


3、TAG新功能

image013.png

过去几年越来越多的客户都已经开始使用TAG来管理云上的资源,今天我们针对TAG的新功能再次做了升级。

  • 统一API及控制台,对阿里云跨所有资源类资源进行标记时,支持通过统一API及控制台进行标签管理。
  • 预置标签。这个标签只能查看,不能变更。如果需要变更,可以交给CSV及云产品来更改。这样可以方便做审计和跟踪。
  • CreatedBy,通过CreatedBy创建主账号时,可以基于主账号、子账号、角色扮演等方式进行标签分账。
  • 标签模板,基于标签使用场景配置,环境标签、组织标签、角色标签、成本标签、使用者标签等。


4、自助排障能力提升

image015.png

自助排障能力是去年云栖大会发布的重磅能力,今年继续做了增强。去年我们的自主排障支持70多项能力,今天扩展并支持100多项能力。后台可以实时查找出来问题所在。今天着重讲的三个功能:安全组的诊断;实例在启动和停止时的诊断;网络全链路实时诊断

通过我们的诊断会给你建议和方法,包括一些修复的策略,帮你自助完成整个生命周期的管理。同时我们也开放了API,可以结合自助诊断系统快速拿到结果。


5、Auto Scaling ECI

image017.png

很多客户希望实现定制模式、报警模式。一方面可以简化自己的成本,另一方面可以简化自己的操作,实现自动化扩容。我们今天也发布了Auto Scaling ECI。我们成功实现了免运维、低成本以及丰富的伸缩模式。用户无需关心底层服务器,无需预先创建集群和维护集群,可以专注业务领域创新。它可以根据业务流量自动弹性伸缩,减少空置费用,可同时配置定时任务、报警任务、固定容量等多种模式。


6、云助手支持混合云

image019.png

现在每天数以万计的客户,包括我们自己的CICD Build都是完全由云助手来实现的。云助手已经成为云上最重要的安全管控通道之一。现在云助手可以管理物理机,并且所有操作都是可审计、可追溯、可回放的。同时,你也可以把这个功能安装在其他云平台的服务器上,依然无缝的做管理。所以我们认为云助手将会是未来新的云的管理通道,它可能替换和简化云的思维和运维


7、ROS支持Terraform

image021.png

很多客户非常喜欢Terraform。Terraform是客户端运营,需要自己构建一套机器在客户端运营,如果出现问题也不能实时跟踪和演进。资源编排一直是阿里云最重要的载体,所以我们重磅发布ROS已经支持Terraform,并且该功能已经上线。可以直接将Terraform的脚本交给ROS执行和在客户端运行Terraform无差别,在实现这个功能时,我们会在这个过程中会做审计、追踪、实名验证,已经完全做到无缝的迁移。

image023.png


从资源到应用上,我们发布了应用管理,极大简化运营操作;ECS实例清单,实时做参数的对比、验证的对比、更多的审计;我们也发布了ECI,像ECS一样非常极简;Session Manager,提供无密码管控通道,让运维更加安全。


我们相信云时代的运维将会有自己的特点。在新的云模式下如何更好做运维需要大家一起探索,让运维变得更简单,更智能,更自动化。


点击大会官网,观看田涛涛的精彩演讲视频。

相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
7月前
|
运维 算法 机器人
阿里云AnalyticDB具身智能方案:破解机器人仿真数据、算力与运维之困
本文将介绍阿里云瑶池旗下的云原生数据仓库AnalyticDB MySQL推出的全托管云上仿真解决方案,方案采用云原生架构,为开发者提供从开发环境、仿真计算到数据管理的全链路支持。
|
11月前
|
存储 运维 监控
云服务运维智能时代:阿里云操作系统控制台
阿里云操作系统控制台是一款创新的云服务器运维工具,采用智能化和可视化方式简化运维工作。通过AI技术实时监控服务器状态,自动分析性能瓶颈和故障原因,生成详细的诊断报告与优化建议。用户无需复杂命令行操作,仅需通过图形化界面即可高效处理问题,降低技术门槛并提升故障处理效率。尤其在服务器宕机等紧急情况下,智能诊断工具能快速定位问题根源,确保业务稳定运行。此外,控制台还提供内存、存储、网络等专项诊断功能,帮助用户全面了解系统资源使用情况,进一步优化服务器性能。这种智能化运维方式不仅提升了工作效率,也让个人开发者和企业用户能够更专注于核心业务的发展。
|
9月前
|
运维 监控 算法
阿里云 OS 控制台:让基础设施运维不再难
涵盖智能异常检测、智能根因分析、智能修复建议的全链路运维解决方案
|
10月前
|
人工智能 运维 监控
阿里云携手神州灵云打造云内网络性能监测标杆 斩获中国信通院高质量数字化转型十大案例——金保信“云内网络可观测”方案树立云原生运维新范式
2025年,金保信社保卡有限公司联合阿里云与神州灵云申报的《云内网络性能可观测解决方案》入选高质量数字化转型典型案例。该方案基于阿里云飞天企业版,融合云原生引流技术和流量“染色”专利,解决云内运维难题,实现主动预警和精准观测,将故障排查时间从数小时缩短至15分钟,助力企业降本增效,形成可跨行业复制的数字化转型方法论。
546 6
|
12月前
|
缓存 运维 监控
Anolis OS深度集成运维利器 阿里云操作系统控制台上线
阿里云在百万服务器运维领域的丰富经验打造。
Anolis OS深度集成运维利器 阿里云操作系统控制台上线
|
11月前
|
存储 人工智能 运维
阿里云操作系统控制台评测:国产AI+运维 一站式运维管理平台
本文详细评测了阿里云操作系统控制台,作为一款集运维管理、智能助手和系统诊断于一体的工具,它为企业提供了高效管理云资源的解决方案。文章涵盖登录与服务开通、系统管理与实例纳管、组件管理与扩展功能、系统诊断与问题排查以及实时热点分析与性能优化等内容。通过实际操作展示,该平台显著提升了运维效率,并借助AI智能助手简化了复杂操作。建议进一步完善组件库并增强第三方兼容性,以满足更多高级运维需求。
747 2
|
11月前
|
存储 运维 监控
阿里云飞天洛神云网络子系统“齐天”:超大规模云网络智能运维的“定海神针”
阿里云飞天洛神云网络子系统“齐天”:超大规模云网络智能运维的“定海神针”
471 3
|
4月前
|
人工智能 运维 监控
运维安全还能靠“人盯人”?别闹了,聊聊自动化处理的真功夫
运维安全还能靠“人盯人”?别闹了,聊聊自动化处理的真功夫
205 17
|
9月前
|
数据采集 机器学习/深度学习 人工智能
运维人的“福音”?AI 驱动的自动化网络监控到底香不香!
运维人的“福音”?AI 驱动的自动化网络监控到底香不香!
1087 0
|
6月前
|
人工智能 运维 安全
运维老哥的救星?AI 驱动的自动化配置管理新趋势
运维老哥的救星?AI 驱动的自动化配置管理新趋势
350 11

热门文章

最新文章