2017中国开源产业峰会暨中国国际软件博览会分论坛,优云软件叶帅在开源云计算技术创新论坛发表了《“互联网+”时代的云数据中心运维思辨》的主题演讲,本文根据演讲内容整理而成。
无论是稳态还是敏态,大家关注的内容最终的目标并不会发生变化,最终的目标都是保证当前的数据、业务或者用户能够得到一个比较好的系统体验,是不是说随着云环境或者容器对象的引入,当前的IT对象或者IT服务就能够得到持续的比较好的体验呢?其实往往不是这样的。
随着业务系统或者整个IT架构发生一个复杂的变化,要管理的内容也变得越来越多,以前只是单纯地维护网络,维护存储,维护操作系统,维护我们的数据控制原件就可以了。那么随着虚拟化、容器应用的这样一个引入,我们发现更多的IT架构是发生瞬时变化的,很可能容器对象在服务器A下一刻就到服务器B去了,导致我们要花很大的力气去做整体业务可用性的一个盘查,这样的难度也越来越大。
那么如何能够保证用户得到比较好的一个效果,而我们的业务还能持续运行,这其实是我们要考虑的事情。广通软件提出了一个应用端到端的管理思路,这个应用端到端的管理思路跟传统的这种APM监控或者PPM监控略有不同。
传统的监控更多的还是关注工具层面,单独工具或者单一工具它所获得的信息内容,而广通软件的这个应用端到端的管理,不仅能够去捕捉到某个不满意用户的总体访问情况,哪些不满用户它的那个慢交易在什么地方,还能够对这个用户的慢交易进行过程的回溯甚至是定位到这个慢交易是在哪段代码中、哪个数据库中出现了问题,做到一个前端跟后端的关联,这个是我们认为端到端应该做的一个事情,而不是局限于应用层或者仅局限于数据层、用户体验层面的一个内容。
我们要打通从用户体验到数据到应用到底层架构的这样四层关联,那这个是我们在应用监控方面的一个内容。
接下来就提到了我们的第三个内容,有了资源管理,也有了监控管理,那么这些有没有很好的去解决当前运营的一些问题呢,它只能够保证在运维被动式响应的场景能够得到很好的一个改善,达到一个主动式的运维。那么如何能够把运维从主动式转到一种运维效能或者服务交付式运维呢,我们提出了自动化处置的一个概念。过去传统的自动化运维关注的内容是包含了像我们的巡检、合规性检查、日志分析数据迁移的一些内容,过去关注的内容更多是对于操作系统对象层面的日常巡检或日常关注的一个运维交付。那么我们在敏态环境下,在当前云环境和“互联网+”下面我们更多的通过自动化运维,要做的事情是把DevOps的一个从代码构建到代码发布,到最后持续运维、运营都纳进来。所以说我们当前所关注的敏态下的自动化运维,它更多的是从持续交付到整个系统的弹性发布,甚至是故障自愈达到这样目的。
我们把整个运维过程进行拆分,定义每个过程或者每个场景是我们整个运维生产线上的一个原子化操作,那么我们把这个原子化操作进行生产链的组合,保证它是整个木桶,没有任何短板,而且整个木桶的衔接也是没有任何问题的。那么通过编排把这些定义好的原子化操作进行场景化的示例,进行产品化示例之后,进行快速的交付,交付就可以通过监控驱动或者流程驱动或者人工驱动等诸多方式来保证自动化的这种快速的应用,这个是我们自动化的一个思路。
那么自动化应用在什么地方?其实自动化更多的是应用在一些比较大的数据中心。我们来给大家算笔账,一台服务器从系统部署到最后的监控告警大概需要30分钟,那么如果我们有一百台甚至是一千台服务器,这就会是一件很可怕的事情,我们测算了一下扩容一千台服务器大概需要2个人工作一个月的时间,这会非常消耗人力。
自动化的方式能够应用在需求调研、例行操作、响应支持、优化改善等等,我们把自动化操作通过场景的映射,把每个场景定义成不同原子化的过程,进行快速的发布,这个就是我们的自动化的一个内容。
那么我们说整个信息发展或者技术发展遵循的路线都是先通过高精尖的技术去完善工具,当完善工具之后,那么工具会形成一个打通平台的内容,当有平台之后人会参与工具之中,人会参与平台之中,实现人与工具,人与平台的对话。那么最后我们在这边简单的提一下对于运维的一个展望和对未来发展的理解,广通软件认为人工智能肯定是最后运维发展的一个终极目标,那么人工智能包含了人与机器、机器与机器,人与人之间的快速协同,我们把它称之为ChatOps,这种即时协同的方式来去做我们快速的一个交付。
我们的这种即时协作可以广泛应用在我们的环境部署、故障排查以及相关的功能交付,涵盖了监控到资源管理到整个自动化的所有运维场景,能够帮助我们的人员进行快速下达指令,能够进行一个快速执行。那么运维的即时协作,更多的是通过创建人工的工作组的方式来成立专项的PMO,在专项PMO里面我们以人为本,人员通过智能语意的方式对机器人进行语义的下达,比方说让它去扩容某个表空间,那么智能机器人就识别了这样的一个语义,它就可以去调用自动化的工具去做这个事情。
那么通过ChatOps可以想象到这样的一个人与机器的协作最终的目标是降低人员对于运维工具的过分依赖,通过命令的方式让不具备全栈运维的人员也能参与进来,只要有这个权限,只要有这个知识,那么就可以下达这个命令,由机器来帮助执行。
通过设立不同的专项组,我们成立了运维专题,那么在运维专题里面可以查看当前的配置项,甚至是把这个配置上的一个消费圈订阅到比较醒目的看板上,同时也可以去查看性能状态、监控状态,也可以去执行一些故障恢复的脚本,查看一些监控报警等等。这个其实就是我们整体的一个运维发展未来远景的规划,就是通过智能语意、智能技术来帮助我们实现面向未来智能时代的一个人员与运维的快速结合。
广通软件过去是做传统运维的,那么现在更多是帮助用户实现“数字化”与“互联网+”时代下的IT运维快速的迭代,帮助他们去稳步适应ITIL和DevOps的冲击,那这个就是本次演讲的内容,非常感谢各位.
观众提问:
老师好,现在互联网比较流行这种微服务架构,就是目前我们一些传统企业包括金融行业也是把自己的互联网部分逐渐的在微服务化,大家也知道微服务不像以前的那种通过企业总线统一去交付,而是去相应的服务引擎那一块去发现这个服务,然后就实现一个大范围网状的一个交付,对于这种架构的话我们有没有一些相应的策略或者方案。
叶帅回答:
对于互联网现在我们用的比较多的这种微服务架构,首先第一个微服务架构是通过网关的方式来实现或者通过OpenAPI的方式来去实现我们整个数据的互通,数据的交互,那么我们现在提到的运维Pass平台也是基于微服务的架构去做的这个内容,那么我们通过两方面来实现整个微服务的管理,第一个方面是通过比较基础的一个日志方面进行管理,第二个是通过端口镜像的方式去做网络报文的一个跟踪,因为它是通过OpenAPI的方式来去做整个消息的这样一个互通,所以通过报文的方式来去捕捉,来去解析整个数据传输或者整个数据交互的一个内容是更为合适的。