本书会教读者如何利用SREWorks 开源数智运维平台,来构建满足业务需求的数智运维体系。本书不会有太多手把手的直接教学内容,更多的是告诉读者如何去整理当前的技术栈,才能进一步向数智运维演进;让读者了解到云原生下的运维体系能够为企业带来什么样的实际价值。
孵化SREWorks 的开发团队也是一支大数据基础工程技术团队,他们将数据化运维、智能化运维引入到运维体系中。以监控为例,监控不仅仅是agent 采集上报就结束了,将数据通过ETL(抽取Extract/转换Transform/加载Load)处理成各种结构的数据,通过智能算法或者规则对其进行分析,最后将分析结果变化成可以直接执行的自动化指令,实现数智运维才是一个完整的闭环。想要了解数智运维体系以及平台架构,推荐阅读《SREWorks 介绍篇》。
云原生的架构不仅仅是工作负载从进程变成容器Container)继而变成(Pod)这么简单,很多原本在虚拟机内实现的调度逻辑被释放到了k8s 的控制平面,这一改变增加了容器编排的复杂度,但也进一步提升云原生架构的通用性和灵活性。
SREWorks 运维开发团队凭借在大数据大规模集群的丰富运维开发经验,在云原生场景下快速迭代演进,实现了数智运维方案云原生化。如果希望了解云原生技术栈如何演进的同学推荐阅读《Kubernetes 资源编排篇》。
众所周知,单集群5000 个节点曾是集群规模化的一个门槛,在这个体量下很多技术方案都会出现从量变到质变的飞跃。阿里飞天集群在2013 年就达到了5K 的规模,而孵化SREWorks 的团队正是支撑这个5K 集群背后的运维团队。团队里自行研发的无数个运维工具撑起了飞天5K 集群的一次次的升级、扩容以及变更。也是这些历练,让这些工具快速成长为各种面向海量机器、规模集群的平台化运维方案:
从交付到监测,从管理到运营,所有相关的能力一应俱全。想要知晓这些平台化的能力如何在生产环境中大显身手,推荐阅读《云原生运维实战篇》。
本书适合正在向云原生转型的技术老兵,也适合刚入行正在熟悉k8s 的小白。
推荐阅读完本书后配合SREWorks 进行实践,效果更佳。
以上内容摘自《SREWorks 云原生数智运维工程实践》电子书,点击https://developer.aliyun.com/ebook/download/7784可下载完整版。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。