业务运维如何做?Docker集群、监控来帮忙

简介: 在2017游戏行业全球同服和安全攻防技术沙龙上,来自心动网络的吴涵分享了《浅谈Docker业务运维》。他主要从运维职责(部署阶段、运行阶段)、潜在的问题、选择Docker的原因、Docker集群、Docker监控、Docker未来六个方面以运维人员的角度分享了Docker的使用经验。

在2017游戏行业全球同服和安全攻防技术沙龙上,来自心动网络的吴涵分享了《浅谈Docker业务运维》。他主要从运维职责(部署阶段、运行阶段)、潜在的问题、选择Docker的原因、Docker集群、Docker监控、Docker未来六个方面以运维人员的角度分享了Docker的使用经验。

 

以下内容根据直播视频整理而成。

 

运维职责

大家对于Docker已经不陌生了,Docker产品在很多领域都比较火。心动网络从2015年开始接触Docker,发现Docker的整个产品模式比较适合游戏领域公司的快速发展模式,包括打包部署和发布都契合需求。

部署阶段

以前(比较大众的时期),运维同事都需要做一些部署阶段的工作,比如系统安装、编译环境、代码上传、执行编译、启动脚本。这些工作都需要运维人员在线上进行大量的手动操作,中间会出现许多问题需要人工进行定位和排查。

运行阶段

在部署完成之后,运维人员需要做服务运行阶段的工作和维护,包括配置更新、代码更新、系统更新、监控采集、故障处理。这些都是在整个运行时期,运维人员需要时刻关注的问题。

潜在问题

9a04e37b75485c96293728f6c7f143d12ce60ab9

在接触Docker之前,心动网络也是以传统模式来部署业务和维护业务的,也遇到很多潜在问题。比如:编译环境迭代更新导致库版本升级使编译出现兼容性问题;在机器数量比较庞大的情况下去上传代码,导致代码有泄露的风险;开发部、安装部的版本出现问题,导致代码编译无法通过;在编译完成之后需要把整个服务打包,需要写启动脚本使其每次都能自己运行;代码管理方面,用到SVN或者GIT仓库管理工具,有办法去切换版本,但是发布二进制服务的时候需要很麻烦的做很多标签来定位服务对应的维护版本;服务运行之后,监控服务的运行状态比较困难;做大量工作之后发现最终高投入换来了低效率。

为何选择Docker?

4e152e1da1d4157fe64f207d621ff0d840469027

在内部的测试环境使用Docker之后,发现Docker有很多优势:一次打包,各处运行;编译和运行环境分离;服务端只需安装Docker运行组件;Docker镜像标签用作版本管理;API调度管理容器,实时监控容器的运行状态;多种语言支持的SDK,可以与业务深度结合;部署模式统一,易于维护。使用Docker之后,大幅减少了在部署和监控上的精力,把更多的时间花在对接更高级的业务运行模式上。底层的很多东西直接使用Docker,时间成本大幅减少。

Docker集群

在机器节点非常庞大的情况下,由于Docker是单机的服务,所以会出现一些问题。心动网络的测试环境都是以小量机器为规模,不是特别注重节点之间的管理,但是上线之后,在庞大的集群(以百、千为计量单位)中需要一个能够统一管理的模式,即需要Docker集群模式。

9fcc3dbbe68f39e96cf8014d34bcd5b32b183901

在对比之后,最终选择了Docker内置的集群模式Docker Swarm。Swarm在Docker1.12之前是以独立进程的方式运行的。在Docker1.12之后,官方把Swarm集群模式集成在Docker Engine中。Swarm采用去中心化设计,分为很多角色,比如Manager和Worker,在各个节点之间的通信都是TS加密的,可以保障一定的通信安全。Swarm支持服务编排,可以把多个服务打包成一个Application来发布,比如采用Web+DB的模式。可伸缩性是指,比如定义集群里的一个启动数量为10,Swarm会根据预定的启动值以自动调度的策略来保证整个集群的预设值能够始终满足需求。Swarm具有自愈能力,很多服务是无状态的或者微服务,在一个集群里会有很多的容器,其实本地是不留存信息的,而是集中化的存在缓存或者数据库中,这些容器可以看作是一个Runtime环境,只负责处理不负责存储,自愈能力是针对这些服务出现Crash之后可以自动的在其他可用节点上再去启动新的容器来弥补已经Crash的容器,保证整个集群里的数量符合预期值。Swarm支持滚动更新,当滚动失败或者更新失败之后,需要进行回退,但是有些回退的操作比较复杂,需要回退所有的配置文件,基于Docker的滚动更新是比较方便的,因为是作为容器来发布,更新失败后,只要上一个版本的容器还存在就可以无缝切换过来,整个Runtime的环境可以保证一致。

Docker监控

关于Docker监控,官方一直没有给出一个比较好的方法,反而是很多第三方的开源项目在实现Docker监控。此时就需要对Docker API的调度非常熟悉,但是很多时候大家只是想能够很快的起一个服务能够调用Docker的API把数据存储在自己的存储中,通过前端的页面转接出来。

bfc15d436828b436fba16f3cd7ac84af76d24f19

Docker本地CLI有Docker state指令,可以关注比较通用的监控参数,包括CPU、内存、IO使用率、网络使用率等。在有一定研发能力的基础上,可以考虑使用Docker Remote API自己去抓监控数据,通过某种方式展现出来。Google Cadvisor是比较成熟的第三方项目,可以和Docker无缝贴合,能够监控单台物理机上面所有容器的状态,其本身是不存储数据的,但是支持加载后端的存储把数据写到存储中。Shipyard是Docker的一个核心成员开发的,带UI,本身不是做监控的,是作为Docker Front-end Web前端去管理Docker,也包含了对Docker API的调用,可以作为一个简单的监控工具来使用。

Docker未来

Docker 并不是完美无缺的,在以下方面期待改进:Docker对高密度写入场景并不是特别友好,不是作为存储直接写入数据到容器中,还需要通过加载第三方的Volume或者本地的主机目录关联到容器里面来实现,对数据库写入优化不适合;Docker Daemon API是中心化设计的,使用时如果Docker Daemon发生Crash,会导致所有的API不可用,此时不管通过命令行还是remote API都不能管理上面的容器,只能非常麻烦的重启Docker Daemon,造成业务的闪断或者各种各样的问题;API是完全没有验证的,只要抓到API地址就可以通过特定的协议交互,在内网环境问题不大,但是在外网开放API的风险成本比较高。
相关文章
|
1月前
|
Prometheus 运维 监控
智能运维实战:Prometheus与Grafana的监控与告警体系
【10月更文挑战第26天】Prometheus与Grafana是智能运维中的强大组合,前者是开源的系统监控和警报工具,后者是数据可视化平台。Prometheus具备时间序列数据库、多维数据模型、PromQL查询语言等特性,而Grafana支持多数据源、丰富的可视化选项和告警功能。两者结合可实现实时监控、灵活告警和高度定制化的仪表板,广泛应用于服务器、应用和数据库的监控。
178 3
|
2月前
|
网络安全 Docker 容器
|
2月前
|
安全 Docker 容器
|
2月前
|
网络安全 Docker 容器
|
2月前
|
网络安全 数据安全/隐私保护 Docker
|
11天前
|
Prometheus 监控 Cloud Native
如何使用Prometheus监控Docker Swarm集群的资源使用情况?
还可以根据实际需求进行进一步的配置和优化,如设置告警规则,当资源使用超出阈值时及时发出警报。通过这些步骤,能够有效地使用 Prometheus 对 Docker Swarm 集群的资源进行监控和管理。
32 8
|
11天前
|
Prometheus 监控 Cloud Native
如何监控Docker Swarm集群的性能?
如何监控Docker Swarm集群的性能?
47 8
|
11天前
|
监控 Docker 容器
Docker Swarm集群的扩展与缩容策略,涵盖其意义、方法、步骤及注意事项
本文深入探讨了Docker Swarm集群的扩展与缩容策略,涵盖其意义、方法、步骤及注意事项,旨在帮助用户高效管理集群资源,适应业务变化,确保服务稳定性和资源优化。
32 6
|
1月前
|
消息中间件 数据采集 运维
一份运维监控的终极秘籍!监控不到位,宕机两行泪
【10月更文挑战第25天】监控指标的采集分为基础监控和业务监控。基础监控涉及CPU、内存、磁盘等硬件和网络信息,而业务监控则关注服务运行状态。常见的监控数据采集方法包括日志、JMX、REST、OpenMetrics等。Google SRE提出的四个黄金指标——错误、延迟、流量和饱和度,为监控提供了重要指导。错误监控关注系统和业务错误;延迟监控关注服务响应时间;流量监控关注系统和服务的访问量;饱和度监控关注服务利用率。这些指标有助于及时发现和定位故障。
99 1
|
2月前
|
运维 Prometheus 监控
运维之眼:监控的艺术与实践
在信息技术飞速发展的今天,运维监控已成为保障系统稳定运行的关键。本文将探讨运维监控的重要性,介绍常用的监控工具和方法,并通过实际案例分析,展示如何有效地实施监控策略,以确保系统的高可用性和性能。