对容器镜像的思考和讨论

本文涉及的产品
函数计算FC,每月15万CU 3个月
应用实时监控服务ARMS - 应用监控,每月50GB免费额度
云原生网关 MSE Higress,422元/月
简介: 常言道,startup 有 startup 的好,大厂有大厂的好,那么大厂究竟好在哪呢?拿硅谷老牌大厂们 FLG 来说,如果要问最令人怀念的是什么?Free food 和基础设施(Infrastructure)一定是会上榜的,两者均极大提升了广大应用开发者的幸福指数。那么能不能“让天下没有难做的应用”呢?请大家把目光投向正在兴起的云原生生态。

头图.png

作者 | Liu,Bo
来源|阿里巴巴云原生公众号

前言

常言道,startup 有 startup 的好,大厂有大厂的好,那么大厂究竟好在哪呢?拿硅谷老牌大厂们 FLG 来说,如果要问最令人怀念的是什么?Free food 和基础设施(Infrastructure)一定是会上榜的,两者均极大提升了广大应用开发者的幸福指数。那么能不能“让天下没有难做的应用”呢?请大家把目光投向正在兴起的云原生生态。

在云原生生态中,容器服务包括了镜像和容器引擎两个部分。其中容器镜像作为核心的云原生应用制品,打包了完整的操作系统和应用运行环境,应用的迭代也因为使用了这种不可变架构而变得更简单,更频繁。

本文将围绕着容器镜像这一核心,分享它的相关知识和业界的思考与实践。

容器镜像的概念

1)容器镜像

容器镜像有一个官方的类比,"生活中常见的集装箱",虽然拥有不同的规格,但箱子本身是不可变的(Immutable),只是其中装的内容不同。

对于镜像来说,不变的部分包含了运行一个应用软件(如 mysql)所需要的所有元素。开发者可以使用一些工具(如 Dockerfile)构建出自己的容器镜像,签名并上传到互联网上,然后需要运行这些软件的人可以通过指定名称(如 example.com/my-app)下载、验证和运行这些容器。

2)OCI 标准镜像规范

在 OCI 标准镜像规范出台之前,其实有两套广泛使用的镜像规范,分别是 appc 和 docker v2.2,但“合久必分,分久必合”,有意思的是两者的内容已经在各自的发展中逐步同化了,所以 OCI 组织顺水推舟地在 docker v2.2 的基础上推出了 oci image format spec,规定了对于符合规范的镜像,允许开发者只要对容器打包和签名一次,就可以在所有的容器引擎上运行该容器。

这份规范给出了 OCI image 的定义:

This specification defines an OCI Image, consisting of a manifest, 
an image index (optional), a set of filesystem layers, and a configuration.

3)容器的工作流程

一个典型的容器工作流程是从由 developers 制作容器镜像开始的(build),然后上传到镜像存储中心(ship),最后部署在集群中(run)。

1.png

容器镜像技术发展中遇到的问题

不得不说,容器镜像的设计是很出彩的,首先它蕴含了“完整的操作系统就是一个包”的优秀思想,带着大家跳出了安装包的思路,又提出了诸如 dockerfile 这样的提升开发者体验的 killer features,还能利用分层结构来节约时间空间。

不过,"金无足赤,人无完人",优秀的设计并不等于优秀的实践,下面来聊一聊问题具体出在哪。

1. 容器镜像使用者

1)问题一:启动容器慢

容器启动慢的情况普遍发生在当用户启动一个很大 size 的容器镜像时,由于在容器准备阶段需要三步(以 overlayfs 为例):

  • download 镜像。

  • unpack 镜像。

  • 使用 overlayfs 将容器可写层和镜像中的只读层聚合起来提供容器运行环境。

其中,download 镜像时需要 download 整个镜像,不能实现文件数据按需加载。再加上 download 镜像本身受限于网络带宽的影响,当容器镜像 size 在到几个 G 时,下载时间会较长,破坏了容器原本优秀的用户体验。

2)问题二:较高的本地存储成本

不同镜像之间可以共享的最小单位是镜像中的层,它的缺点之一是在 deduplication 上的效率是较低的,原因是:

  • 首先,层内部存在重复的数据。

  • 其次,层与层之间可能存在大量重复的数据,但即使有微小的差别,也会被作为不同的层。

  • 再次,根据 OCI image spec 对删除文件和 hardlink 的设计,一个镜像内部可能存在已经被上层删除的文件仍然存在于下层中,并包含在镜像中。

所以,当不同镜像的容器被调度到同一台机器上运行时,镜像本身在本地文件系统中所占的存储空间是一笔不可忽视的成本开销。

2. 镜像提供者侧

这里的提供者主要指容器服务的镜像中心。

1)问题一:巨大的存储浪费

  • 存在大量相似镜像 造成这种情况有两个原因:

    • 首先,上面提到的层的缺点,在容器镜像中心会产生许多相似镜像。

    • 其次,OCI image 使用了 tar+gzip 格式来表达镜像中的层,而 tar 格式并不区分 tar archive entries ordering,这带来一个问题,即如果用户在不同机器上 build 去同一个镜像,最终可能会因为使用了不同的文件系统而得到不同的镜像,然后用户上传之后,镜像中心中会存在若干不同镜像的实质内容是完全相同的情况。

  • 镜像去重效率低:虽然镜像中心有垃圾回收来实现去重功能,但其仍然以层为单位,所以只能在有完全相同 hash value 的层之间去重。

2)问题二:云原生软件供应链带来的新需求

随着时间推移,和软件供应链一起发展的还有对软件供应链环节的多样性攻击手段。安全防护是软件供应链中非常重要的组成,不光体现在对软件本身的安全增强,也体现在对供应链本身的安全增强。而因为应用运行环境被前置到了容器镜像中,所以对容器镜像的安全,包括对镜像的漏洞扫描和签名成为了容器服务提供者的必要能力。

对容器镜像的思考和讨论

1. 业界的尝试

针对前面所述的问题,业界大小厂也是集思广益,各显神通,下面提几个典型的项目:

1)CernVM-FS

使用了 fuse 按需从远程加载需要的数据。

2)Slacker

通过设计一个镜像的 benchmark 贡献了几个有意思的理论基础:

  • 事实上,容器启动时间很长。

  • 启动时数据读写放大系数很大(启动时中只使用 6% 的数据)。

  • 分析了 57 个 docker image 的 layer 数量,发现一半以上的 image 的 layer 数量大于 9。

Slacker 最终使用了按需加载和减少镜像层数将启动速度提高了 5-20 倍。

3)SquashFs

Oracle 使用 Linux SquashFS 来替代 targz 存储容器 image layer 的内容,去掉了 unpack tar 的环节。

2. OCI 社区中的讨论

自 2019 年开始,对于镜像本身的吐槽慢慢多了起来,发酵了一年多,OCI 社区觉得时机成熟了,从 2020 年 6 月开始,花了一个多月时间密集讨论了当前 OCI 镜像规范的缺陷,以及 OCIv2 镜像格式(*)需要满足哪些要求。

(*)OCIv2 在这里只是一个宣传命名,实际上 OCIv2 是当前 OCI 镜像规范的改进,而不会是一个全新的镜像规范。

1)OCI 镜像规范的缺陷

经过讨论得出目前的缺陷主要有两点:

  • tar 格式标准

    • tar 格式并不区分 tar archive entries ordering,这带来一个问题,即如果用户在不同机器上去 build 同一个镜像,最终可能会因为使用了不同的文件系统而得到不同的镜像,比如在文件系统 A 上的 order 是 foo 在 bar 之前进入 tar,在文件系统 B 上的 order 是 bar 在 foo 之前进入 tar,那么这两个镜像是不同的。
    • 当 tar 被 gzip 压缩过之后不支持 seek,导致 run container 之前必须先下载并解压 targz 的 image layers,而不能实现文件数据按需加载。
  • 以层为镜像的基本单位

    • 内容冗余:不同层之间相同信息在传输和存储时都是冗余内容,在不读取内容的时候无法判断到这些冗余的存在。
    • 无法并行:单一层是一个整体,对同一个层既无法并行传输,也不能并行提取。
    • 无法进行小块数据的校验,只有完整的层下载完成之后,才能对整个层的数据做完整性校验。
    • 其他一些问题:比如,跨层数据删除难以完美处理。

2)下一代镜像格式的要求

这次镜像格式大讨论从一个邮件和一份共享文档开始,并促成了多次在线的 OCI 社区讨论会议。最后的结论也很鼓舞人心,在这份共享文档中可以找到对 OCIv2 镜像格式需要满足的要求的详细描述。我们可以将这些要求分类为:

2.png

(*): 诸如 file timestamp 等只在一个特定机器上有意义的 metadata 是没有必要存在于镜像中的。

可以看出,上面这些要求明确了容器镜像的下一步重点在易用、效率、安全三个方面,达到在 "build - ship - run" 这三个阶段协同优化的目的。

3. 阿里云在容器镜像上的思考

阿里云一直积极地推动和发展云原生生态,提供了基础设施“阿里云容器镜像服务(ACR)”作为用户云原生容器化的第一站,负责提供容器镜像、Helm Chart 等 OCI Artifacts 管理和分发服务。同时我们也在结合容器业务现状深化对容器镜像格式的理解,不断地总结什么是满足发展需求的容器镜像格式,这里可以概括为以下几点,新的镜像格式需要:

  • 满足容器 "build once, run anywhere" 的理念。
  • 实现在镜像中心和容器运行结点上存储资源上的高效使用。
  • 在容器镜像的全链路上(build, ship, run)比现有的 OCI 镜像格式速度更快。
  • 能够扩展在安全上的能力。
  • 最大程度兼容已有基础设施,普惠大多数用户。

阿里云沙箱容器的镜像加速

相比于社区的讨论重点放在了新的镜像格式的设计上,阿里云更关心如何设计出一套优化全链路的镜像方案,为客户带来能够应用在生产中的价值。

在明确以上在技术发展过程中产生的需求之后,我们为阿里云沙箱容器设计了新的镜像格式 Rafs,并为 CNCF 下的 Dragonfly 项目引入了容器镜像服务,它能够极大缩短镜像下载时间,并提供端到端的镜像数据一致性校验,从而让用户能够更安全快捷地管理容器应用。

1. Rafs: 镜像格式

Rafs 把一个容器镜像只分成元数据和数据两层。其中:

  • 元数据层:元数据层是一颗自校验的哈希树。每个文件和目录都是哈希树中的一个附带哈希值的节点。一个文件节点的哈希值是由文件的数据确定,一个目录节点的哈希值则是由该目录下所有文件和目录的哈希值确定。
  • 数据层:每个文件的数据被按照固定大小切片并保存到数据层中。数据切片可以在不同文件以及不同镜像中的不同文件共享。

3.png

2. Nydus: Dragonfly 的容器镜像服务

除了使用上面的镜像格式 Rafs,Nydus 还包含一个负责解析容器镜像的 FUSE 用户态文件系统进程。

4.png

nydus 能够解析 FUSE 或者 virtiofs 协议来支持传统的 runC 容器或者阿里云沙箱容器。容器仓库、OSS 对象存储、NAS、以及 Dragonfly 的超级节点和 peer 节点都可以作为 nydus 的镜像数据源。同时,nydus 还可以配置一个本地缓存,从而避免每次启动都从远端数据源拉取数据。

基于这个设计架构,nydus 分别在 build, ship, run 和兼容性方面提供下面这些优化:

5.png

3. 为什么选择基于文件的设计

在设计之初,Nydus 选择了基于文件的设计而不是基于块的设计,为什么这样做呢?

主要的原因是,我们想在镜像加速的基础上做基于容器特点的附加能力,这一切都建立在能够获取到镜像中的文件元数据;而基于块的设计只使用 disk LBA,天然的无法获取其上层(即文件系统)中的信息。

有了文件元数据之后,我们轻松地实现了以下几个增值功能:

  • 镜像优化建议:在 build container 环节,提示用户有哪些文件是根本没有访问过的,可以考虑借此来优化镜像。
  • 预读:在 run container 环节预加载,猜到用户要读文件,那就预先在读操作发生之前送过去,从而优化访问速度。
  • 安全审计:在 run container 环节,如果一个容器访问镜像内容的模式和其他容器产生了明显差异,那么,这有可能是一个安全性风险。
  • 变更风险发现:在 run container 环节,如果一个镜像升级之后,发现它访问内容的模式和之前发生了明显差异,那么,要么是程序自己有意变了,要么就可能是引入 bug 了,这时可以考虑提醒开发者这个变化。

总结

OCI image 分层镜像机制虽然极大地方便了开发,但在大规模集群运行时,也有颇多不足,对此,OCI 镜像社区也在寻求着如何利用镜像内容可感知性,让它更加快速、节省资源,也更加安全。阿里云在这个基础上本着为客户带来价值的原则,提出了公有云上对镜像的稳定性、预读等需求,并为阿里云沙箱容器研发出了相应的的镜像加速方案,实现 "build-ship-run" 整个镜像链路上的统一优化,让用户不光听着热闹,也能用着开心,切实得到云原生基础设施发展的红利。

点击参与“容器镜像使用调查问卷”填写,将有 10 位随机获赠阿里云容器镜像服务(企业版)ACR EE 50 元优惠券哦~

相关实践学习
通过容器镜像仓库与容器服务快速部署spring-hello应用
本教程主要讲述如何将本地Java代码程序上传并在云端以容器化的构建、传输和运行。
Kubernetes极速入门
Kubernetes(K8S)是Google在2014年发布的一个开源项目,用于自动化容器化应用程序的部署、扩展和管理。Kubernetes通常结合docker容器工作,并且整合多个运行着docker容器的主机集群。 本课程从Kubernetes的简介、功能、架构,集群的概念、工具及部署等各个方面进行了详细的讲解及展示,通过对本课程的学习,可以对Kubernetes有一个较为全面的认识,并初步掌握Kubernetes相关的安装部署及使用技巧。本课程由黑马程序员提供。   相关的阿里云产品:容器服务 ACK 容器服务 Kubernetes 版(简称 ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。 了解产品详情: https://www.aliyun.com/product/kubernetes
相关文章
|
20天前
|
存储 数据库 Docker
正确删除容器和镜像的方式
【10月更文挑战第24天】本文介绍了在Docker中如何正确删除容器和镜像,包括停止容器、删除已停止容器、删除未被使用的镜像以及注意事项,如数据备份、依赖关系检查和权限问题。其他容器管理工具的操作类似,但命令和语法可能不同。
|
1天前
|
Kubernetes 监控 Java
如何在Kubernetes中配置镜像和容器的定期垃圾回收
如何在Kubernetes中配置镜像和容器的定期垃圾回收
|
3月前
|
存储 安全 Ubuntu
Docker 镜像与 Docker 容器的区别
【8月更文挑战第27天】
273 5
|
3月前
|
运维 Ubuntu Shell
掌握Docker容器的创建:从镜像到实例
【8月更文挑战第27天】
556 4
|
3月前
|
存储 Ubuntu 应用服务中间件
在Docker中,怎么快速查看本地的镜像和容器?
在Docker中,怎么快速查看本地的镜像和容器?
|
3月前
|
缓存 开发者 Docker
Dockerfile是Docker容器化过程中的核心组件,它允许开发者以一种可重复、可移植的方式自动化地构建Docker镜像
【8月更文挑战第19天】Dockerfile是构建Docker镜像的脚本文件,含一系列指令定义镜像构建步骤。每条大写指令后跟至少一个参数,按序执行,每执行一条指令即生成新的镜像层。常用指令包括:FROM指定基础镜像;RUN执行构建命令;EXPOSE开放端口;CMD指定容器启动行为等。优化策略涉及减少镜像层数、选择轻量基础镜像、利用缓存及清理冗余文件。示例:基于Python应用的Dockerfile包括设置工作目录、复制文件、安装依赖等步骤。掌握Dockerfile有助于高效自动化构建镜像,加速应用部署。
34 1
|
4月前
|
Shell Linux Docker
docker常用命令大全(基础、镜像、容器、数据卷)
这些命令仅仅是 Docker 命令行工具的冰山一角,但对于日常操作来说已经非常全面。通过熟练地使用这些基础命令,用户可以有效地管理 Docker 的镜像、容器、数据卷和网络。随着用户对 Docker 的深入使用,更高级的命令和选项将会变得必需,但上面列出的命令已经为用户提供了一个坚实的起点。对于初学者来说,理解和掌握这些常用命令是深入学习 Docker 的基础。
439 5
docker常用命令大全(基础、镜像、容器、数据卷)
|
3月前
|
机器学习/深度学习 人工智能 安全
产品推荐:7月受欢迎AI容器镜像来了,有Qwen系列大模型镜像
阿里云 AI 容器镜像有开箱即用、生态丰富、性能优化、安全合规和服务支持五大优势。
|
3月前
|
运维 Ubuntu Shell
Docker命令宝典:解锁容器化技术的无限可能,从镜像管理到容器操作,全面解析与实战指南!
【8月更文挑战第3天】Docker简化了应用的部署与运行,掌握其基本命令对开发者和运维人员至关重要。通过`docker images`可查看本地镜像;使用`docker pull`拉取如最新版Ubuntu镜像;`docker rmi`用于删除不再需要的镜像。运行容器可通过`docker run`命令,结合`-it`等选项提供交互式环境。`docker ps`显示运行中的容器,加上`-a`则列出所有容器。`docker stop`和`docker start`分别用于停止和重启容器,而`docker rm`则删除容器。
78 5
|
4月前
|
Shell 应用服务中间件 nginx
docker 服务,镜像,容器命令总结
docker 服务,镜像,容器命令总结
161 4
下一篇
无影云桌面