带你读《存储漫谈:Ceph原理与实践》——序

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 带你读《存储漫谈:Ceph原理与实践》——序

序一


技术是生态。随着以云计算与大数据为代表的新一代信息技术的兴起,底层的存储技术也开始从硬件资源到软件系统全面更新换代,尤其是分布式存储技术,受到了业界的广泛关注。分布式存储系统所具有的高效 I/O 访问、海量存储、高性能和弹性扩展等特性,助力了云计算与大数据技术的快速发展。随着技术的演进和需求的迭代,云计算与大数据服务也对分布式存储系统提出了更高的要求,如对数据存储的安全性以及隐私性要求、对存储集群在 PB 级甚至 EB 级建设规模下的成本要求、对繁杂数据格式的预处理能力要求以及对价值密度较低数据的压缩、去重能力要求等。

除了满足正常的存储业务需求以外,分布式存储系统还需要保障整个系统的稳定性及易用性等。这需要通过解决各类软硬件故障和亚健康问题来提升整个系统的健壮性,需要满足多样化的运维需求来提升系统的可运维性,需要提供丰富的监控指标来提升系统的可观测性。

开发与使用如此复杂的系统,对于任何一个团队来说,都不是一件容易的事。幸运的是,我们的世界正处于开源的潮流之中,拥抱开源文化可实现社会分工协作,参与开源项目可共享智慧凝聚成果。站在开源技术这个“巨人的肩膀”上,开发与使用分布式存储系统开始变得相对容易了一些。但在使用过程中,如何解决开源系统的能力标准化问题,即如何匹配企业的私有需求与开源系统标准功能之间的差异,如何平衡开源系统与商业产品之间的关系,都将会是企业在真正使用开源系统时不可避免的问题。

实践出真知。中国移动在开源分布式存储项目Ceph上的实践,是一个企业积极拥抱开源,快速实现商业价值落地的极佳案例。“我来,我见,我征服!”中国移动基于 Ceph 多年的生产经验形成了对分布式存储及开源系统的独特感悟,相信阅读和学习本书,除了能解答读者的技术问题,更能够引发读者关于分布式存储与开源系统融合的思考。对分布式存储系统关注者而言,本书实为不可错过的技术盛宴。

中国信息通信研究院云计算与大数据研究所

何宝宏

2021 年 6 月 8 日于北京


序二


信息技术已经成为驱动国民经济快速增长的核心动力,中国移动作为信息行业的领军企业,高度重视信息技术的自主可控,积极发挥新技术策源地的作用。中国移动云能力中心作为国内首批云计算核心技术和产品自主研发的单位,经过十五载潜心研究,厚积薄发,完成了由“基于开源的能力内化”向“创新驱动的原创闭源”的蜕变,打造 5G+ 云双引擎,助力经济社会的数智化转型。

面对 EB 级的海量数据存储需求,多样化的存储业务模型,传统存储系统早已力不能及。中国移动云能力中心通过对开源分布式存储系统的实践与内化,吸收再创新,走出了自己的存储系统自研蜕变之路,打造了行业领先的分布式存储产品,为中国移动的“云改”战略打下了坚实的基础。

本书以中国移动云能力中心云存储团队从应用实践,到能力内化,再到自研创新的过程为主线,详细分享了该团队对 Ceph 存储系统的实践与感悟,并在块、对象、文件三大接口上进行了深入的分析与解读。更为宝贵的是,结合中国移动超大规模分布式存储应用的实战经验,在书中从各种角度尽情“漫谈”存储,为读者展现了不同的观点和思考。

路漫漫其修远兮,吾将上下而求索。分布式存储作为数智化转型的重要基石,是云计算核心技术是否自主掌控的试金石。希望本书能够让更多的存储技术初学者快速入门,更多的存储技术从业者登堂入室,为共同创造更稳定、更安全、更极速的分布式存储系统做出贡献。

中国移动云能力中心 IaaS 产品部总经理

刘军卫

2021 年 5 月 9 日于中移软件园


序三


在云计算的世界里,我们知道有计算、存储和网络三大要素,计算与存储的分分合合一直都是存储领域的焦点。而随着互联网时代带来的数据爆炸式增长,原有的计算与存储体系在性能、可靠性、安全性等各方面已经很难满足时代发展的要求,高昂的价格及难以扩展的架构也使它难以满足很多用户的实际需求。这个时候,将不同设备中的 Nand、Optane 等存储介质放在统一的分布式存储框架里组成大规模的存储集群,就成为不二的选择,而 Ceph 正是目前最为流行的开源分布式存储系统。

Ceph 充分利用了集群中各个节点的存储能力与计算能力,通过统一的平台提供对象存储、块存储及文件存储服务,具有强大的伸缩性,能够提供给用户 PB 乃至 EB 级的数据服务。在云计算已成烽火燎原之势的今天,Ceph 已经凭借自身的实力成为 OpenStack、CloudStack 等各种云基础设施平台的存储系统标配,同时也有越来越多的企业基于 Ceph开发定制自有的存储产品与服务。

我从 2015 年开始认识刘军卫先生及他带领的中国移动云能力中心团队,了解到他们在那之前就已经开始研究和开发 OpenStack 和 Ceph 等项目,也是从那个时候起我们英特尔开源团队与中国移动云能力中心团队在开源云计算领域开始深入合作。此次,他们写的《存储漫谈:Ceph 原理与实践》一书从理论与实践两个维度切入,详细介绍了 Ceph 的架构设计以及各个模块的工作原理。同时,这本书也结合多年 Ceph 的应用实践,特别是结合了中国移动超大规模分布式存储应用的实战经验,探讨了 Ceph 使用中遇到的问题及问题的规避思路,相信这是一本能够帮助读者深入了解、掌握 Ceph 的良心之作。

开源基础设施基金会个人独立董事

SODA 基金会联盟委员会主席

木兰社区技术委员会成员

英特尔云基础设施软件研发总监

王庆

2021 年 5 月 25 日于上海紫竹

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
6月前
|
存储 算法 关系型数据库
带你读《存储漫谈:Ceph原理与实践》精品文章合集
带你读《存储漫谈:Ceph原理与实践》精品文章合集
|
存储 固态存储 Windows
带你读《存储漫谈:Ceph原理与实践》——3.3.2 CephFS 访问方式
带你读《存储漫谈:Ceph原理与实践》——3.3.2 CephFS 访问方式
带你读《存储漫谈:Ceph原理与实践》——3.3.2 CephFS 访问方式
|
存储 Swift 索引
带你读《存储漫谈:Ceph原理与实践》——2.1 数据寻址方案
带你读《存储漫谈:Ceph原理与实践》——2.1 数据寻址方案
|
存储 前端开发 Apache
带你读《存储漫谈:Ceph原理与实践》——3.2.3 I/O 路径
带你读《存储漫谈:Ceph原理与实践》——3.2.3 I/O 路径
|
存储 算法 关系型数据库
带你读《存储漫谈:Ceph原理与实践》——2.2.1 Ceph 寻址流程
带你读《存储漫谈:Ceph原理与实践》——2.2.1 Ceph 寻址流程
|
存储 算法 Python
带你读《存储漫谈:Ceph原理与实践》——2.2.3 Bucket 随机选择算法
带你读《存储漫谈:Ceph原理与实践》——2.2.3 Bucket 随机选择算法
|
存储 容灾 负载均衡
带你读《存储漫谈:Ceph原理与实践》——3.3.1 MDS 设计原理
带你读《存储漫谈:Ceph原理与实践》——3.3.1 MDS 设计原理
|
存储 Linux 虚拟化
带你读《存储漫谈:Ceph原理与实践》——3.1.1 块设备映射
带你读《存储漫谈:Ceph原理与实践》——3.1.1 块设备映射
|
存储 算法 数据安全/隐私保护
带你读《存储漫谈:Ceph原理与实践》——3.2.4 元数据 / 数据布局
带你读《存储漫谈:Ceph原理与实践》——3.2.4 元数据 / 数据布局
|
存储 缓存 大数据
带你读《存储漫谈:Ceph原理与实践》——1.1.2 分布式存储系统
带你读《存储漫谈:Ceph原理与实践》——1.1.2 分布式存储系统