联想超融合存储:面向对象的分布式存储系统

简介:
  
   联想超融合存储系统是一款自主研发,面向对象的分布式存储系统。通过将所有硬盘池化管理,大幅度的提高并发I/O;采用虚拟存储控制器,更加灵活智能的管理;利用无单点原则,水平扩展的分布式架构,构建了一个高性能、易扩展、高可靠的超融合存储系统。

分层持久存储

超融合是指在同一套单元设备(x86服务器)中不仅仅具备计算、网络、存储和服务器虚拟化等资源和技术,而且还包括云管理软件,数据重构,多副本,快照技术等元素,而多节点可以通过网络聚合起来,实现模块化的无缝横向扩展,形成统一的资源池。与传统存储方案相比,超融合存储弥补了传统存储横向扩展能力不足的问题。

众所周知,相较于传统的机械硬盘,SSD 具有很好的弹性,并提供对数据的快速访问,但其拥有写入次数限制。结合两者的优缺点,联想超融合存储系统采取SSD+HDD的混合存储方式,将所有物理服务器上的硬盘组成一个存储资源池。其中所有机械硬盘组成存储容量层,SSD闪存盘组成存储性能层,两者一起构建了分层持久存储。(TPC:Tiered Persistence Store)

联想超融合存储把混合存储成本效益最大化,最大限度地提高性能。LHS从数据中分离出元数据,为实际的数据提供关键信息,并将元数据存储在高性能设备中(SSD),这种方式大大加速了元数据的读取和写入操作。

SSD存储了一些关键的组件,包括:LHS Home(VSC虚拟存储控制器核心)、Metadata(元数据)、OpLog(写缓存)、Cache(缓存)和Persistence Store(持久存储)。下图展示了SSD的存储分解:

HDD只作用于持久存储,分解更简单:

数据分片存储

联想超融合系统利用分片机制来解决单个服务器不能满足的大量数据存储和大吞吐量的系统读写等问题。分片是一种水平扩展方式,把一个大的数据集分散到多个服务器上,所有的服务器将组成一个逻辑上的数据库来存储这个大的数据集。分片对用户是透明的。

数据从虚拟机的文件系统写入物理存储设备时,分片机制会涉及到如下概念:block、object。block 是一块磁盘当中最小的单位,其大小取决于不同的操作系统。一个object由n个连续的block组成,并被保存在磁盘上。

下图展示了文件写入物理存储设备时各部分的组成关系:

如上图,虚拟机上的文件系统写入物理存储设备时,文件被磁盘的最小单位block所划分,n个连续的block又组成一个object,并直接存入磁盘。

数据多副本机制

联想超融合存储使用复制因子(RF:Replication Factor)来保证当节点或硬盘失效时,数据的冗余度和可用性。当数据写入本地TPS时,数据被同步复制到另1个或者2个节点(取决于RF设置),当这个操作完成后,此处写操作才被确认(Ack),以此来保证数据至少存在于2个或3个独立的节点上,保证数据的冗余度。

多副本机制

在同一集群中可以为不同的工作负载配置不同的容错等级(RF1/2/3…)。当RF=1时,表示系统中仅有1个副本,则系统不能承受任何节点或硬盘故障;当RF=2时,表示系统中有2个副本,即系统可以承受一个节点或硬盘故障;同理,RF=n时,表示系统中有n个副本,即系统可以承受n-1个节点或硬盘故障。

联想超融合存储具有硬盘/节点/机柜的感知能力,以此来保证最大的可用域,尽可能的把多个副本分散到多个硬盘/节点/机柜,提供硬盘级、节点级、机柜级的高可用。一般来说,随着集群规模的增长,具有多个机架时,才会提升到机柜感知,尽可能的把副本分散到多个机柜。

联想超融合存储还具有系统自我修复能力,无需运维人员介入。当发生节点或硬盘失效时,且RF>1时,可用数据块会重新在所有节点间进行复制,以满足RF的设置。

关于联想超融合

联想超融合,是利用分布式存储和计算虚拟化技术整合服务器集群、对外提供计算、存储和网络等资源的IT基础架构。联想超融合简化客户的IT基础设施建设、降低硬件配置和管理成本以及基础设施交付成本,同时改善系统平台的可靠性,提供水平扩展的能力,帮助客户大幅度降低各种规模数据中心的复杂性。联想超融合在虚拟化和分布式存储领域有超过十年的技术储备,积累了全球70多项国际技术专利。

联想作为中国超融合联盟的发起者和第一届理事长单位,将致力于推进超融合市场的发展和成熟,引领互联网时代IT架构的革新。目前,联想超融合在医疗、政府、教育、企业中有着广泛的应用,未来,联想超融合解决方案将继续凭借持续的技术创新和深入的行业洞察,为合作伙伴和客户提供更优质、更有针对性的全新IT体验。

  
  作者:zl
来源:51CTO
目录
相关文章
|
15天前
|
存储 运维 安全
盘古分布式存储系统的稳定性实践
本文介绍了阿里云飞天盘古分布式存储系统的稳定性实践。盘古作为阿里云的核心组件,支撑了阿里巴巴集团的众多业务,确保数据高可靠性、系统高可用性和安全生产运维是其关键目标。文章详细探讨了数据不丢不错、系统高可用性的实现方法,以及通过故障演练、自动化发布和健康检查等手段保障生产安全。总结指出,稳定性是一项系统工程,需要持续迭代演进,盘古经过十年以上的线上锤炼,积累了丰富的实践经验。
|
18天前
|
存储 分布式计算 Hadoop
基于Java的Hadoop文件处理系统:高效分布式数据解析与存储
本文介绍了如何借鉴Hadoop的设计思想,使用Java实现其核心功能MapReduce,解决海量数据处理问题。通过类比图书馆管理系统,详细解释了Hadoop的两大组件:HDFS(分布式文件系统)和MapReduce(分布式计算模型)。具体实现了单词统计任务,并扩展支持CSV和JSON格式的数据解析。为了提升性能,引入了Combiner减少中间数据传输,以及自定义Partitioner解决数据倾斜问题。最后总结了Hadoop在大数据处理中的重要性,鼓励Java开发者学习Hadoop以拓展技术边界。
38 7
|
18天前
|
人工智能 分布式计算 大数据
MaxFrame 产品评测:大数据与AI融合的Python分布式计算框架
MaxFrame是阿里云MaxCompute推出的自研Python分布式计算框架,支持大规模数据处理与AI应用。它提供类似Pandas的API,简化开发流程,并兼容多种机器学习库,加速模型训练前的数据准备。MaxFrame融合大数据和AI,提升效率、促进协作、增强创新能力。尽管初次配置稍显复杂,但其强大的功能集、性能优化及开放性使其成为现代企业与研究机构的理想选择。未来有望进一步简化使用门槛并加强社区建设。
50 7
|
2月前
|
机器学习/深度学习 存储 运维
分布式机器学习系统:设计原理、优化策略与实践经验
本文详细探讨了分布式机器学习系统的发展现状与挑战,重点分析了数据并行、模型并行等核心训练范式,以及参数服务器、优化器等关键组件的设计与实现。文章还深入讨论了混合精度训练、梯度累积、ZeRO优化器等高级特性,旨在提供一套全面的技术解决方案,以应对超大规模模型训练中的计算、存储及通信挑战。
92 4
|
3月前
|
存储 运维 负载均衡
构建高可用性GraphRAG系统:分布式部署与容错机制
【10月更文挑战第28天】作为一名数据科学家和系统架构师,我在构建和维护大规模分布式系统方面有着丰富的经验。最近,我负责了一个基于GraphRAG(Graph Retrieval-Augmented Generation)模型的项目,该模型用于构建一个高可用性的问答系统。在这个过程中,我深刻体会到分布式部署和容错机制的重要性。本文将详细介绍如何在生产环境中构建一个高可用性的GraphRAG系统,包括分布式部署方案、负载均衡、故障检测与恢复机制等方面的内容。
175 4
构建高可用性GraphRAG系统:分布式部署与容错机制
|
3月前
|
机器学习/深度学习 人工智能 分布式计算
【AI系统】分布式通信与 NVLink
进入大模型时代后,AI的核心转向大模型发展,训练这类模型需克服大量GPU资源及长时间的需求。面对单个GPU内存限制,跨多个GPU的分布式训练成为必要,这涉及到分布式通信和NVLink技术的应用。分布式通信允许多个节点协作完成任务,而NVLink则是一种高速、低延迟的通信技术,用于连接GPU或GPU与其它设备,以实现高性能计算。随着大模型的参数、数据规模扩大及算力需求增长,分布式并行策略,如数据并行和模型并行,变得至关重要。这些策略通过将模型或数据分割在多个GPU上处理,提高了训练效率。此外,NVLink和NVSwitch技术的持续演进,为GPU间的高效通信提供了更强的支持,推动了大模型训练的快
64 0
|
4月前
|
消息中间件 中间件 数据库
NServiceBus:打造企业级服务总线的利器——深度解析这一面向消息中间件如何革新分布式应用开发与提升系统可靠性
【10月更文挑战第9天】NServiceBus 是一个面向消息的中间件,专为构建分布式应用程序设计,特别适用于企业级服务总线(ESB)。它通过消息队列实现服务间的解耦,提高系统的可扩展性和容错性。在 .NET 生态中,NServiceBus 提供了强大的功能,支持多种传输方式如 RabbitMQ 和 Azure Service Bus。通过异步消息传递模式,各组件可以独立运作,即使某部分出现故障也不会影响整体系统。 示例代码展示了如何使用 NServiceBus 发送和接收消息,简化了系统的设计和维护。
85 3
|
4月前
|
存储 开发框架 .NET
C#语言如何搭建分布式文件存储系统
C#语言如何搭建分布式文件存储系统
100 2
|
4月前
|
消息中间件 存储 监控
消息队列系统中的确认机制在分布式系统中如何实现?
消息队列系统中的确认机制在分布式系统中如何实现?
|
4月前
|
存储 分布式计算 监控
C# 创建一个分布式文件存储系统需要怎么设计??
C# 创建一个分布式文件存储系统需要怎么设计??
58 0