网易开源分布式存储系统 Curve,性能彪悍!

简介: 易这回良心了:7月16日,网易公司旗下云服务商网易数帆宣布开源一款名为 Curve 的高性能分布式存储系统,官方称其性能可达 Ceph 的 1.84 倍。据官方介绍,Curve 的定位是提供一个高性能、低延迟的存储底座,基于这个存储底座,企业可以打造适用于不同应用场景的存储系统,如块存储、对象存储、云原生数据库等。

网易这回良心了:


7月16日,网易公司旗下云服务商网易数帆宣布开源一款名为 Curve 的高性能分布式存储系统,官方称其性能可达 Ceph 的 1.84 倍。


据官方介绍,Curve 的定位是提供一个高性能、低延迟的存储底座,基于这个存储底座,企业可以打造适用于不同应用场景的存储系统,如块存储、对象存储、云原生数据库等。


CURVE 的设计开发始终围绕三个理念:


一是顺应当前存储硬件设施发展趋势,做到软硬件结合打造顶级的存储产品;


二是秉持 “Simple Can be harder than complex”,了解问题本质情况下选择最简单的方案解决问题;


三是拥抱开源,在充分调研的前提下使用优秀的开源项目组件,避免造轮子。


当前网易基于 CURVE 已经实现了高性能块存储系统,支持快照克隆和恢复 ,支持 QEMU 虚拟机和物理机 NBD 设备两种挂载方式, 在网易内部作为高性能云盘使用。


image.png


目前,网易数帆已经实现了高性能块存储系统。根据项目文档介绍,Curve 主要具有三大特性:高性能、高可用和自治。


1、高性能

Curve 团队参考了业界一些高效的开源存储系统,设计了一个新架构以实现高性能低延迟的核心能力。采用 brpc 保证网络数据流的高性能和低延迟,基于 braft 实现多副本一致性下的低延迟,并对 braft 的快照实现进行了进一步的优化。


磁盘 IO 方面,Curve 通过更细粒度的地址空间的 hash 减少 IO 碰撞,增加 IO 并发度,并采用 chunkfilepool 减小 IO 放大倍数,从而最大限度地发挥硬件的性能。


网易公布了 Curve 和 Ceph L 版本的测试数据对比,在单卷的场景下,核心的 4K 随机读/写的IOPS 性能,Curve 分别是 Ceph 的 1.84 倍和 1.58 倍,同时延迟相比 Ceph 分别降低 48.39%和 37.50%。


image.png


图:Curve与Ceph性能测试对比


2、高可用

Curve 被设计为核心组件都能容忍部分实例失败而不影响整个集群的可用性。


网易介绍,无论是单台存储故障,还是系统扩容,Curve 的客户端 IO 都不会受到影响,插拔硬盘、服务进程中断这些常见异常,IO 抖动也很小。


当然,故障恢复过程对上层 IO 也不会造成明显影响。


3、自治

Curve 可实现一键部署、一键升级,运维只要很少的人工干预,并基于 bvar、Promethues 和 Grafana 等开源项目打造了全面的度量标准和告警体系。


目前,基于 Curve 的高性能块存储系统已经应用在网易的一些核心业务中,支持快照克隆和恢复, 支持 QEMU 虚拟机和物理机 NBD 设备两种挂载方式。


网易介绍,系统上线至今 400 多天,尚未出现数据不一致和丢数据的情况,也没有发生过重大故障,具备相当的可靠性和成熟度。


网易透露,Curve 目前还有一些创新的性能优化工作尚未完成,如细粒度哈希、io_uring 落盘方案,项目团队下一阶段的主要任务就是解决这些问题,预计完成优化之后下个版本还会有 30% 的性能提升。


鉴于目前开源领域还没有足够高性能和低延迟的分布式存储系统,网易数帆方面表示希望把 Curve 开源出来,回馈社区,让业界一起来使用它,也希望大家一起参与把 Curve 打造得越来越好。


*开源地址: *


https://github.com/opencurve/curve


文章整理转载自 OSCHINA 社区 [http://www.oschina.net\] www.oschina.net/news/117237/netease-opensource-curve https://www.oschina.net/p/curve


相关文章
|
7月前
|
Kubernetes 大数据 调度
Airflow vs Argo Workflows:分布式任务调度系统的“华山论剑”
本文对比了Apache Airflow与Argo Workflows两大分布式任务调度系统。两者均支持复杂的DAG任务编排、社区支持及任务调度功能,且具备优秀的用户界面。Airflow以Python为核心语言,适合数据科学家使用,拥有丰富的Operator库和云服务集成能力;而Argo Workflows基于Kubernetes设计,支持YAML和Python双语定义工作流,具备轻量化、高性能并发调度的优势,并通过Kubernetes的RBAC机制实现多用户隔离。在大数据和AI场景中,Airflow擅长结合云厂商服务,Argo则更适配Kubernetes生态下的深度集成。
924 34
|
3月前
|
存储 算法 安全
“卧槽,系统又崩了!”——别慌,这也许是你看过最通俗易懂的分布式入门
本文深入解析分布式系统核心机制:数据分片与冗余副本实现扩展与高可用,租约、多数派及Gossip协议保障一致性与容错。探讨节点故障、网络延迟等挑战,揭示CFT/BFT容错原理,剖析规模与性能关系,为构建可靠分布式系统提供理论支撑。
240 2
|
3月前
|
机器学习/深度学习 算法 安全
新型电力系统下多分布式电源接入配电网承载力评估方法研究(Matlab代码实现)
新型电力系统下多分布式电源接入配电网承载力评估方法研究(Matlab代码实现)
151 3
|
5月前
|
数据采集 缓存 NoSQL
分布式新闻数据采集系统的同步效率优化实战
本文介绍了一个针对高频新闻站点的分布式爬虫系统优化方案。通过引入异步任务机制、本地缓存池、Redis pipeline 批量写入及身份池策略,系统采集效率提升近两倍,数据同步延迟显著降低,实现了分钟级热点追踪能力,为实时舆情监控与分析提供了高效、稳定的数据支持。
200 1
分布式新闻数据采集系统的同步效率优化实战
|
7月前
|
NoSQL 算法 安全
redis分布式锁在高并发场景下的方案设计与性能提升
本文探讨了Redis分布式锁在主从架构下失效的问题及其解决方案。首先通过CAP理论分析,Redis遵循AP原则,导致锁可能失效。针对此问题,提出两种解决方案:Zookeeper分布式锁(追求CP一致性)和Redlock算法(基于多个Redis实例提升可靠性)。文章还讨论了可能遇到的“坑”,如加从节点引发超卖问题、建议Redis节点数为奇数以及持久化策略对锁的影响。最后,从性能优化角度出发,介绍了减少锁粒度和分段锁的策略,并结合实际场景(如下单重复提交、支付与取消订单冲突)展示了分布式锁的应用方法。
578 3
|
11月前
|
存储 运维 安全
盘古分布式存储系统的稳定性实践
本文介绍了阿里云飞天盘古分布式存储系统的稳定性实践。盘古作为阿里云的核心组件,支撑了阿里巴巴集团的众多业务,确保数据高可靠性、系统高可用性和安全生产运维是其关键目标。文章详细探讨了数据不丢不错、系统高可用性的实现方法,以及通过故障演练、自动化发布和健康检查等手段保障生产安全。总结指出,稳定性是一项系统工程,需要持续迭代演进,盘古经过十年以上的线上锤炼,积累了丰富的实践经验。
869 7
|
11月前
|
存储 分布式计算 Hadoop
基于Java的Hadoop文件处理系统:高效分布式数据解析与存储
本文介绍了如何借鉴Hadoop的设计思想,使用Java实现其核心功能MapReduce,解决海量数据处理问题。通过类比图书馆管理系统,详细解释了Hadoop的两大组件:HDFS(分布式文件系统)和MapReduce(分布式计算模型)。具体实现了单词统计任务,并扩展支持CSV和JSON格式的数据解析。为了提升性能,引入了Combiner减少中间数据传输,以及自定义Partitioner解决数据倾斜问题。最后总结了Hadoop在大数据处理中的重要性,鼓励Java开发者学习Hadoop以拓展技术边界。
368 7
|
10月前
|
人工智能 监控 开发者
阿里云PAI发布DeepRec Extension,打造稳定高效的分布式训练,并宣布开源!
阿里云PAI发布DeepRec Extension,打造稳定高效的分布式训练,并宣布开源!
249 0
|
4月前
|
存储 负载均衡 NoSQL
【赵渝强老师】Redis Cluster分布式集群
Redis Cluster是Redis的分布式存储解决方案,通过哈希槽(slot)实现数据分片,支持水平扩展,具备高可用性和负载均衡能力,适用于大规模数据场景。
375 2
|
4月前
|
存储 缓存 NoSQL
【📕分布式锁通关指南 12】源码剖析redisson如何利用Redis数据结构实现Semaphore和CountDownLatch
本文解析 Redisson 如何通过 Redis 实现分布式信号量(RSemaphore)与倒数闩(RCountDownLatch),利用 Lua 脚本与原子操作保障分布式环境下的同步控制,帮助开发者更好地理解其原理与应用。
328 6

热门文章

最新文章