分布式存储客观需求 | 学习笔记

简介: 快速学习分布式存储客观需求

开发者学堂课程【分布式文件存储系统技术及实现:分布式存储客观需求 】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/368/detail/4373


分布式存储客观需求

内容介绍:

一、大数据对分布式存储的需求

 

一、大数据对分布式存储的需求

1.当前业务对分布式存储的需求以及现在达到的水平。

(1)要对 1PB 数据排序,需要怎样的存储系统?

首先这 1PB 数据在排序的时候会产生一些临时数据,另外输出结果也要有 1PB,所以在这整个过程中,需要的存储量大概在 3PB-4PB,

image.png

(2)如果说当前的存储系统有多个用户同时使用的话,同时考虑到系统要留一些存储空间用于后期扩展,那每个机型的存储量至少要在 100PB 左右。如果要求 1PB 数据在两小时之内完成,那对于数据的吞吐量也有一定的要求。

 image.png

(3)在 http://sortbenchmark.org/ 这个网站上,最新更新了阿里云研发的云计算平台关键性能数据,对于 Gray 这种排序来说,两三年前排序 100TB 数据需要几百分钟的时间消耗,在去年最好的成绩是 1400 多秒,今年平台上达到了 377 秒,可以看到每年都有很大的改善,同时要求底层的分布式存储系统也要有大的改善,能达到吞吐量的要求。

2.总结:

(1)大数据对分布式存储的需求:

·存储容量大(目前阿里云分布式存储系统盘古最大容量 200PB )

·高吞吐率(如果说 1PB 的数据在两小时之内算完,那要求每秒的吞吐量在几十 GB 左右,另外数据规模的增长同时带来的是硬件的损坏率)

·提高数据的可靠性(目前盘古系统在 5000 台集群的规模下,可以达到 99.999999% 的数据安全性。在 5000 台集群里面,100 年左右会出现一次数据丢失)

·数据服务高可用(单独看分布式存储系统的高可用,达到 99.95%,就是每年大概有 4-5 个小时不服务,如果应用层在分布式存储系统上做容错机制,就可以达到更高的可用性)

·高效运维(随着集群规模变大,如果每一次故障排查或者硬件更换都需要人为进行操作,那是不可思议的。高效运维的第一点就是要将日常硬件处理作为常态,做成流程化;第二点就是对于监控、报警等机制也要有非常完善的支持)

·低成本(是存储系统的核心竞争力,只有在保证数据安全、正确服务稳定的前提下降低成本,才是分布式存储的核心竞争力)

相关文章
|
7月前
|
SpringCloudAlibaba Java 网络架构
【Springcloud Alibaba微服务分布式架构 | Spring Cloud】之学习笔记(二)Rest微服务工程搭建
【Springcloud Alibaba微服务分布式架构 | Spring Cloud】之学习笔记(二)Rest微服务工程搭建
174 0
|
7月前
|
SpringCloudAlibaba Java 网络架构
【Springcloud Alibaba微服务分布式架构 | Spring Cloud】之学习笔记(七)Spring Cloud Gateway服务网关
【Springcloud Alibaba微服务分布式架构 | Spring Cloud】之学习笔记(七)Spring Cloud Gateway服务网关
298 0
|
7月前
|
SpringCloudAlibaba 负载均衡 Java
【Springcloud Alibaba微服务分布式架构 | Spring Cloud】之学习笔记(目录大纲)
【Springcloud Alibaba微服务分布式架构 | Spring Cloud】之学习笔记(目录大纲)
187 1
|
7月前
|
SpringCloudAlibaba Java 测试技术
【Springcloud Alibaba微服务分布式架构 | Spring Cloud】之学习笔记(六)Hystrix(豪猪哥)的使用
【Springcloud Alibaba微服务分布式架构 | Spring Cloud】之学习笔记(六)Hystrix(豪猪哥)的使用
156 1
|
7月前
|
SpringCloudAlibaba 负载均衡 Java
【Springcloud Alibaba微服务分布式架构 | Spring Cloud】之学习笔记(三)Eureka服务注册中心
【Springcloud Alibaba微服务分布式架构 | Spring Cloud】之学习笔记(三)Eureka服务注册中心
107 1
|
7月前
|
SpringCloudAlibaba Java 持续交付
【Springcloud Alibaba微服务分布式架构 | Spring Cloud】之学习笔记(一)基础知识+各个组件介绍+聚合父工程创建
【Springcloud Alibaba微服务分布式架构 | Spring Cloud】之学习笔记(一)基础知识+各个组件介绍+聚合父工程创建
778 1
|
7月前
|
消息中间件 SpringCloudAlibaba Java
【Springcloud Alibaba微服务分布式架构 | Spring Cloud】之学习笔记(八)Config服务配置+bus消息总线+stream消息驱动+Sleuth链路追踪
【Springcloud Alibaba微服务分布式架构 | Spring Cloud】之学习笔记(八)Config服务配置+bus消息总线+stream消息驱动+Sleuth链路追踪
1026 0
|
7月前
|
SpringCloudAlibaba 负载均衡 Java
【Springcloud Alibaba微服务分布式架构 | Spring Cloud】之学习笔记(五)OpenFeign的使用
【Springcloud Alibaba微服务分布式架构 | Spring Cloud】之学习笔记(五)OpenFeign的使用
107 0
|
7月前
|
负载均衡 算法 Java
【Springcloud Alibaba微服务分布式架构 | Spring Cloud】之学习笔记(四)Ribbon的使用
【Springcloud Alibaba微服务分布式架构 | Spring Cloud】之学习笔记(四)Ribbon的使用
150 0
|
7月前
|
SQL SpringCloudAlibaba 中间件
SpringCloud Alibaba Seata处理分布式事务--学习笔记
SpringCloud Alibaba Seata处理分布式事务--学习笔记
80 0