开发者学堂课程【分布式文件存储系统技术及实现:分布式存储客观需求 】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/368/detail/4373
分布式存储客观需求
内容介绍:
一、大数据对分布式存储的需求
一、大数据对分布式存储的需求
1.当前业务对分布式存储的需求以及现在达到的水平。
(1)要对 1PB 数据排序,需要怎样的存储系统?
首先这 1PB 数据在排序的时候会产生一些临时数据,另外输出结果也要有 1PB,所以在这整个过程中,需要的存储量大概在 3PB-4PB,
(2)如果说当前的存储系统有多个用户同时使用的话,同时考虑到系统要留一些存储空间用于后期扩展,那每个机型的存储量至少要在 100PB 左右。如果要求 1PB 数据在两小时之内完成,那对于数据的吞吐量也有一定的要求。
(3)在 http://sortbenchmark.org/ 这个网站上,最新更新了阿里云研发的云计算平台关键性能数据,对于 Gray 这种排序来说,两三年前排序 100TB 数据需要几百分钟的时间消耗,在去年最好的成绩是 1400 多秒,今年平台上达到了 377 秒,可以看到每年都有很大的改善,同时要求底层的分布式存储系统也要有大的改善,能达到吞吐量的要求。
2.总结:
(1)大数据对分布式存储的需求:
·存储容量大(目前阿里云分布式存储系统盘古最大容量 200PB )
·高吞吐率(如果说 1PB 的数据在两小时之内算完,那要求每秒的吞吐量在几十 GB 左右,另外数据规模的增长同时带来的是硬件的损坏率)
·提高数据的可靠性(目前盘古系统在 5000 台集群的规模下,可以达到 99.999999% 的数据安全性。在 5000 台集群里面,100 年左右会出现一次数据丢失)
·数据服务高可用(单独看分布式存储系统的高可用,达到 99.95%,就是每年大概有 4-5 个小时不服务,如果应用层在分布式存储系统上做容错机制,就可以达到更高的可用性)
·高效运维(随着集群规模变大,如果每一次故障排查或者硬件更换都需要人为进行操作,那是不可思议的。高效运维的第一点就是要将日常硬件处理作为常态,做成流程化;第二点就是对于监控、报警等机制也要有非常完善的支持)
·低成本(是存储系统的核心竞争力,只有在保证数据安全、正确服务稳定的前提下降低成本,才是分布式存储的核心竞争力)