特点如下:
可扩展性:企业数据湖充当整个组织或部门数据的集中数据存储,它必须可以解决跨企业间、不同部门间、不同业务间的数据互信和数据主权问题,同时能够按照容量的需求任意扩展;
数据可用性:数据的可用性和可靠性是企业指定决策的关键。跨多可用区的数据冗余机制有助于实现数据的高可用性,而多区域的数据复制可确保有效的灾难恢复,保证业务的连续性。
安全性:在云或是内部部署中,数据安全性意味着业务的安全性。因此,数据必须经过加密、不可篡改并且必须满足相关合规要求。安全性应该从一开始就进行设计,并且需要将其纳入非常基本的体系结构和设计中,进而在企业整体基础架构内部部署管理数据湖的安全性。比如存储层需要提供丰富的加密机制,具有灵活的秘钥管理服务,并且具备防篡改能力。
存储任何内容:云存储对于文件格式、文件数量、存储容量没有限制,极大突破了HDFS(Hadoop分布式文件系统)因为NameNode设计机制无法支撑大量小文件的困境。应用无需对小文件进行合并处理,就可以直接存入云存储系统,系统的响应能力完全不会因为文件数量的增加有任何降低。
以上内容摘自《数据湖应用实践白皮书》电子书,点击https://developer.aliyun.com/topic/download?id=1164可下载完整版
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。