数仓版和湖仓版的主要区别在于:
湖仓版在数仓版高性能在线分析的基础上,增加了低成本的离线处理和机器学习能力。湖仓一体架构能够解决大规模、成本和隔离问题,通过一份全量数据支持离线和在线两种场景,从而避免数据同步引起的数据一致性和时效性问题。
湖仓版提供从数据采集、存储、计算到应用的全面升级,支持将源端数据实时同步至湖(Hudi on OSS)或仓(C-Store),并具备Spark多语言可编程计算引擎的支持以及计算资源与存储资源的按需弹性扩容能力。适用于离线处理、多源聚合分析、预测洞察等业务场景。
数仓版(3.0)则专注于海量数据实时写入可见和高性能在线分析,同样支持计算存储分离架构下的弹性扩展,并提供冷热数据分层存储以降低成本。适用于构建实时数据仓库、大数据量复杂查询、历史数据分析、日志分析等场景。
数仓版有弹性模式(单机版和集群版)和预留模式两种形态。其中,湖仓版不支持单机版部署,而集群版具备分布式能力和更完整的产品功能。
总结来说,湖仓版更适合需要兼顾在线分析与离线处理,以及进行机器学习等高级分析的企业用户;而数仓版更聚焦于对海量实时数据进行高效分析处理的场景。同时,用户可以根据实际需求,选择将数仓版变配为湖仓版来体验更多功能和优化资源配置。此回答整理自钉群“云数据仓库ADB-开发者群”
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
阿里云自主研发的云原生数据仓库,具有高并发读写、低峰谷读写、弹性扩展、安全可靠等特性,可支持PB级别数据存储,可广泛应用于BI、机器学习、实时分析、数据挖掘等场景。包含AnalyticDB MySQL版、AnalyticDB PostgreSQL 版。