在数仓选型时,我们充分调研了自建数仓和基于阿里云构建数仓进行了哪些方面的对比?
初期小打卡数据量不足100g,每日所需的计算资源不足10cu,对数仓的主要诉求是低费用成本及运维成本,开发敏捷,可扩展性高。于是从费用成本、运维成本、开发效率、灵活性等方面,做了自建数仓和依托阿里云构建数仓的调研。 费用成本方面,阿里云服务特点是初期线性,后期阶梯,初期数据量小,所需计算资源小,适合按量付费,且可以使用阿里云提供的共享资源,成本极低。中后期随着数据量的增加,按量付费的费用上升,可以选用阿里云的计算套餐,购买独享资源。此后费用阶梯化,不同的数据规模选用不同的计算套餐。自建服务,特点是初期重、后期线性,在数仓搭建初期就需要一套完整的服务,有大量的资源不是用于业务计算,费用较高,后期规模上升,需要线性的增长集群规模,费用也线性上升。 运维成本方面,阿里云服务几乎没有运维成本,集群可用性由阿里云保证,不需要自身投入运维,计算任务由可视化的运维中心,任务自动依赖。此外,阿里云可以保证数据安全,提供资源管控,数据治理等一系列的运维工具。自建服务,不管是集群还是任务,都需要较高的运维成本,需要专人持续对集群服务器进行运维,需要使用开源工具,配置任务依赖。复杂的依赖,开发效率低。此外要保证数据安全,进行资源管理等,都需要自己开发一套工具,一次性成本以及持续成本较高。开发效率方面,阿里云服务提供线上IDE,一站式完成各种任务开发提交部署,非技术人员掌握简单的sql,也能自主取数分析,自建服务需要自己完成任务开发,调度开发、个性开发等,非技术人员很难自主取数分析。 灵活性方面,阿里云服务支持云上弹性扩缩容,灵活方便。虽然早期工具层面的 API开放有限,但近期已经开放出大量的API可以灵活的对资源和任务进行操作。自建服务,背靠开源生态,可以灵活的按照自己的需求进行开发,但资源的管理不够灵活便捷,开发成本高。结合以上几点,基于阿里云构建数仓,在开发人员成本,软硬件成本都有明显的优势。从初期直到现在,基于阿里云构建的数仓服务都有极高的消费比。初期只有一个开发人员的情况下,可以快速地搭建起数仓系统,且费用成本极低。 以上信息摘自《大数据与ai的16种可能》,下载地址:https://developer.aliyun.com/topic/download?id=8237
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。