MaxCompute规格详解--合理的选择让您花更低的成本获得更高的业务价值

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 本文由阿里巴巴技术专家海清带来以“MaxCompute规格详解”为主题的演讲。首先概述了在使用MaxCompute时,通常选择的两种服务模式,按量计费和包年包月,以及在MaxCompute计费过程中所产生的各项费用。

精彩视频回看请点击:MaxCompute规格详解

以下为精彩视频内容整理:
在用户使用MaxCompute之前,都会考虑成本和业务两大问题。有些企业处在快速的发展期,在业务上对性能的要求比较高,例如计算业务对资源的需求是弹性的,要求峰谷明显,一段时间对资源的要求非常高,另一段时间对资源的要求是比较低的,这种类型属于业务优先于成本。还有一些企业对预算有严格的要求,例如进行合同制的企业,在前期必须要有明确的预算,但对性能的要求不是很高,只需要在当天能够完成任务。基于以上两大场景MaxCompute推出了一系列格和计费方式。

服务模式

MaxCompute服务模式

图片 1.png
MaxCompute的服务模式有两种方式,按量计费和包年包月。开通MaxCompute相当于对服务进行注册,同时产生有协议的订单,订单成功后即可使用该服务。按量计费是指整个订单计费模式都为使用之后再按量计费,包括计算、存储、下载几大块主要功能。开通时为0元开通,开通后若不使用则无费用产生。包年包月是指订单计费模式为混合模式,计算资源是按包年包月进行预付费,存储和下载则为使用之后在按量计费。开通时需要预先对计算资源进行付款。

MaxCompute计费方式

MaxCompute费用由三部分组成,存储费用、计算费用和下载费用。

  • 存储费用按存储的数据容量大小进行阶梯计费,包年包月套餐中有固定的存储量,超出部分按量计费。
  • 计算费用包含SQL任务、MapReduce任务、Lightning任务及Spark任务。
  • SQL任务在按量付费时,如果是标准版,根据计算输入数据量及SQL的复杂度进行计算。如果是开发者版,根据计算输入量进行计算。在购买完包年包月的计算资源后,无需额外付费。
  • MapReduce任务在按量付费时,根据计算任务所消耗的计算时进行计费。在购买完包年包月的计算资源后,无需额外付费。
  • Lightning任务是根据查询输入量进行计算。
  • Spark任务在按量付费时,根据计算任务所消耗的计算时进行计算。在购买完包年包月的计算资源后,无需额外付费。
  • 下载费用按公网下载的流量进行计费。对上传、内网的下载不产生费用。

规格介绍

按量计费

图片 2.png

按量计费-标准版

按量计费包括标准版和开发者版,标准版的计算资源为极致的弹性计算资源,资源池为共享型,计算任务按需抢占,不可指定使用量也无使用限制。包括SQL(含UDF)、MapReduce、Spark、交互式分析(Lightning)、Graph等计算类型资源。存储资源的资源池为共享型,按需存储,无使用限制。包括表(Table)和资源(Resource)等存储。上传、下载数据资源的资源池为共享型,按需抢占,不可指定用量也无使用限制。主要包括Tunnel的Upload、Download资源。
针对标准版的计费说明,计算资源(CU)收费按各计算类型任务使用量计费。当前仅SQL、MR、Spark、交互式分析几类计算任务有计费。存储收费只收表(Table)存储的容量费用。且容量大小是压缩后的数据。数据上传、下载收费指数据上传至MaxCompute为免费;仅对通过公网下载进行按量收费。

按量计费-开发者版

开发者版的计算资源资源池为共享型,计算任务按需抢占资源,不可指定使用量,只提供MaxCompute SQL(支持使用UDF)、PyODPS计算资源;一个region只能有一个项目选择使用开发者版资源;每个项目最大作业并发数为5个;单作业最多只能占用10CU计算资源。存储资源的资源池为共享型,按需存储。每个项目最大存储量限制在500GB(含临时数据大小),超过500GB将无法存入。这两个因素的限制使得开发者版资源不适合作为生产资源。上传、下载数据资源的资源池为共享型,按需抢占,不可指定用量也无使用限制。主要包括Tunnel的Upload、Download资源。
针对开发者版的计费说明,计算资源(CU)收费:计算作业按照数据扫描量计费。每个月赠送价值100元的免费计算量,即每月可免费执行扫描666GB数据的作业量,超出部分将按量计费。存储收费:每个项目空间可免费且只能存储500GB资源。数据上传、下载收费:数据上传至MaxCompute为免费;仅对通过公网下载进行按量收费。

包年包月

3.png

包年包月-标准计算资源

计算资源包含计算资源单元和非预留计算资源两种。计算资源单元即为预留计算资源,是必选资源。资源池为独享型,按购买CU量固定分配资源。非预留计算资源为非必选资源,资源数量在[0,购买量]区间内且不可独享。计算任务只能占用预留和非预留计算资源。资源可以执行SQL(含UDF)、MapReduce、Spark、Graph等计算类型任务。存储资源的资源池为共享型,按需存储,无使用限制。包括表(Table)和资源(Resource)等存储。上传、下载数据资源的资源池为共享型,按需抢占,不可指定用量也无使用限制。主要包括Tunnel的Upload、Download资源。
针对标准计算资源的计费说明,计算资源(CU)收费:服务开通生成订单时就需要预先付费,按CU量和购买时长进行收费。预留和非预留资源单价不一样。存储收费:只收表(Table)存储的容量费用。且容量大小是压缩后的数据。数据上传、下载收费:数据上传至MaxCompute为免费;仅对通过公网下载进行按量收费。

包年包月-套餐版

针对计算资源,套餐中的预留计算资源为独享资源,按购买套餐固定分配计算资源。非预留计算资源为非必选资源,资源数量在[0,购买量]区间内且不可独享。计算任务只能占用预留和非预留计算资源。资源可以执行SQL(含UDF)、MapReduce、Spark、Graph等计算类型任务。存储资源的资源池为共享型,按需存储,无使用限制。包括表(Table)和资源(Resource)等存储。上传、下载数据资源的资源池为共享型,按需抢占,不可指定用量也无使用限制。主要包括Tunnel的Upload、Download资源。
针对套餐版的计费说明,计算资源(CU)收费:服务开通生成订单时就需要预先付费,按套餐和购买时长进行收费。预留和非预留资源单价不一样。存储收费:只收表(Table)存储的容量费用。且容量大小是压缩后的数据。每日按购买的套餐提供固定的存储量,超出的量另行计费。数据上传、下载收费:数据上传至MaxCompute为免费;仅对通过公网下载进行按量收费。

包年包月-非预留计算资源

针对计算资源,资源数量为[0,购买量]范围内的弹性资源池。购买后系统不预留资源,任务发起后,系统会在总资源池抢占并分配空闲资源。如果总资源池中空闲资源充足则可能为您分配所购买的最大CU量;如果总资源池繁忙则可能为您分配0CU。MaxCompute可保障您购买的非预留计算资源全天50%的计算力(一天计算力:资源数量*24小时)。资源可以执行SQL(含UDF)、MapReduce、Spark、Graph等计算类型任务。存储资源的资源池为共享型,按需存储,无使用限制。包括表(Table)和资源(Resource)等存储。上传、下载数据资源的资源池为共享型,按需抢占,不可指定用量也无使用限制。主要包括Tunnel的Upload、Download资源。
针对非预留计算资源的计费说明,计算资源(CU)收费:服务开通生成订单时就需要预先付费,按CU量和购买时长进行收费。存储收费:只收表(Table)存储的容量费用。且容量大小是压缩后的数据。数据上传、下载收费:数据上传至MaxCompute为免费;仅对通过公网下载进行按量收费。

选择和使用

计算资源的选择

如何选择生产计算资源,就要从计算资源需求的场景来考虑。对于极致的弹性计算资源需求,资源为按量计费标准版,计算资源弹性使用,按量付费,其中SQL单价为0.3元/GB/1复杂度。规格优势在于资源不受限,峰值有保障,劣势在于费用不受控,目前有消费监控告警。对于重预算、重基线的场景需求,资源类型为包年包月预留计算资源,独享计算资源,购买后系统固定预留CU。包年包月标准版和套餐中的计算资源单元均为预留计算资源。其中标准版预留计算资源单价为150元/CU/月。规格优势在于资源独享,预算可控,劣势在于资源受限不利于超高峰值任务。
对于重预算、轻基线的场景需求,资源类型为包年包月非预留计算资源,预付弹性计算资源池,购买后使用时可获得[0,购买量]的弹性资源,单价为40元/CU/月。资源优势在于价格低廉,预算可控,劣势在于资源不可独享,忙时不能保障峰值。

资源类型的使用

  • 按量付费使用

4.png
对于按量付费中的计算资源使用,开通按量计费模式以后,就拥有了共享资源池的使用权,同时创建一个或多个project,就可以指定的使用资源池。MaxCompute会分配共享资源池作为默认资源组,创建MaxCompute project时只要选择按量计费模式,project都是绑定这个默认公共资源组。当project里发起task,则按需占用该资源池资源。它的优势在于使用灵活,无需对资源进行管理,只需要按业务进行项目规划。重点提醒的是需要配置好相关消费监控告警,避免预料外的高额账单。
对于按量付费中的存储资源使用,无使用限制,无需关注存储资源,只需要按业务需求进行数据存放。重点提醒的是管理好数据生命周期,存在多project时,在满足业务需求的同时集中存放数据。

  • 包年包月预留资源使用

购买预留计算资源时,开通包年包月模式,选择“标准计算资源”,同时非预留计算资源为0;或者选择3种套餐中的任何一种,同时非预留计算资源为0。
5.png
使用非预留计算资源时,购买包年包月计算资源后,系统默认给分配一个资源组,其中只包含预留计算资源。可以在MaxCompute管家中创建二级quota组细分资源,如果不细分,则只有1中的默认quota组。Project指定使用包年包月计算资源(默认quota组)后,到MaxCompute管家指定具体quota组。Project中单个task按业务需求可通过quota tag功能指定到其他二级quota组执行。

  • 包年包月非预留资源使用

购买非预留计算资源时,当前仅在国内上海、北京、杭州、深圳4个region可购买,其他地区的region没有开放。购买时有两种方式,组合购买和单独购买,同时也要根据自己的业务需求购买。
6.png
组合购买,即标准计算资源或套餐购买的同时加购非预留计算资源。通过购买100CU和300ECU后,系统默认给分配一个资源组。可以在MaxCompute管家中创建二级quota组细分资源,一组为默认100CU,另一组为300ECU。Project指定使用默认quota组后,到MaxCompute管家指定具体quota组。Project中单个task按业务需求可通过quota tag功能指定到其他二级quota组执行。如果没有进行细分,这种方式会优先使用预留资源,通过细分预留资源可以进行一些重要的任务,非预留资源可以进行一些峰值高、对性能要求不是很高的任务。
7.png
单独购买,即只购买使用非预留计算资源。购买300ECU后,默认quota组中会有300ECU,project中的所有任务都会使用默认quota组的计算资源。
所有的规格在不同的模式中都是可以切换使用的,比如刚开始使用的是开发者版,也可以切换成标准版来使用,但是不可以将标准版切换成开发者版。使用包年包月时,开通后只能选择一个规格,当有需求时也可以通过升级和降配的页面切换成另外的规格。Project创建时,刚开始选择按量付费,在使用过程中也可以切换成包年包月资源,或者刚开始选择包年包月,在使用过程中也可以切换成按量付费。

  • 包年包月和按量计费混合使用

在实际使用时,也可以按业务需求,同时开通两种模式,混合使用。比如,任务的业务数据量很大但是时间要求不高,按量计费不划算可以使用包年包月资源慢慢执行。再比如,任务需要重点保障时间,且峰值很高,包年包月按峰值数量购买的话很多时间又闲置不划算,买少了又不能保障峰值和时间,可以放到按量计费资源执行。

示例

案例一:MaxCompute按量计费
8.png
如上图所示,此案例的需求特点是业务处在需要快速发展阶段,对数据基线要求高,集群利用率低,业务计算闲时占比大于50%,计算峰值是平均水位的大于2倍。这时,推荐规格为按量付费,业务处在高速发展期,使用MaxCompute相比于IDC自建集群,可以省掉集群运维成本,同时灵活的弹性资源可以满足爆发式分析资源需求。

案例二:MaxCompute包年包月
9.png
此案例的需求特点是成本控制严格,特别关注低质量SQL对计费的影响,如果是预算合同制,通过按量不容易估算成本。在前期可评估每天平均作业量和数据量,计算峰值所需核数是平均水位的5倍,但对生产性能要求不高。这时,推荐规格为包年包月的预留资源加非预留预付。如上图所示,通过独占计算资源和非预留系统抢占式计算资源的方式,以预留独享计算资源保障重要业务,非预留作为非保障业务峰值扩充资源。

大家如果对MaxCompute有更多咨询或者建议,欢迎扫码加入 MaxCompute开发者社区钉钉群,或点击链接 申请加入。
2群.png

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
数据采集 机器学习/深度学习 人工智能
大数据分析案例-用RFM模型对客户价值分析(聚类)
大数据分析案例-用RFM模型对客户价值分析(聚类)
1316 0
大数据分析案例-用RFM模型对客户价值分析(聚类)
|
3月前
|
存储 大数据 测试技术
用于大数据分析的数据存储格式:Parquet、Avro 和 ORC 的性能和成本影响
在大数据环境中,数据存储格式直接影响查询性能和成本。本文探讨了 Parquet、Avro 和 ORC 三种格式在 Google Cloud Platform (GCP) 上的表现。Parquet 和 ORC 作为列式存储格式,在压缩和读取效率方面表现优异,尤其适合分析工作负载;Avro 则适用于需要快速写入和架构演化的场景。通过对不同查询类型(如 SELECT、过滤、聚合和联接)的基准测试,本文提供了在各种使用案例中选择最优存储格式的建议。研究结果显示,Parquet 和 ORC 在读取密集型任务中更高效,而 Avro 更适合写入密集型任务。正确选择存储格式有助于显著降低成本并提升查询性能。
470 1
用于大数据分析的数据存储格式:Parquet、Avro 和 ORC 的性能和成本影响
|
2月前
|
存储 运维 物联网
长安汽车×云器Lakehouse一体化数据平台,成本降低50%,建立智能互联时代的领先优势
长安汽车智能化研究院致力于汽车智能化技术研究,通过构建基于云器科技Lakehouse一体化数据平台,解决了高并发、大规模车联网数据处理难题,实现了数据实时写入、高效分析和成本优化,助力汽车智能驾驶、网联和交通全面发展。
58 0
长安汽车×云器Lakehouse一体化数据平台,成本降低50%,建立智能互联时代的领先优势
|
3月前
|
存储 大数据 数据挖掘
【数据新纪元】Apache Doris:重塑实时分析性能,解锁大数据处理新速度,引爆数据价值潜能!
【9月更文挑战第5天】Apache Doris以其卓越的性能、灵活的架构和高效的数据处理能力,正在重塑实时分析的性能极限,解锁大数据处理的新速度,引爆数据价值的无限潜能。在未来的发展中,我们有理由相信Apache Doris将继续引领数据处理的潮流,为企业提供更快速、更准确、更智能的数据洞察和决策支持。让我们携手并进,共同探索数据新纪元的无限可能!
151 11
|
4月前
|
存储 分布式计算 监控
揭秘阿里云EMR:如何巧妙降低你的数据湖成本,让大数据不再昂贵?
【8月更文挑战第26天】阿里云EMR是一种高效的大数据处理服务,助力企业优化数据湖的成本效益。它提供弹性计算资源,支持根据需求调整规模;兼容并优化了Hadoop、Spark等开源工具,提升性能同时降低资源消耗。借助DataWorks及Data Lake Formation等工具,EMR简化了数据湖构建与管理流程,实现了数据的统一化治理。此外,EMR还支持OSS、Table Store等多种存储选项,并配备监控优化工具,确保数据处理流程高效稳定。通过这些措施,EMR帮助企业显著降低了数据处理和存储成本。
138 3
|
4月前
|
机器学习/深度学习 人工智能 分布式计算
理解并利用大数据的力量:解锁数据背后的价值
【8月更文挑战第7天】大数据已成为推动社会进步和经济发展的重要力量。通过理解并利用大数据的力量,企业可以解锁数据背后的价值,优化业务流程、提升决策效率和创新能力。然而,大数据应用也面临着诸多挑战和风险,需要企业不断学习和实践以应对。相信在未来的发展中,大数据将为我们带来更多的惊喜和机遇。
|
4月前
|
存储 分布式计算 数据处理
MaxCompute 的成本效益分析与优化策略
【8月更文第31天】随着云计算技术的发展,越来越多的企业选择将数据处理和分析任务迁移到云端。阿里云的 MaxCompute 是一款专为海量数据设计的大规模数据仓库平台,它不仅提供了强大的数据处理能力,还简化了数据管理的工作流程。然而,在享受这些便利的同时,企业也需要考虑如何有效地控制成本,确保资源得到最优利用。本文将探讨如何评估 MaxCompute 的使用成本,并提出一些优化策略以降低费用,提高资源利用率。
222 0
|
5月前
|
存储 算法 数据可视化
云上大数据分析平台:解锁数据价值,驱动智能决策新篇章
实时性与流式处理:随着实时数据分析需求的增加,云上大数据分析平台将更加注重实时性和流式处理能力的建设。通过优化计算引擎和存储架构等技术手段,平台将能够实现对数据流的高效处理和分析,为企业提供实时决策支持。通过优化计算引擎和存储架构等技术手段,平台将能够实现对数据流的高效处理和分析,为企业提供实时决策支持。
732 8
|
7月前
|
SQL 分布式计算 数据挖掘
阿里云MaxCompute携手华大基因打造精准医疗应用云平台,十万基因组计算成本降低至1000美金以内
华大基因是中国最领先的基因科技公司,华大基因为消除人类病痛、经济危机、国家灾难、濒危动物保护、缩小贫富差距等方面提供分子遗传层面的技术支持。让我们结合maxcompute的技术特点,看看如何助力华大基因。
2151 13
|
7月前
|
存储 分布式计算 算法
大数据处理:挖掘价值之道
大数据处理:挖掘价值之道

相关产品

  • 云原生大数据计算服务 MaxCompute