ODPS SQL费用估算与控制

简介:

 MaxCompute  ODPS SQL费用估算与控制

 

作者:顾飞

一 需求背景

费用挑战

ODPS老用户应该都了解过其计费方式,如果不清楚计费方式,可以参考阿里云文章:https://help.aliyun.com/document_detail/27989.html?spm=5176.doc27833.6.701.8vl39E 。阿里云本身提供了CU(固定资源)和计算两种计费方式,而我们公司在BI上云的过程中使用的是采云间,它仅支持SQL计算计费方式步支持CU方式,而保险行业又是一个基于数据才能工作的行业, 每个部门都有自己的数据需求,在数据仓库之上的数据用户和应用又是非常的多,这使得我们在ODPS SQL费用控制上遇到了很大的挑战。刚开始3个月,我们的ODPS费用都是差好几倍,这与我们的业务增长两完全不符合。 在使用ODPS的前四个月我们面对如此大的费用差距,而我们的SQL 每个月都有几万次执行次数,几乎无从下手。

具体问题

1 遇到费用差距如此之大, 那我们就要去找到那些费用非常高的SQL, 我们根据阿里云提供的SQL 执行日志,发现很多SQL 运行一次要数千元, 很多都是LEFT JOIN没有做到分区过滤造成,比如:a left  outer join  b  on a.id = b.id where a.pt= "${date}" and b.pt= "${date}",对于b表的分区过滤是失效的,造成sql的全表扫描,而需要将其改成: a left outer join  (select * from b where b.pt= "${date}" ) b on a.id = b.id where pt where a.pt= "${date}" 这样写才能做到过滤分区
  

2 还有一些SQL 有数千条,都是100元以上的费用, 主要原因由于每个SQL都是从最明细的底层表去抽取,造成SQL 的复杂度和输入数据量都非常得高。

 

二 解决方案

对于这样局面我们提供了三种解决方案,来改进这样的局面。

方案一: SQL 签名

大家用过ORACLE 应该都知道AWR报表,里面可以根据同一个SQL ID在不同时间维度下进行SQL执行次数、平均执行时长、耗CPU率来分析性能问题,同样这对ODPS SQL同样适用,如下:

 

 ae45f3b98798197edd6ca6c7cf6eb5a6ab1685f3


 

每个SQL都需要有一个唯一的签名才能做到, 我们的做法是用MD5算法进行哈希,生成一个128位的Hash Value,其中低32位作为HASH VALUE显示,SQL_ID则取了后64位,你可以用任何语言来实现。当这个SQL签名出来以后,我们很容易找到那些执行次数多, 数据量大,SQL复杂度高的SQL,给我们SQL 费用优化上带来了极大的便利。

方案二: SQL费用估算器

接下来我们需要一个SQL估算器,我们每写完一个SQL都需要去估算下多少钱,我们才能上线,ODPS计算计费公式为:一次SQL计算费用 = 计算输入数据量 * SQL复杂度 * SQL价格,  那么我就需要用一个WEB界面来实现这个公式。 非常感觉阿里云提供了ODPS sdk,使得用户可以构建给予ODPSSAAS服务。

下面是我的工程目录:


 422394cb7424127c8a5684bf95ff52214c0e1e8e

其中最核心的API调用如下,SqlCostTask 这个函数就能获取(计算输入数据量 * SQL复杂度 * SQL价格)这三个变量了:

087c571c11d8f3edde77eb5041ad1660a40ee067

 

估算界面:

 

68711cbc8a8d435b7b6ba496505c311a2a06b10c

 

方案三:在数据仓库之上构建汇总层

在我们知道哪些SQL费用比较高以后,我们就可以有针对性地优化, 最好的方式就是根据需求的共性在DW 层之上建立一层汇总层, 很报表和对帐MaxCompute最佳实践

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
3月前
|
关系型数据库 MySQL 数据库
阿里云数据库RDS费用价格:MySQL、SQL Server、PostgreSQL和MariaDB引擎收费标准
阿里云RDS数据库支持MySQL、SQL Server、PostgreSQL、MariaDB,多种引擎优惠上线!MySQL倚天版88元/年,SQL Server 2核4G仅299元/年,PostgreSQL 227元/年起。高可用、可弹性伸缩,安全稳定。详情见官网活动页。
802 152
|
3月前
|
SQL 存储 分布式计算
【万字长文,建议收藏】《高性能ODPS SQL章法》——用古人智慧驾驭大数据战场
本文旨在帮助非专业数据研发但是有高频ODPS使用需求的同学们(如数分、算法、产品等)能够快速上手ODPS查询优化,实现高性能查数看数,避免日常工作中因SQL任务卡壳、失败等情况造成的工作产出delay甚至集群资源稳定性问题。
1116 36
【万字长文,建议收藏】《高性能ODPS SQL章法》——用古人智慧驾驭大数据战场
|
3月前
|
关系型数据库 分布式数据库 数据库
阿里云数据库收费价格:MySQL、PostgreSQL、SQL Server和MariaDB引擎费用整理
阿里云数据库提供多种类型,包括关系型与NoSQL,主流如PolarDB、RDS MySQL/PostgreSQL、Redis等。价格低至21元/月起,支持按需付费与优惠套餐,适用于各类应用场景。
|
4月前
|
SQL 分布式计算 大数据
SparkSQL 入门指南:小白也能懂的大数据 SQL 处理神器
在大数据处理的领域,SparkSQL 是一种非常强大的工具,它可以让开发人员以 SQL 的方式处理和查询大规模数据集。SparkSQL 集成了 SQL 查询引擎和 Spark 的分布式计算引擎,使得我们可以在分布式环境下执行 SQL 查询,并能利用 Spark 的强大计算能力进行数据分析。
|
6月前
|
SQL 人工智能 分布式计算
别再只会写SQL了!这五个大数据趋势正在悄悄改变行业格局
别再只会写SQL了!这五个大数据趋势正在悄悄改变行业格局
135 0
|
8月前
|
SQL 关系型数据库 MySQL
大数据新视界--大数据大厂之MySQL数据库课程设计:MySQL 数据库 SQL 语句调优方法详解(2-1)
本文深入介绍 MySQL 数据库 SQL 语句调优方法。涵盖分析查询执行计划,如使用 EXPLAIN 命令及理解关键指标;优化查询语句结构,包括避免子查询、减少函数使用、合理用索引列及避免 “OR”。还介绍了索引类型知识,如 B 树索引、哈希索引等。结合与 MySQL 数据库课程设计相关文章,强调 SQL 语句调优重要性。为提升数据库性能提供实用方法,适合数据库管理员和开发人员。
|
9月前
|
SQL 大数据 数据挖掘
玩转大数据:从零开始掌握SQL查询基础
玩转大数据:从零开始掌握SQL查询基础
369 35
|
8月前
|
关系型数据库 MySQL 大数据
大数据新视界--大数据大厂之MySQL 数据库课程设计:MySQL 数据库 SQL 语句调优的进阶策略与实际案例(2-2)
本文延续前篇,深入探讨 MySQL 数据库 SQL 语句调优进阶策略。包括优化索引使用,介绍多种索引类型及避免索引失效等;调整数据库参数,如缓冲池、连接数和日志参数;还有分区表、垂直拆分等其他优化方法。通过实际案例分析展示调优效果。回顾与数据库课程设计相关文章,强调全面认识 MySQL 数据库重要性。为读者提供综合调优指导,确保数据库高效运行。
|
SQL 算法 大数据
为什么大数据平台会回归SQL
在大数据领域,尽管非结构化数据占据了大数据平台80%以上的存储空间,结构化数据分析依然是核心任务。SQL因其广泛的应用基础和易于上手的特点成为大数据处理的主要语言,各大厂商纷纷支持SQL以提高市场竞争力。然而,SQL在处理复杂计算时表现出的性能和开发效率低下问题日益凸显,如难以充分利用现代硬件能力、复杂SQL优化困难等。为了解决这些问题,出现了像SPL这样的开源计算引擎,它通过提供更高效的开发体验和计算性能,以及对多种数据源的支持,为大数据处理带来了新的解决方案。