DLA Presto支持大查询

简介: DLA Presto独享版推出大查询功能,能让相同规格的虚拟集群,分析的数据量提升十倍。

背景介绍

阿里云数据湖分析(DLA)产品提供一站式的数据湖分析与计算服务。DLA Presto可以实现高效的在线分析,主要面向用户探索式分析、报表以及轻量ETL的场景,支持OSS、RDS、AnalyticsDB、MaxCompute、TableStore、ElasticSearch等多种数据源。


DLA Presto的独享的虚拟集群中,当Query的数据量比较大,容易报内存超过限制的错误。但许多时候,用户某些Query是ETL类型的任务,它可以容忍慢一些,但不能失败。对于这种情况,DLA Presto独享版推出大查询功能,能让相同规格的虚拟集群,分析的数据量提升十倍。


新功能介绍

使用场景

当运行在DLA Presto中Query处理的数据量比较大,容易出现类似如下的报错信息。

Query exceeded per-node user memory limit...

出现此异常一般是因为某一节点处理的数据量过大,超出了单节点对内存的限制。这种情况下,你可以先排除你处理的数据是否有数据倾斜或SQL是否写得合理,如果确定数据没有倾斜且SQL写得是合理的,那可以考虑使用DLA Presto的big_query功能。


使用方法

开启的方法很简单,只需要在查询前加一个hint

/*+big_query=true*/ insert into table1 SELECT * FROM table2;

注意事项:

(1)big_query功能只在独享虚拟集群中支持,public(扫描量)集群中不支持该功能。

(2)它可能会增加你的Query运行耗时。

(3)它并不能让你处理任意大小的数据和任意复杂SQL,可以参考的数据量是64Core规格可执行10T的TPCH查询。

(4)当前的Schema的Catalog类型必须是Hive,否则会报如下的错误:

big_query only support hive catalog ...

大查询的原理

DLA Presto大查询的功能基于Presto的Exchange物化和GroupExecution功能,开启该功能后,不再一次性把所有子任务调度起来执行,而是通过把中间数据落到预先分好区的表中,GroupedExecution允许同时只有一部分数据集做处理,能大大减小查询占用的内存,使得64Core规格的DLA Presto虚拟集群能处理的查询数据量由1T增加到10T

image.png

在聚合阶段每个分区独立执行

控制分区并发执行数量减小内存消耗

每个分区单独重试

shuffle

Writer

Aggr

Scan

Writer

Aggr

Scan

Writer

Aggr

Scan

Writer

Aggr


使用DLA Presto的优势

DLA Presto(兼容Presto)的目标是提供比开源自建更高的性价比、开箱即用的体验、方便的数据摄入、MySQL生态带来的简单易用、内置各种优化的数据湖分析计算服务。用户可以先通过使用Serverless版本低成本试用,然后根据使用频率的高低、对资源是否有强独占的需求来决定生产环境使用Serverless版本还是CU版本。DLA SQL还在不断发展中,目前规划中的一些特性包含:

  • 按照时间段或者工作负载进行自动扩缩容,帮助用户节省成本。
  • 支持文件缓存机制,提升查询性能
  • 内置大数据最佳实践,自动拦截Bad SQL

欢迎大家关注我们的钉钉群获取最新的信息:

分享:

相关文章
|
12天前
|
存储 监控 druid
Druid、ClickHouse、Doris、StarRocks 的区别与分析
本文对比了 Druid、ClickHouse、Doris 和 StarRocks 四款大数据分析引擎。它们均为 OLAP 引擎,采用列式存储和分布式架构,适用于海量数据分析。Druid 擅长实时分析与高并发查询;ClickHouse 以超高性能著称,适合复杂查询;Doris 提供易用的 SQL 接口,性能均衡;StarRocks 则以其极速查询和实时更新能力脱颖而出。各引擎在数据模型、查询性能、数据更新和存储方面存在差异,适用于不同的业务场景。选择时需根据具体需求综合考虑。
103 20
|
4月前
|
消息中间件 分布式计算 关系型数据库
大数据-140 - ClickHouse 集群 表引擎详解5 - MergeTree CollapsingMergeTree 与其他数据源 HDFS MySQL
大数据-140 - ClickHouse 集群 表引擎详解5 - MergeTree CollapsingMergeTree 与其他数据源 HDFS MySQL
77 0
|
8月前
|
SQL 关系型数据库 MySQL
ClickHouse(18)ClickHouse集成ODBC表引擎详细解析
ClickHouse使用ODBC集成表引擎通过`clickhouse-odbc-bridge`安全连接外部数据库,支持Nullable类型。创建ODBC表引擎的SQL示例:`CREATE TABLE ... ENGINE = ODBC(connection_settings, db, table)`. 用户需配置`odbc.ini`,如在Ubuntu+MySQL上,为`clickhouse`用户授予权限。查询示例展示如何从MySQL检索数据到ClickHouse。查阅更多详情:[ClickHouse经典中文文档分享](https://zhangfeidezhu.com/?p=468)。
107 12
|
8月前
|
Java 关系型数据库 MySQL
ClickHouse(17)ClickHouse集成JDBC表引擎详细解析
ClickHouse通过JDBC桥接器`clickhouse-jdbc-bridge`连接到外部数据库,支持Nullable类型。使用`CREATE TABLE`语句配置JDBC引擎,如`ENGINE = JDBC(datasource_uri, db, table)`。示例展示了如何与MySQL交互,创建本地表并从远程MySQL表中查询和插入数据。此外,ClickHouse还支持JDBC表函数,允许临时查询远程表。相关系列文章在指定链接中提供。
453 7
|
8月前
|
SQL 缓存 关系型数据库
ClickHouse(19)ClickHouse集成Hive表引擎详细解析
Hive引擎允许对HDFS Hive表执行 `SELECT` 查询。目前它支持如下输入格式: -文本:只支持简单的标量列类型,除了 `Binary` - ORC:支持简单的标量列类型,除了`char`; 只支持 `array` 这样的复杂类型 - Parquet:支持所有简单标量列类型;只支持 `array` 这样的复杂类型
256 1
|
8月前
|
SQL 分布式计算 安全
ClickHouse(22)ClickHouse集成HDFS表引擎详细解析
ClickHouse的HDFS引擎允许直接在Hadoop生态系统内管理数据。使用`ENGINE=HDFS(URI, format)`,其中URI指定HDFS路径,format定义文件格式(如TSV、CSV或ORC)。表可读写,但不支持`ALTER`、`SELECT...SAMPLE`、索引和复制操作。通配符可用于文件路径,如`*`、`?`和范围`{N..M}`。Kerberos认证可配置。虚拟列包括文件路径 `_path` 和文件名 `_file`。有关更多信息,参见相关文章系列。
199 0
|
9月前
|
存储 SQL 关系型数据库
ClickHouse(08)ClickHouse表引擎概况
ClickHouse支持四种主要表引擎系列:MergeTree家族,适用于大数据插入并按主键排序;日志引擎系列,适合小数据量写入,如StripeLog、Log和TinyLog;集成表引擎,如ODBC、JDBC,用于与外部系统集成;特殊引擎,包括分布式、内存、随机数生成等,满足特定需求。MergeTree系列提供数据副本和分区,日志系列不支持索引和突变操作。详细解析见相关文章链接。
114 0
|
存储 关系型数据库 MySQL
ClickHouse 集成表的引擎说明
ClickHouse 集成表的引擎说明
284 0
ClickHouse 集成表的引擎说明
|
SQL 物联网 关系型数据库
实时即未来,车联网项目之phoenix on hbase 即席查询【四】
实时即未来,车联网项目之phoenix on hbase 即席查询【四】
227 0
|
SQL 分布式计算 Java
Apache Hudi表自动同步至阿里云数据湖分析DLA
Hudi 0.6.0版本之前只支持将Hudi表同步到Hive或者兼容Hive的MetaStore中,对于云上其他使用与Hive不同SQL语法MetaStore则无法支持,为解决这个问题,近期社区对原先的同步模块hudi-hive-sync进行了抽象改造,以支持将Hudi表同步到其他类型MetaStore中,如阿里云的数据湖分析DLA(https://www.aliyun.com/product/datalakeanalytics中。
377 0
Apache Hudi表自动同步至阿里云数据湖分析DLA