Paimon与Spark

2024-04-10 205

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Paimon与Spark

Paimon与Spark的深度集成：查询性能优化实践

，数据湖存储技术的发展日新月异。Apache Paimon，作为流式数据湖存储技术的新星，正以其高吞吐、低延迟的特性，为用户提供了强大的数据摄入、流式订阅以及实时查询能力。本文将分享我们在Paimon与Spark集成过程中的关键优化实践，通过一系列创新举措，我们将Paimon x Spark的性能提升了37%以上，使其与Parquet x Spark持平。接下来，让我们一起探索这些优化点的奥秘。

动态分区裁剪（Dynamic Partition Prunning, DPP）

动态分区裁剪是SQL优化中的一个常见技术，它通过谓词下推（Predicate PushDown）的方式，最小化从数据源中读取数据的IO成本，从而降低计算成本。在数仓场景中，我们经常需要将大的事实表与小的维度表进行关联查询，DPP在这里发挥了重要作用。通过Paimon的Spark DataSource V2查询框架，我们实现了动态分区裁剪的能力，显著减少了参与Join操作的数据量，大幅提升了查询性能。

Exchange复用

在Spark中，Exchange是物理计划中的关键操作，对应逻辑计划中的Shuffle。在复杂的SQL中，通过公共表表达式（CTE）定义的SQL片段可能会被多次使用。Exchange复用优化允许这些数据只被执行一次，然后缓存起来供后续操作使用，减少了冗余计算和IO网络开销。我们解决了Paimon中的实现问题，使得Paimon能够使用Spark提供的Exchange复用优化。

动态调整Scan并发

任务执行时的并发度是影响作业性能的关键因素之一。在DataSource V2框架下，Paimon提供了基于当前作业可用core数动态调整数据源的数据分片的能力，从而提升了查询效率。这一优化使得Paimon在执行复杂查询时表现出色。

合并标量子查询

合并标量子查询优化通过遍历整个SQL逻辑执行计划，提取出标量子查询，并尝试将多个标量子查询合并起来，减少了冗余的计算。我们在Paimon侧单独实现了这一优化，并通过Spark的Extensions接口将优化注入到了Spark优化器中。

Cost-Based优化

基于成本的优化（CBO）是Spark SQL中用于提升查询性能的重要工具，尤其在多路Join场景中效果显著。Paimon在元数据中增加了statistics信息，并通过Spark Analyze命令完成收集，使得Spark SQL可以利用Paimon的表级/列级信息进行查询优化。

优化效果

通过上述优化，Paimon x Spark的性能得到了显著提升。在没有column级统计信息的情况下，优化后的Paimon与Parquet已经基本持平。当开启column级统计信息后，Paimon的性能虽然略逊于Parquet，但差距已经在缩小，这也是我们未来优化工作的重点方向之一。

后续规划

在湖仓体系下，读写查询优化是一项长期而艰巨的任务。我们将继续推进Paimon充分利用Spark SQL现有的优化规则和框架，并利用Paimon自身的特性，如Index或Clustering等，进一步提升性能。同时，我们也在规划对append表支持Upsert能力，以满足更多无主键表的使用场景。

Paimon与Spark

Paimon与Spark的深度集成：查询性能优化实践

动态分区裁剪（Dynamic Partition Prunning, DPP）

Exchange复用

动态调整Scan并发

合并标量子查询

Cost-Based优化

优化效果

后续规划

热门文章

最新文章

相关课程

相关电子书