Doris给动态分区添加历史分区问题汇总

简介: Doris动态分区表添加历史分区

1:Doris建动态分区表的规则(部分规则,详情可看创建动态分区properties设置)

1.1:"dynamic_partition.enable" = "true",    -- 是否开启动态分区

1.2:"dynamic_partition.time_unit" = "DAY",              -- 动态分区调度单位

1.2:"dynamic_partition.end" = "3",            -- 提前创建分区数

1.3:"dynamic_partition.prefix" = "p",                          -- 分区前缀

假如在2024-10-30号创建一张动态分区表 那么它的分区如下:

image.png

会自动创建p20241030及预创建未来三天的分区,分区的范围为:

p20241030   [2024-10-30,2024-10-31)

p20241101   [2024-11-01,2024-11-02)

均为左闭右开区间


但是实际很多情况下都需要创建历史分区用来做离线T+1同步


2:为动态分区创建历史分区的步骤

一:手动将动态分区转为手动分区模式

alter table tb_name set ("dynamic_partition.enable" = "false";)

二:只创建一个历史分区的情况下,该历史数据包含所有时间的数据

alter table tb_name add partition p20241029 values less than ("2024-10-30");  -- 即添加p20241029分区,该分区存放pt< '2024-10-30'的所有数据

三:如果需要创建多个历史分区的情况下,需要注意分区的时段冲突问题

-- 比如说现在需要添加 p20241029  p20241028 p20241027三个历史分区
-- 首先假如p20241027为以上包含< '2024-10-28'的所有数据的情况
alter table tb_name add partition p20241027 values less than ("2024-10-28");
-- 为了避免时段冲突。接下来的两个分区创建如下
alter table tb_name add partition p20241028 values [("2024-10-28"),("2024-10-29"));
alter table tb_name add partition p20241029 values [("2024-10-29"),("2024-10-30"));

四:修改完之后记得开启动态分区模式

alter table tb_name set ("dynamic_partition.enable" = "true");
相关文章
|
1月前
|
消息中间件 SQL 分布式计算
大数据-64 Kafka 高级特性 分区Partition 分区重新分配 实机实测重分配
大数据-64 Kafka 高级特性 分区Partition 分区重新分配 实机实测重分配
64 7
|
流计算 Java SQL
Flink落HDFS数据按事件时间分区解决方案
0x1 摘要 Hive离线数仓中为了查询分析方便,几乎所有表都会划分分区,最为常见的是按天分区,Flink通过以下配置把数据写入HDFS, BucketingSink<Object> sink = new BucketingSink<>(path); //通过这样的方式来实现数据跨天分区 sink.
4423 0
|
20天前
Doris动态分区表
Doris动态分区表 Doris动态分区表传参
|
5月前
|
分布式计算 关系型数据库 数据挖掘
实时数仓 Hologres产品使用合集之当使用动态分区管理功能按日期进行分区后,通过主键和segment_key进行时间范围查询性能变差是什么原因
实时数仓Hologres的基本概念和特点:1.一站式实时数仓引擎:Hologres集成了数据仓库、在线分析处理(OLAP)和在线服务(Serving)能力于一体,适合实时数据分析和决策支持场景。2.兼容PostgreSQL协议:Hologres支持标准SQL(兼容PostgreSQL协议和语法),使得迁移和集成变得简单。3.海量数据处理能力:能够处理PB级数据的多维分析和即席查询,支持高并发低延迟查询。4.实时性:支持数据的实时写入、实时更新和实时分析,满足对数据新鲜度要求高的业务场景。5.与大数据生态集成:与MaxCompute、Flink、DataWorks等阿里云产品深度融合,提供离在线
|
1月前
|
消息中间件 分布式计算 算法
大数据-67 Kafka 高级特性 分区 分配策略 Ranger、RoundRobin、Sticky、自定义分区器
大数据-67 Kafka 高级特性 分区 分配策略 Ranger、RoundRobin、Sticky、自定义分区器
46 3
|
3月前
|
存储 SQL 关系型数据库
实时计算 Flink版产品使用问题之如何高效地将各分片存储并跟踪每个分片的消费位置
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
4月前
|
SQL DataWorks 关系型数据库
DataWorks操作报错合集之分区表的分区数量已经达到或者超过系统允许的最大值,该如何解决
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
|
5月前
|
分布式计算 大数据 关系型数据库
MaxCompute产品使用问题之动态分区写入如何指定目标分区
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
108 2
|
5月前
|
机器学习/深度学习 SQL 分布式计算
MaxCompute产品使用问题之动态分区如何多分区写入
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
5月前
|
SQL 关系型数据库 Serverless
PolarDB产品使用问题之分区表中,一般建议多少条记录创建一个分区
PolarDB产品使用合集涵盖了从创建与管理、数据管理、性能优化与诊断、安全与合规到生态与集成、运维与支持等全方位的功能和服务,旨在帮助企业轻松构建高可用、高性能且易于管理的数据库环境,满足不同业务场景的需求。用户可以通过阿里云控制台、API、SDK等方式便捷地使用这些功能,实现数据库的高效运维与持续优化。