开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

dataworks数据生成后如何进行分区?

dataworks数据生成后如何进行分区?

展开
收起
爱喝咖啡嘿 2023-01-03 13:38:54 222 0
1 条回答
写回答
取消 提交回答
  • 由于数据生成后不会发生变化,因此可以很方便地根据数据的生成规律进行分区。较常见的是根据日期进行分区,例如每天1个分区。在RDS数据库中,执行下述语句准备数据。drop table if exists oplog;create table if not exists oplog(optime DATETIME,uname varchar(50),action varchar(50),status varchar(10));Insert into oplog values(str_to_date('2016-11-11','%Y-%m-%d'),'LiLei','SELECT','SUCCESS');Insert into oplog values(str_to_date('2016-11-12','%Y-%m-%d'),'HanMM','DESC','SUCCESS');上述的两条数据作为历史数据,需要先进行一次全量数据同步,将历史数据同步至昨天的分区。在数据开发页面,右键单击业务流程下的表,选择新建表。在新建表对话框中,输入表名(ods_oplog),单击提交。双击ods_oplog表,在右侧的编辑页面单击DDL模式,输入下述建表语句。--创建好MaxCompute表,按天进行分区。create table if not exists ods_oplog(optime datetime,uname string,action string,status string) partitioned by (ds string);配置同步历史数据的任务,详情请参见创建同步任务。测试同步任务成功后,单击节点编辑页面右侧的调度配置,勾选暂停调度并重新提交或发布,避免任务自动调度执行。执行下述语句,向RDS源头表中插入数据作为增量数据。insert into oplog values(CURRENT_DATE,'Jim','Update','SUCCESS');insert into oplog values(CURRENT_DATE,'Kate','Delete','Failed');insert into oplog values(CURRENT_DATE,'Lily','Drop','Failed');配置同步增量数据的任务。在数据来源中设置数据过滤为date_format https://help.aliyun.com/document_detail/137826.html——该回答整理自钉群“DataWorks交流群(答疑@机器人)”

    2023-01-06 10:47:37
    赞同 展开评论 打赏

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

相关产品

  • 大数据开发治理平台 DataWorks
  • 热门讨论

    热门文章

    相关电子书

    更多
    DataWorks全链路数据质量解决方案-2020飞天大数据平台实战应用第一季 立即下载
    DataWorks调度任务迁移最佳实践-2020飞天大数据平台实战应用第一季 立即下载
    DataWorks商业化资源组省钱秘籍-2020飞天大数据平台实战应用第一季 立即下载

    相关实验场景

    更多