开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

DataWorks我这边设置整库实时同步。这个实时同步是第二天出现新数据还是五分钟后出现新数据呢?

DataWorks我这边设置整库实时同步。数据先写到log表第二天在合并。任务建成后出现了三个任务节点,这三个任务节点我将他的时间设置成每5分钟运行一次。那么这个实时同步是第二天出现新数据还是五分钟后出现新数据呢?

展开
收起
真的很搞笑 2023-10-24 16:02:54 87 0
4 条回答
写回答
取消 提交回答
  • 根据您的描述,您设置了整库实时同步,并且数据先写入log表,第二天再进行合并。同时,您将三个任务节点的时间设置为每5分钟运行一次。

    在这种情况下,实时同步会在五分钟后出现新数据。因为当您设置任务节点的时间为每5分钟运行时,DataWorks会按照这个时间间隔来触发任务的执行。所以,当任务节点被触发时,它会检查是否有新的数据需要同步,如果有,就会进行同步操作。

    需要注意的是,由于您设置了数据先写入log表,第二天再进行合并,所以在第一天的数据同步过程中,新产生的数据并不会立即出现在目标表中。只有在第二天进行合并操作后,这些新产生的数据才会被合并到目标表中。

    2023-10-29 19:17:50
    赞同 展开评论 打赏
  • 根据你的描述,你设置了整库实时同步任务,该任务将数据首先写入一个日志表(log表),然后在第二天进行数据合并。你还将任务的时间间隔设置为每5分钟运行一次。

    在这种情况下,数据的实时同步和合并过程如下:

    1. 每5分钟,任务会运行一次,将新的数据写入日志表。

    2. 数据写入日志表的频率是每5分钟,所以数据实时同步是每5分钟出现新数据。

    3. 但是,数据合并过程在第二天进行,即在下一天的某个时间点,将前一天的数据合并到目标表中。合并过程不是实时的,而是按照你设置的合并时间进行的。

    因此,实时同步是每5分钟出现新数据,但实际数据合并是在第二天进行的。合并时间取决于你设置的时间间隔和任务配置,通常在任务创建时可以设置合并时间,也可以在任务的调度设置中进行调整。

    2023-10-25 14:20:44
    赞同 展开评论 打赏
  • 是merge到MaxCompute 表吗 目前是T+1 merge的 改成5分钟应该也不行,会出现数据问题,此回答整理自钉群“DataWorks交流群(答疑@机器人)”

    2023-10-24 22:46:22
    赞同 展开评论 打赏
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    如果您将这三个任务节点的时间设置为每5分钟运行一次,那么这个实时同步任务将会每5分钟运行一次,而不是等到第二天才运行。当这个任务运行时,它会从log表中读取新的数据,并将其同步到目标表中。因此,实时同步的任务将会实时地同步log表中的新数据到目标表中。
    需要注意的是,实时同步任务的频率和时间间隔可以根据实际需求进行设置。例如,您可能需要根据数据的更新频率和处理能力,调整任务的频率和时间间隔。此外,实时同步任务需要消耗一定的计算资源和网络带宽,因此建议您在设置任务参数时,考虑实际的资源限制和网络状况。

    2023-10-24 22:31:52
    赞同 展开评论 打赏

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

相关产品

  • 大数据开发治理平台 DataWorks
  • 热门讨论

    热门文章

    相关电子书

    更多
    DataWorks数据集成实时同步最佳实践(含内测邀请)-2020飞天大数据平台实战应用第一季 立即下载
    DataWorks调度任务迁移最佳实践-2020飞天大数据平台实战应用第一季 立即下载
    基于DataWorks数据服务构建疫情大屏-2020飞天大数据平台实战应用第一季 立即下载

    相关实验场景

    更多