DataWorks最近感觉离线同步的任务执行时间比之前长很多,速度也慢了很多,什么原因呢?凌晨资源使用率快到100%了,请问什么问题呢,同不数量没变,同步任务没变?
买的独享调度资源,在凌晨1点到4点,峰值最高,经常会有失败调度
DataWorks离线同步任务执行时间变长、速度变慢的可能原因如下:
数据量过大。源表中的每个数据行都需要被抽取、转换和加载,数据量的增大将导致同步任务执行时间增长。
源表复杂 join 操作。如果源表中需要进行复杂的 join 操作,会使同步任务执行变慢,处理时间大大增加。
源表存在较多不必要的字段。如果源表中有很多字段,但只有一部分(或可能只有一个字段)是需要被同步到目标表上的,那么同步任务执行的速度会变慢。
同步过程中存在空记录。如果同步任务中存在大量的空记录,这将影响数据处理的速度。
目标表维护不当。如果目标表过于复杂,或表结构不合理,也会导致同步任务执行缓慢。
并发度设置不当。数据同步策略的并发度设置不当,一般情况下,过于频繁的进行增量同步可能会导致同步任务执行缓慢。
网络连接问题。如果目标服务器和源服务器之间的网络出现问题,将会影响同步任务的执行速度。
数据迁移时数据类型不匹配。如果源表和目标表数据结构类型不匹配,导致数据在迁移的过程中需要进行转换和处理,从而导致同步任务变慢。
过多的ETL转换。在数据处理的过程中存在多次的数据转化和处理,可能会导致处理时间过长。
对的 是脚本模式的,一个运行中的任务 占用一个并发 凌晨任务同时执行的个数到达了资源组并发的上限 任务慢也有可能导致水位高的时间持续久,此回答整理自钉群“DataWorks交流群(答疑@机器人)”
在 DataWorks 中,如果离线同步任务的执行时间比之前长很多,速度也慢了很多,可能是由于以下原因导致的:
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。