在Dataphin 调度运维时,针对周期任务,我们需要配置哪些关键信息?
• 优先级:支持最高、高、中等、低、最低 5 种优先级,影响调度资源的分配。
对于需要重点保障的任务,可以通过设置高优先级配置保证资源优先分配。
• 调度类型:支持正常调度、空跑调度、暂停调度三种方式。空跑调度的任务生成的所有实例直接空跑成功,不会真正运行;暂停调度的任务生成的实例均为暂停运行状态,常用于经常需要暂停某些链路上的数据更新、又不希望频繁下线任务或修改依赖的场景。
• 调度周期:支持分钟、小时、日、周、月调度,不同调度周期对应不同的运行频率,并支持配置每个实例的定时调度时间。如抽数任务,需要每小时从业务库抽取上一小时新增的订单数据,再进行销售总额的合并计算,则需要配置调度周期为“小时”,开始运行时间为每个整点,以保证数据时效性。
• 上游依赖:提供自动依赖解析能力,可以基于 SQL 详情解析出存在数据依赖的上游任务并自动添加。对于不存在数据依赖关系但是有调度依赖的上游(如用于检查数据变化情况的 check 任务),可以手动搜索添加。
• 依赖上周期:支持配置依赖任务自身或其他任务的上一周期实例。有时为了防止多个实例同时运行造成的数据冲突或重复,需要保证每个任务同一时间只有一个任务在运行,此时可以配置“自依赖”,如“截止当日销售总额”任务,计算口径为“前一日销售总额+当日销售总额”。另外一些场景下,任务运行完成时间较晚,对于数据时效性要求不严格的下游,可以配置依赖该任务的上周期。
以上内容摘自《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》电子书,点击https://developer.aliyun.com/ebook/download/7832可下载完整版。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。