备案控制台

开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

DataWorks背景：有个odps任务，往事物表里插入数据；重跑一次a1的值翻一倍，为什么?

DataWorks背景：有个odps任务，往事物表里插入数据；有个调度任务把odps表数据同步业务库。问题：当odps任务出错，在运维管理收到点击重跑，事物表本来有一条比如code为a1值为10。重跑一次a1的值为啥翻一倍?

展开

收起

真的很搞笑 2024-01-22 19:10:03 87 0

2 条回答

写回答

取消提交回答

芯在这

看下任务配置的数据去向端有没有设置清空写入大概率是没有设置清空写入导致的，此回答整理自钉群“DataWorks交流群(答疑@机器人)”

2024-01-23 08:06:31

赞同展开评论打赏
小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。
在DataWorks中，当ODPS任务出错并重新运行时，数据的值可能会翻倍的原因可能有以下几点：
1. 插入操作重复执行：如果重跑的任务包含了插入操作，而没有先进行删除或清空操作，那么在重跑时会再次将相同的数据插入到表中，导致数据的重复。例如，原本表中有一条code为a1值为10的数据，重跑后会再次插入一条相同的数据，导致表中出现两条相同的数据，从而使得总值翻倍。
2. 更新操作重复执行：如果重跑的任务包含了更新操作，并且更新的条件是匹配到已经存在的数据，那么在重跑时会再次对相同的数据进行更新操作，导致数据的重复更新。例如，原本表中有一条code为a1值为10的数据，重跑后会再次对该数据进行更新操作，将值翻倍为20，从而使得总值翻倍。
为了避免数据翻倍的情况发生，可以采取以下措施：
1. 在重跑任务之前，先进行数据清理操作，例如删除或清空表中的数据，确保重跑任务时表中没有重复的数据。
2. 在编写任务逻辑时，考虑使用幂等性操作，即无论操作执行多少次，结果都是相同的。例如，使用UPDATE操作而不是INSERT操作来更新数据，确保每次操作只针对需要更新的数据进行操作。
3. 在任务调度过程中，确保任务的依赖关系正确设置，避免重复执行相同的任务。可以通过设置任务的依赖关系、使用锁机制等方式来实现。
综上所述，当ODPS任务出错并重新运行时，数据的值可能会翻倍的原因是由于插入或更新操作重复执行导致的。为了解决这个问题，可以在重跑任务之前进行数据清理操作，或者在编写任务逻辑时考虑使用幂等性操作，并确保任务的依赖关系正确设置。
2024-01-22 21:38:01

赞同展开评论打赏

问答分类：

分布式计算 MaxCompute DataWorks 调度运维云原生大数据计算服务 MaxCompute 大数据开发治理平台 DataWorks

问答标签：

大数据开发治理平台 DataWorks任务云原生大数据计算服务 MaxCompute数据大数据开发治理平台 DataWorks数据云原生大数据计算服务 MaxCompute任务 dataworks云原生大数据计算服务 MaxCompute数据

问答地址：

开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 问答

相关产品：

大数据开发治理平台 DataWorks

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

相关问答

DataWorks公共资源组使用背景

42

1

0

DataWorks天任务依赖分钟任务最佳实践背景信息是什么？

58

2

0

DataWorks如何配置DataHub输出背景信息？

63

5

0

DataWorks创建MaxCompute资源背景信息是什么？

43

3

0

DataWorks如何配置查看整库离线同步任务背景信息？

43

4

0

本地pyodps 向 dataworks表中插入数据（非覆盖 )，有demo吗？

56

1

0

DataWorks中 ots 新建表，插入数据方式？

152

2

0

DataWorks分库分表同步背景信息是什么？

50

5

0

dataworks要定期向 rds 插入数据，这可以通过dataworks来实现么？

53

1

0

dataworks 中在 shell 脚本里如何直连 rds 插入数据？

46

1

0

大数据与机器学习

大数据开发治理DataWorks

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎，为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

我要提问

相关产品

大数据开发治理平台 DataWorks

文档详情产品详情

热门讨论

热门文章

DataWorks中78xxxxx_out的输出是什么?

DataWorks我该如何访问A项目安装了项目的package资源？

数据来源：com.alibaba.fastjson.JSONException: syntax er

dataworks里面的stg层、ods层、dwd层、dws层、是怎么分层的呢？

数据服务报429请求次数过多咋办呀

请教一下DataWorks，doris和starRocks 选型，选哪个？

钉钉OA审批中所在部门信息，怎样传才能显示带上级部门信息的数据？

DataWorks简单模式和标准模式的区别是什么？

百问求答（7）DataWorks专场！回答问题赢多功能除菌器！

DataWorks中oracle reader splitPk支持字符串类型是什么？

展开全部

DataWorks售前咨询

DataWorks：新一代 Data+AI 数据开发与数据治理平台演进

DataWorks产品使用合集之怎么将数据导入或写入到 Hologres

2万字揭秘阿里巴巴数据治理平台DataWorks建设实践

限时优惠体验！DataWorks数据治理中心全新升级为数据资产治理

DataWorks Copilot：让你的数据质量覆盖率一键飞升！

DataWorks操作报错合集之配置项目连通oss数据源 , 报The request signature we calculated does not match the signature you provided.如何解决

DataWorks智能交互式数据开发与分析之旅

大数据&AI的16种可能，2020阿里云客户最佳实践合集下载

大数据公共数据集上线，免费试用TB级数据分析

展开全部

相关课程

更多

大数据Spark2020最新课程（知识精讲与实战演练）第二阶段

237

77

去学习

大数据Spark2020版（知识精讲与实战演练）第三阶段

138

72

去学习

大数据Spark2020版（知识精讲与实战演练）第四阶段

174

20

去学习

2020版大数据实战项目之DMP广告系统（第二阶段）

157

22

去学习

2020版大数据实战项目之DMP广告系统（第三阶段）

140

9

去学习

2020版大数据实战项目之DMP广告系统（第四阶段）

67

18

去学习

相关电子书

更多

Data+AI时代大数据平台应该如何建设 立即下载

大数据AI一体化的解读 立即下载

极氪大数据 Serverless 应用实践 立即下载

相关实验场景

更多