DataWorks同步脚本报错怎么搞？

DataWorks同步脚本报错This error often occurs when a lot dirty data exists in the source data. Please carefully check the dirty data log information reported by DataX, or you can tune up the dirty data threshold value. ]. 怎么搞？

展开

收起

真的很搞笑 2023-12-03 17:10:36 91 0

4 条回答

写回答

取消提交回答

vohelon

写入报错https://help.aliyun.com/zh/dataworks/support/batch-synchronization?spm=a2c4g.11186623.0.i7

问题现象：

写入数据时，报错如下：Caused by: java.util.concurrent.ExecutionException: ERR-CODE: [TDDL-4614][ERR_EXECUTE_ON_MYSQL] Error occurs when execute on GROUP 'xxx' ATOM 'dockerxxxxx_xxxx_trace_shard_xxxx': Communications link failure The last packet successfully received from the server was 12,672 milliseconds ago. The last packet sent successfully to the server was 12,013 milliseconds ago. More...

可能原因：

慢查询导致SocketTimeout。TDDL默认连接数据的SocketTimeout是12秒，如果一个SQL在MySQL端执行超过12秒仍未返回，会报4614的错误。当数据量较大或服务端繁忙时，会偶尔出现该错误。

解决方法：

建议数据库稳定后，重新运行同步任务。

联系数据库管理员调整该超时时间。

2023-12-05 11:05:51

赞同展开评论打赏

sunrr

这个错误通常发生在源数据中存在大量脏数据时。请仔细检查DataX报告的脏数据日志信息，或者调整脏数据阈值。

解决方法：

检查DataX报告的脏数据日志信息，找出脏数据的具体原因。
根据脏数据的原因，调整脏数据阈值。在DataWorks同步脚本中，可以通过设置dirty_data_threshold参数来调整脏数据阈值。例如，将阈值设置为0.5，表示当脏数据的占比超过50%时，DataX会报错。修改后的同步脚本如下：

{
    "job": {
        "setting": {
            "speed": {
                "channel": 1
            }
        },
        "content": [
            {
                "reader": {
                    "name": "odpsreader",
                    "parameter": {
                        "accessId": "your_access_id",
                        "accessKey": "your_access_key",
                        "project": "your_project",
                        "table": "your_table",
                        "partition": "your_partition",
                        "endpoint": "your_endpoint",
                        "dirty_data_threshold": 0.5,  # 设置脏数据阈值为0.5
                        ...
                    }
                },
                "writer": {
                    "name": "hdfswriter",
                    "parameter": {
                        "defaultFS": "hdfs://your_hdfs_host:your_hdfs_port",
                        "fileType": "text",
                        "path": "your_hdfs_path",
                        ...
                    }
                }
            }
        ]
    }
}

根据实际情况，调整脏数据阈值后，重新运行DataWorks同步脚本，看是否还会出现相同的错误。

2023-12-04 17:52:44

赞同展开评论打赏

芯在这

看下百问百答脏数据篇 https://developer.aliyun.com/article/748252?spm=a2c6h.12873581.0.dArticle748252.1ec43740LqNDlu&groupCode=dataworks ，此回答整理自钉群“DataWorks交流群(答疑@机器人)”

2023-12-03 23:23:23

赞同展开评论打赏
小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。
这个错误通常发生在源数据中存在大量脏数据时。请仔细检查DataX报告的脏数据日志信息，或者调整脏数据阈值值。

解决方法：
1. 检查DataX报告的脏数据日志信息，找出具体的脏数据来源和数量。
2. 根据脏数据的来源和数量，调整脏数据阈值值。在DataWorks控制台中，找到ODPS SQL节点的配置页面，修改脏数据阈值值。例如，将阈值设置为一个较小的值，以便在同步过程中忽略较少的脏数据。
3. 保存配置更改并重新运行同步任务。如果问题仍然存在，可以尝试进一步调整脏数据阈值值，或者联系DataWorks技术支持团队寻求帮助。
2023-12-03 18:06:31

赞同展开评论打赏