开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

请问同步任务到hdfs目标端,来源端字段类型double,如何不进行这个判定或者让脏数据写到目标端?

咨询一下,同步任务写到hdfs目标端,来源端的字段类型是double,里面的字段值为空,写hdfs目标端的时候,目标字段类型是double,空值被判定为脏数据了,导致最后表中数据变少了,如何不进行这个判定或者让脏数据也能写到目标端?

展开
收起
哒哒哒哒哒~ 2023-03-08 10:55:45 209 0
2 条回答
写回答
取消 提交回答
  • 发表文章、提出问题、分享经验、结交志同道合的朋友

    数据映射有个脏数据控制:用于定义脏数据阈值,及对任务的影响。 重要 当脏数据过多时,会影响同步任务的整体同步速度。

    • 不配置时默认允许脏数据,即任务产生脏数据时不影响任务执行。

    • 配置为0,表示不允许脏数据存在。如果同步过程中产生脏数据,任务将失败退出。

    • 允许脏数据并设置其阈值时: 若产生的脏数据在阈值范围内,同步任务将忽略脏数据(即不会写入目标端),并正常执行。 若产生的脏数据超出阈值范围,同步任务将失败退出。

    2023-03-25 09:47:09
    赞同 展开评论 打赏
  • 空字符串判定为脏数据是么,源端是什么数据库。mysql之类的可以用函数替换成0 再写入目标端。此答案整理自钉群“DataWorks交流群(答疑@机器人)”

    2023-03-09 09:31:09
    赞同 展开评论 打赏

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

相关电子书

更多
海量数据分布式存储——Apache HDFS之最新进展 立即下载
低代码开发师(初级)实战教程 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载