DataWorks数据质量配置datahub规则的要求是什么?
配置DataWorks数据质量规则主要遵循以下要求:
指标具体性:选择直观且能精准反应数据质量问题的指标,如空值率、重复率等。
门槛明确:给出每个指标对应的合理门槛值,超过则判定为质量问题。
告警级别分明:分级别高低设定不同的告警级别,有警(yellow)、中警(orange)、重警(red)等。
触发周期合理:根据业务需求设定规则触发检查的周期,可以是每日/每小时/每分钟。
影响度评判:区分问题的影响范围和严重程度,给出相应影响分值。
处理责任明确:明确每个数据质量规则对应的处理团队或人员。
重复值精准:尽量避免重复定义相似的规则。
动态调整:根据问题反映及时优化规则配置,减少误报。
配置数据质量规则时所使用的datahub的数据源要求:
①使用公共数据集成资源组测试其连通性
②datahub数据源的endpoint只能使用公网endpoint
③datahub数据源的endpoint仅支持http开头,不支持https开头,此回答整理自钉群“DataWorks交流群(答疑@机器人)”
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。