1) 规范性问题 • 表命名不规范,缺乏管控:随着数据量增长,大淘系的表出现了大量命名未遵 循阿里大数据体系的情况,难以管控。
2) 通用层复用性问题 • 通用层表复用性不高:通用层表下游引用少于 2 个的数量非常多; • 通用层建设不足或通用层透出不足:cdm 引用下降,ads 引用上升; • 较多的 ads 表共性逻辑未下沉:出现很多 ads 表代码重复,字段相似度高的情 况。
3) 应用层效率问题 • 临时表多,影响数据管理:出现了很多 TDDL 临时表、PAI 临时表、机器临时表、 压测临时表等; • 通用层表在各团队分布不合理:散布多个团队; • 较多的 ads 表共性逻辑未下沉; • 部分 ads 表层内依赖深度较深:很多 ads 表在应用层的深度超过 10 层; • 应用层跨集市依赖问题明显:不同集市间 ads 互相依赖,不仅影响了数据稳定 性,而且数据准确性也难以保障; • 存在大量的可交接的通用层表:不同团队的通用层数据与大淘系数据混合在一起; • 表人员分配不均衡:表 owner 管理的表数量分布很不均匀,有些 owner 名下只有几十张,有些 owner 名下有几千张。
以上内容摘自《大数据&AI实战派 第1期》电子书,点击https://developer.aliyun.com/ebook/download/7722 可下载完整版
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。