看我如何用Dataphin实现自动化建模

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
可视分析地图(DataV-Atlas),3 个项目,100M 存储空间
简介: 数据小海豚,作为Dataphin测试用户,他梳理了试用Dataphin完成自动化建模的分步教程。

前言:更多关于数智化转型、数据中台内容可扫码加群一起探讨
668d7f5941782665ed1f41529db3eb677f4b9379.png
阿里云数据中台官网 https://dp.alibaba.com/index


作者:数据小海豚

随着大数据趋势的迅速增长,数据的重要性与日俱增,企业内看数据、用数据的诉求越来越强烈,其中最常见的就是各种经营报表数据:

老板早晨9点准时需要看到企业核心的经营数据,以便进行企业战略及方向决策
业务负责人不定期进行个性化的项目筹划,需要多维、及时效果数据以优化项目安排
运营需要和高层一致但粒度不同的经营分析数据,并进行活动策略调整
……

举个经营报表的例子:
image.png

这个例子并不复杂,但是对于分析师或者业务开发者,实际执行的复杂度和工作量并不小,而且类似的工作每日都在重复……业务发展越快,带来的问题就越来越多:

  加工时间长、人工成本高,招再多的分析师也难以满足需求
  代码可读性差,数据可维护性差,类似需求需要反复、重复开发
  代码开发不规范,加工过程中难以避免的计算存储浪费
  得到的数据指标,复用性差导致重复建设,数据越来越不标准规范

这种情况下,对业务的直接影响就是:决策周期长(数据需求满足慢),决策易出错(数据指标口径不一致)。

既要保证数据生产时效性——及时产出数据并满足需求,又要支持数据多样性——企业自下而上不同业务分析场景,最后还要保证数据准确性——任何时间、不同岗位的人都能用同样的数据解读经营情况,怎么才能做到呢?

企业的发展加速,离不开20世纪的文档管理转到21世纪的信息管理。同样的,如果繁复的指标代码编写工作,也可以如计算器一般,界面可视化点选,复杂的代码研发过程由计算器自行处理完成就好了。

Dataphin的自动化建模功能,就可以很好实现这个能力。

1、选择组合条件

如下图,确定需要统计计算的值,Dataphin里称为“原子指标”——最小的数据值统计单元,比如用户数这样的统计值等,然后组合如下内容:

  • A. 统计计算值需要应用的分析对象,Dataphin里称为“统计粒度”——维度或维度的组合,比如用户星级、用户状态等
  • B. 数据统计计算的时间周期,Dataphin里称为“统计周期”——统计数据需要跨越的时间长度,比如最近1天、最近30天、自然周、自然月的等
  • C. 数据统计的其他个性化限定条件,Dataphin里称为“业务限定”——数据记录的筛选过滤条件,比如生鲜业务类型、PC端、女性等
    image.png

2 预览指标

选择完毕组合条件后,可以预览组合出来的派生指标:
1)组合的指标,默认名取“原子指标+时间周期+业务限定”组合名,保证命名标准规范。
2)历史已生成的组合,不再生成,保证指标建设统一,无重复
image.png

3 一键自动化生成

确认需要提交的指标后,一键【提交】,分钟级指标生成:
1)自动汇聚至以“统计粒度为主题”的汇总逻辑表表下,保证管理标准规范;
2)代码和调度依赖关系,系统自动生成;
3)派生指标基于汇总逻辑表,可快速雪花模型查询使用指标、分析对象的属性信息。

image.png

①派生指标自动汇聚至汇总逻辑表
②派生指标所在汇总表节点,代码及调度关系自动生成
image.png

③汇总表及派生指标可查询消费
image.png

4 复杂需求实现

上面主要是基于简单统计指标实现,实际上,报表需求还有类似 比率型、乘积型等复合统计方式,比如“客单价=销售额/客户数”,这类也可以通过Dataphin的衍生原子指标实现:

1)衍生原子指标是基于原子指标的再组合;
image.png

2)基于衍生原子指标新建派生指标时,需要保证拆解到最细粒度的原子指标,有相同的分析维度、时间周期,允许维度的计算路径不同、设置的业务限定不同。

①新建衍生原子指标
②基于衍生原子指标新建派生指标
image.png

总结

上面步骤可以看到,派生指标的计算生成,离不开原子指标、业务限定、统计粒度的协助,这其中有什么奥秘呢?

其实很简单,用Dataphin高效创建派生指标,掌握这1张图就够了:

1)原子指标为核心,原子指标的来源表为中心
2)统计粒度取自来源表的关联维度,以及关联维度上的关联维度
3)业务限定基于来源表为中心的雪花模型做定义
4)统计周期可任意搭配使用
image.png


数据中台是企业数智化的新基建,阿里巴巴认为数据中台是集方法论、工具、组织于一体的,“快”、“准”、“全”、“统”、“通”的智能大数据体系。目前正通过阿里云数据中台解决方案对外输出,包括零售金融互联网政务等领域,其中核心产品有:

官方站点:
数据中台官网 https://dp.alibaba.com
数据中台钉钉群二维码2.jpg


相关实践学习
阿里云百炼xAnalyticDB PostgreSQL构建AIGC应用
通过该实验体验在阿里云百炼中构建企业专属知识库构建及应用全流程。同时体验使用ADB-PG向量检索引擎提供专属安全存储,保障企业数据隐私安全。
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
相关文章
|
SQL 数据采集 分布式计算
Dataphin功能大图(三)研发:设计即研发,规范建模保障数据模型与代码的一致性
在《Dataphin核心功能: 规划功能》一文中, 讲到过Dataphin的OneModel方法论将数据建设分为四层, 分别为主题域模型(建模), 概念模型, 逻辑模型和分析模型。本文将继续展开逻辑模型和分析模型的讲解。
Dataphin功能大图(三)研发:设计即研发,规范建模保障数据模型与代码的一致性
|
数据采集 存储 运维
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——(二)研发:集成、建模、发布、运维(1)
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——(二)研发:集成、建模、发布、运维(1)
663 0
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——(二)研发:集成、建模、发布、运维(1)
|
数据采集 SQL 运维
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——(二)研发:集成、建模、发布、运维(2)
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——(二)研发:集成、建模、发布、运维(2)
653 0
|
数据采集 SQL 运维
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——(二)研发:集成、建模、发布、运维(3)
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——(二)研发:集成、建模、发布、运维(3)
538 0
|
SQL 数据采集 运维
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——(二)研发:集成、建模、发布、运维(4)
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——(二)研发:集成、建模、发布、运维(4)
537 0
|
运维 监控 机器人
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——(二)研发:集成、建模、发布、运维(6)
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——(二)研发:集成、建模、发布、运维(6)
483 0
|
运维 资源调度 监控
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——(二)研发:集成、建模、发布、运维(7)
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——(二)研发:集成、建模、发布、运维(7)
467 0
|
数据采集 SQL 运维
Dataphin V3.8 版本发布丨持续提升规范建模、研发易用性、数据治理等相关能力
本次发布的V3.8版本中,Dataphin提升了客制化的能力,针对不同的客户的业务场景、组织架构和管理职责进行了适配性的升级,并持续提升了规范建模的能力以及研发的易用性。在下一个版本中,我们将针对数据治理的相关能力进行升级,简化操作链路,持续提升用户体验。
Dataphin V3.8 版本发布丨持续提升规范建模、研发易用性、数据治理等相关能力
|
机器学习/深度学习 数据采集 存储
全自动化机器学习建模!效果吊打初级炼丹师! ⛵
全自动化机器学习建模!效果吊打初级炼丹师!本文汇总了常见开源库,PyCaret、H2O AutoML、TPOT、Auto-sklearn、FLAML、EvalML、AutoKeras、Auto-ViML、AutoGluon、MLBox,一起用起来吧!
2917 1
全自动化机器学习建模!效果吊打初级炼丹师! ⛵
|
运维 监控 调度
【Dataphin智能运维】智能基线,自动化预警代替人工监控
DataphinV3.6版本全新上线智能运维模块,支持基线监控和调度限流功能。基线监控能够快速捕捉导致基线上的任务无法按时完成的异常情况并提前预警,保障复杂依赖场景下重要数据能在预期时间内顺利产出,帮助您降低人工配置成本、提升监控及时性和准确性、避免无效报警,运维人员的好帮手,管理者的福音!
【Dataphin智能运维】智能基线,自动化预警代替人工监控

相关产品

  • 智能数据建设与治理 Dataphin