数据中台建设引擎Dataphin亲测体验报告一:功能完备性测评

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 作者:张骞 更多内容详见数据中台官网 https://dp.alibaba.com近期公司采购了阿里云智能数据构建与管理产品Dataphin,推广大数据和IT部门使用,说需要统一数据研发规范性,还要释放数据生产力,提高业务需求响应效率,作为大数据部门一个小分析师,有幸也体验了这个阿里云上神秘的产品,看看是哪里比较厉害,替代了原有的数据研发平台。

作者:张骞 更多内容详见数据中台官网 https://dp.alibaba.com

近期公司采购了阿里云智能数据构建与管理产品Dataphin,推广大数据和IT部门使用,说需要统一数据研发规范性,还要释放数据生产力,提高业务需求响应效率,作为大数据部门一个小分析师,有幸也体验了这个阿里云上神秘的产品,看看是哪里比较厉害,替代了原有的数据研发平台。

看外界宣传文章,说Dataphin主打OneData体系——OneModel、OneID、OneService,是阿里巴巴数据中台实践产品,听起来很有意思,本人就自己体验大概分享下优劣。

以下均基于个人经历背景、基于11月升级前的公共云版本,表达个人观点,不喜勿喷。
下面将以满分5分,对Dataphin打分。

功能完备性 评分:4.2分
点评:满足基本需求,部分功能待提升
概要:
从数据引入到数据最终使用,全套功能齐全:成员管理、计算设置、数据源配置、项目配置、数据引入同步、规范建模研发、代码&函数&资源开发、发布管理、运维管理、资产查找、资产可视化、资产权限。大数据建设,用一个Dataphin即可。
虽然基本需求都可以满足,但是部分业务场景,比如批量的调度节点操作、部分数据源同步,目前还不支持。

主要几块功能体验大概如下:
支持生产开发的研发模式
可以配置生产和开发环境隔离的研发模式,开发环境对象需要发布到生产环境才能生效,这样可以最大程度保证数据生产的稳定性。

支持14种数据库读写同步
官方目前支持了MySQL、PG、MongoDB、ADS、HBase、Vertica等14种数据库,还是很齐全的,上云的业务数据库基本都可以支持。
数据同步配置简洁,支持可视化的表单配置方式,也可以编写SQL清洗规则。
image

编辑器功能较全
脚本语言,Shell内置了一些常见python库使用,比较方便。
SQL代码,支持编辑器内智能提示,尤其逻辑表雪花模型式的提示和代码使用,比较方便快捷。
image

运维监控功能较全
日周月和小时分钟调度已经支持,DAG图也清晰容易操作(依赖上周期,也会特别标识,逻辑表调度任务会区分出来)。
基本的重跑、终止等等都可以进行,也可以做生产任务的监控报警。用起来还是挺顺手的。
image

资产功能体验不错
支持计算引擎里大数据计算存储MaxCompute的元数据采集解析,有个资产全景,可视化查看全局数据资产,这个还挺炫酷的。
image

资产元数据目前有基本的表结构、读写时间、关联任务、读取次数和存储量等,支持追溯字段粒度血缘关系,但是字段粒度的血缘关系不全(尤其物理表相关的),这个很有用,还是希望优化下。
支持数据探查,但是探查速度较慢。

关于创建项目的两三事
这个需要小吐槽下,所有工作开始之前,最重要的就是创建项目!但是目前步骤比较繁琐,让人有点晕。大致步骤就是:
①去MaxCompute创建Project(现在是基于Dataworks操作,还需要先开通Dataworks,有点烦);
②配置计算源;
③最后创建Dataphin的项目
这是什么神开端,为什么不能像PAI机器学习那样,直接在Dataphin新建项目,同时联动创建个MaxCompute Project呢?!不过还好,只是低频操作,希望后面可以改进下。
image

其他期待
目前研发流程还是比较复杂的,作为小企业,有时候不需要生产环境、开发环境两套,研发求的便捷,同时多配置一个计算源用于开发环境,也导致不必要IT资源开支。
数据同步灵活性还需要提升,OSS、DB2、SAP HANA等不支持,不支持脚本化配置清洗规则等。此外,如果同步数据量过大,也无法设置计算资源大小,大数据量做数据同步,头有点秃,最后只能写Shell脚本,但是Shell连接外部数据源需要显示填写AK信息,有些不安全、不便捷。
公共云有安全限制,Shell可安装引用的外部资源大小有限,不是很友好。
关于MR和Spark脚本,现在不支持调试,函数也不支持调试,比较太麻烦了。
关于SQL语法编辑器提示偶尔有些卡顿,期望可以持续优化下;另外建议支持编辑器改颜色等,长期黑色背景看累了,可以切换。
运维不支持看运维大盘,不支持批量管理任务,监控报警配置规则有限,不支持基线管理任务。
数据产出质量不能监控,比如空表、主键不唯一等等,现在都需要人工写Python实现。
(关于批量的问题,用到的时候才发现真的是企业级刚需,举个例子,有一次有个小伙伴离职,目前,我需要一个个找到他负责节点再转移负责人……关于基线的问题,有一批任务是Boss要看的,现在只能人肉盯是不是到点能运行完成,或者配置前置的一些定时的Shell任务做监测,任务失败就报警,达到监控目的)
权限不太用。(比如自己负责的表,还要自己审批下,申请其他资源,审批人是随机的…)
不支持配置数据API,开发出来的逻辑表数据,业务使用,还需要再多比较长的链路开发API

还有很多小而美的功能,已经整理给了采购部门做反馈,看是否有计划联系产品,申请迭代优化,精益求精。
听说后面会升级,支持单一生产环境的研发模式、可视化&组件化数据集成、自定义资源、数据服务升级、运维升级等,作为开发者,还是挺期待的,也提高研发流程的灵活性和扩展性,体验也可以提升。

结语:
阿里巴巴数据中台团队,致力于输出阿里云数据智能的最佳实践,助力每个企业建设自己的数据中台,进而共同实现新时代下的智能商业!
阿里巴巴数据中台解决方案,核心产品:
Dataphin,以阿里巴巴大数据核心方法论OneData为内核驱动,提供一站式数据构建与管理能力;
Quick BI,集阿里巴巴数据分析经验沉淀,提供一站式数据分析与展现能力;
Quick Audience,集阿里巴巴消费者洞察及营销经验,提供一站式人群圈选、洞察及营销投放能力,连接阿里巴巴商业,实现用户增长。
欢迎志同道合者一起成长!更多内容详见数据中台官网 https://dp.alibaba.com

相关实践学习
阿里云百炼xAnalyticDB PostgreSQL构建AIGC应用
通过该实验体验在阿里云百炼中构建企业专属知识库构建及应用全流程。同时体验使用ADB-PG向量检索引擎提供专属安全存储,保障企业数据隐私安全。
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
目录
相关文章
|
3月前
|
机器学习/深度学习 敏捷开发 存储
数据飞轮:激活数据中台的数据驱动引擎
数据飞轮:激活数据中台的数据驱动引擎
|
2月前
|
运维 数据处理 调度
Dataphin功能Tips系列(30)-限流配置
某大型电商平台在每天的凌晨时段需要进行大量的数据处理任务,比如订单处理、库存同步、用户行为分析等。此外,平台还需要定期进行历史数据的补数据工作,以确保数据完整性和一致性。在进行补数据时,如果需要补的历史时间周期比较长,这些批处理任务会消耗大量的计算资源,导致批处理任务(如订单处理、库存同步)响应变慢甚至超时失败,这是我们应该怎么保障每天的批处理任务(订单处理、库存同步)的按时产出?
|
2月前
Dataphin功能Tips系列(27)-排他编辑锁
在实际开发中,为了避免多人同时编辑同一份代码而导致的问题,通常会采用锁机制来保护代码。然而,普通的锁机制有时并不能完全阻止其他开发人员在编辑时抢占锁,这使得用户可互相覆盖锁定状态,在dataphin中如何解决这一问题?
Dataphin功能Tips系列(27)-排他编辑锁
|
3月前
|
消息中间件 Kafka 搜索推荐
|
3月前
|
调度 存储 数据库
|
3月前
|
API 开发工具
|
2月前
|
数据处理 调度
Dataphin功能Tips系列(31)-自定义资源组
某零售企业最近在做促销活动,希望保证某些数据处理任务(订单处理、库存更新)任务能够快速按时完成,如何保证这些高优任务的调度资源不被其他任务占用,能按时执行?
|
2月前
Dataphin功能Tips系列(29)-计算任务版本对比/版本回滚
开发人员小张先前编写的一个脚本,在进行了修订之后,发现逻辑出现了偏差,但他已经不记得前一版本的具体内容了。在这种情况下,应该怎样通过版本对比来看出两版脚本之间的差别,并且回滚到之前的版本呢?
|
2月前
|
调度 Python
Dataphin功能Tips系列(28)-跨节点参数
某经销零售企业,需要每天定时查询供应商的某个服务,以确认产品目录是否有变更,如果有变更,则全量拉取最新目录数据(数据量比较大,拉取一次成本很高),如果无变更则继续沿用上一次拉取的数据,在dataphin如何实现?