Dataphin是瓴羊旗下的智能数据建设与治理平台,是阿里巴巴多年内部数据建设与治理实践及方法论的产品化输出,致力于通过一站式智能化的数据建设及治理能力,帮助企业构建起生产经济、质量可靠、安全稳定、消费便捷的企业级数据资产。
1. Dataphin V4.4 版本升级功能点
01- 开发运维提效,实时计算适配湖仓一体解决方案
- 集成任务可基于指定数据源跨 schema 选择来源表,数据源管理成本大大降低
- 任务支持跨项目发布啦,可自动检测并勾选依赖的上游待发布对象,发布流程超丝滑
- 集成任务支持运行性能诊断,数据传输到底慢在哪?Dataphin 来告诉你
- 实时集成目标端支持多种数据湖表格式,适配湖仓一体解决方案
02- 数据源资产统一管理与运营
- 资产纳管更“全”:元数据采集拓展支持“大数据存储”类型的数据源
- 全新“指标管理”能力:上架表资产时可自定义指标资产,全局指标统一规范管理
- 资产信息更“丰富”:可自定义不同类型资产的属性,手动上架时可统一完善信息并配置资产使用说明
- 资产消费更“便捷”:部分“数据源表(MySQL/Oracle/Hive)”可对接Quick BI消费
03- 数据服务 API 开发配置优化,调用分析更便捷
- 新增 API 调用明细日志和存储配置,运维可观测性提升
- API配置流程优化,进一步提升易用性
- Dataphin API可注册为百炼大模型平台的应用插件,数据魔力 up up
04- 更多灵巧易用的功能优化
- 支持 Hadoop集群管理,可支持生产开发集群隔离
- 数据标准新增基于国标梳理的常用码表,快速冷启动
- 标签支持多种批量操作,开发上线效率进一步提升
2.新版本重点特性详解及应用场景示例
特性 1:集成任务性能诊断,任务排查不求人
应用场景:当前集成任务运行存在性能问题时难以识别,分析方法目前仅能通过日志信息分析才能获得问题根因,排查问题时间较长,并且可能影响客户项目进度。集成任务性能问题排查链路较确定,可通过产品化的方案分析集成任务各阶段可能存在的卡点,能够让此类问题在客户侧直接处理降低沟通成本及排查成本,避免客户任务阻塞影响项目进度。
功能概览:按照读写诊断、耗时操作诊断、内存GC时间诊断三个方向进行性能问题诊断,根据检测的指标推测可能存在的问题,并给出解决方案建议,具体如下:
- 读写诊断:采集数据源读(等待)、写(等待)时间占比,探查数据源的读写是否存在性能问题,若任一占比超过60%,则认为可能存在读写性能问题
- 耗时操作诊断:采集执行数据源相关操作的耗时,探查数据源的相关操作的性能问题,执行操作超过180s,即视为存在性能问题
- 内存GC时间诊断:采集jvm gc时间占比,探查当前的内存配置是否足够,当GC时间占当前运行时间比值超过30%,则认为可能存在内存问题
特性 2:跨Schema数据读取,减少数据源重复配置
应用场景:客户的数据存在于同一个数据源下的多个Schema中,比如PostgreSQL,集成任务创建时只能选择数据源登记时指定的Schema,若想完成多个Schema下的表同步需要按照Schema进行多个数据源创建,填写的信息是重复的。若数据源连接信息中提供的用户名及密码信息已具备访问多个Schema的权限,重复创建效率低且无意义。
功能概览:
- 集成任务输入输出组件都支持切换Schema,不再要求用户只能选择登记数据源时填写的Schema下的表,仅需登记一个数据源即;
- PostgreSQL、Oracle、Hologres、SAP HANA、Microsoft SQL Server都已支持;
特性 3:实时集成目标端支持Hudi以及MaxCompute delta
应用场景:为满足容纳多类型海量数据、降低存储成本,解决传统数据存储与分析的局限,部分客户已选择数据湖作为统一存储层以及统一的应用数据来源,数据入湖作为数据加工治理的第一步,统一的数据采集工具不可或缺。
功能限制:Hudi仅CDP类型的数据源和计算源支持此功能;
功能概览:实时集成目标端支持Hudi以及MaxCompute delta
特性 4:级联发布打破项目与任务类型隔离,实现一键快捷发布
应用场景:
研发的工作流程一般为
- 在 ODS 项目配置集成任务从数据源同步业务原始数据
- 在 CDM 项目完成 ETL 的清洗,模型构建
- 在 ADS 项目为不同的业务需求开发不同的指标和应用
一个需求完成后,需要发布的任务会分布在不同项目,任务类型各异
在 Dataphin v4.4 之前的版本中
- 每次只能发布单个项目下,某一种类型的任务
- 任务上游任务需要用户自行按照依赖顺序编排发布,当依赖分布在不同项目,类型各异时,操作复杂
功能概览:
Dataphin v4.4 版本全新特性,级联发布
- 待发布对象和发布记录不再分项目和类型,列举当前用户所有有权限的项目下的对象
- 发布时,系统自动级联获取已选待发布项的上游,操作效率极大提高
特性 5:元数据采集拓展大数据存储类型的数据源:Hive, Hologres, Starrocks
历史版本中,Dataphin 已支持多种关系型数据库的元数据采集,如 MySQL、Oracle、Postgre 等等,本期,采集源拓展“大数据存储”类型的数据源,包括:Starrocks、Hive(MySQL 元数据库)、Hologres,可采集表信息、字段信息、分区信息等等。
后续,我们在元数据清单或资产清单查询采集到的资产详情、也可以将资产上架到运营目录,进一步扩大可纳管的资产范围。
特性 6:数据源及物理表上的指标可上架资产运营目录
应用场景:
Dataphin支持了规范化的指标研发,基于指标的基础四要素(原子指标、统计粒度、统计周期、业务限定),配置化生成指标(物化表及代码),并可在资产目录上架,面向业务部门提供指标的检索及查看的功能。
存储在大数据平台或数据库中的存量指标,是不是也可以上架到Dataphin的资产目录,对业务部门提供检索、查看及申请权限呢?这样所有的指标均可在一个平台进行查看,而无需通过线下的方式进行维护。
功能概览:
- 可支持将数据源表及物理表中的字段上挂为指标,并可制定指标的统计周期和统计粒度可与规范建模的统计周期和业务对象关联,可填写原子指标和业务限定
- 可在目录上通过统计粒度、相关维度及所属汇总表进行指标的搜索,让指标检索更加简单
特性 7:上架资产时可完善"自定义属性"和"使用说明",资产内容更详实
应用场景:
判断一个资产是否可用,是否能解决自己的业务问题时,往往需要对这个资产有比较详细的理解,如数据更新频率、加工口径等等;此外,如果数据有问题,也希望能够快速找到相关负责人沟通解决。然而,当前目录展示的信息大多为系统属性,资产内容不够丰满,资产 owner 上架犹豫,担心有太多的答疑;分析用户也比较难判断资产也用性,消费活跃度不高。
功能概览:
Dataphin 全新推出“自定义属性管理”功能,可以为不同对象类型配置对应的属性让资产内容更加详实;此外,可以为每个资产配置对应的“使用说明”,为浏览者提供用数指引,从而减少不必要的重复沟通和答疑。
- 通过自定义属性快速构建资产元模型,丰富资产信息:每种对象类型的属性可独立配置,支持文本输入、下拉单选等多种填写方式。配置完成后,在资产上架过程中可以填写对应的属性值,如:开发负责人、归口管理部门、数据更新频率等
- 资产上架时可开启“使用说明”:支持多种字体和格式配置,可添加代码框、超链接、表格,兼容 Markdown 语法,快速为资产生成“自我介绍”。比如,上架指标的时候,我们可以把该指标的业务需求来源、加工口径、适用场景和范围、指标值示例等信息加到使用说明,并添加“关联指标”的查看链接,帮助资产消费人员快速理解指标含义判断是否符合业务诉求。
特性 8:AI 助力智能生成指标元数据,指标上架 so easy!
场景 1:自动识别并推荐指标和维度
- 数据家小D :咱们新增的自定义指标功能很好用,但是一张ADS表有几十上百个字段,要一个个判断哪些是维度那些是指标,还要手动配置,好难呀!
- Dataphin智能小助手:别担心!上架表的时候,我可以根据字段名称、数据类型、描述等信息自动帮你推荐可能存在的指标和维度字段,你可以根据实际情况调整或者清空推荐结果,省时又省力!
场景 2:基于大模型智能生成指标元数据
- 数据家小D :太好了!但是我还要给每个指标配置目录、标签、描述…还是好难呀!
- Dataphin智能小助手:依旧别担心!我可以调用Qwen大模型智能帮你生成这些信息,你只需要稍微调整再一键应用,高效又便捷!
Dataphin 智能元数据生成又升级啦!V4.3 版本中,我们支持了表资产的元数据智能生成,结合 V4.4 版本在编辑表过程中可以自定义指标的能力,指标自动判别和指标元数据智能生成同步升级,一次配置可以同时完成表资产和指标资产的上架,资产盘点效率大大提升!
特性 9:数据标准新增内置模板库,可一键引用,快速开启数据治理
数据治理的冷启动流程常常成为推进治理计划的阻碍:前期各方沟通协调多、流程长且配置较为繁琐,大量的人工操作聚焦于基础配置。基于此, Dataphin 新增内置标准模板库,本期基于国标文件、行政区划政策文件等梳理常用的码表,如:“中国行政区划”、“度量单位”、“货币代码”、“学历代码”、“经济类型分类代码”等,可一键引用添加,快速开始数据标准建设。
特性 10:数据服务可查看API调用明细日志及统计日志
应用场景:
- 在客户端调用API后,可查看返回的错误码,但是不清楚服务端是否接收到了这个请求,域名、APIID等信息是否正确等,需要在服务器端进行查看
- 高时延API对客户端的体验和服务端的稳定性都是一个挑战,因此需要对高时延的API进行针对性的优化
- 查看异常调用次数最多的API及影响最大的应用
以上这些都对API的运维提出了更高的要求。
功能概览:
- 可配置明细日志和统计日志的存储数据库(当前仅支持PostgreSQL)及存储时长,可分别对成功/失败日志、 1分钟/5分钟统计设置不同的存储时长,可选择内置存储(元数据库)及其他的PostgreSQL实例
- 可查看调用统计、异常影响分析、访问趋势分析、应用调用分析、API运行分析等
- 可查看调用明细日志,包括请求开始/结束时间、响应耗时、调用结果(成功/失败)、请求参数、返回结果条数、状态码、业务状态码、错误详情等信息
特性 11:Hadoop集群管理:拉开快捷创建计算源、单租户管理多集群的序幕
应用场景:
小A是公司数据部门的成员,日常工作中负责Hadoop计算源的维护。小A一直有以下3个烦恼:
- 每次创建Hadoop计算源时上传的文件和填写的信息大部分都相同,且所需要填写的信息较多
- 当Hadoop集群的信息变更,例如:Hive数据库的IP地址切换、krb5文件更新等,需要逐一修改所有的计算源
- 公司有开发和生产两套CDH6集群,而一个Dataphin租户只能管理一个Hadoop集群
功能限制:仅CDH 5.x、CDH 6.x、EMR 3.x、EMR 5.x、CDP、亚信DP、华为FusionInsight类型的计算引擎支持此功能。
功能概览:
- Hadoop集群管理:①支持新建、编辑、克隆、删除Hadoop集群;②支持查看Hadoop集群的历史版本,并可下载配置文件
- 快捷创建和修改Hadoop计算源:新建计算源时可选择“引用指定集群”,将与所选集群建立关联关系,后续集群变更信息将同步修改当前计算源
- 单租户可管理多集群:同一租户中支持管理多个Hadoop集群(温馨提示:一个计算任务仅能在一个集群中运行,不同Hadoop集群之间的数据无法进行联接操作)
特性 12:支持批量修改已上架标签和群组的类目
应用场景:客户类目体系会进行变动,且标签可能存在挂错了类目的情况,导致标签需要重新上架到指定类目,且变动频次不低;目前仅重新上架才可以切换资产类目,但是下架需要解除下游依赖,太重了;类目是偏管理的东西,属于资产组织的方式,不应该在开发侧进行绑定。
功能概览:支持修改已上架标签及群组的类目
特性 13:标签批量操作,管理更便捷
应用场景:
- 数据集映射标签多为批量创建,创建完成后需要进行发布才可被其他标签加工引用,单个标签依次发布效率低
- 标签服务场景多为某一个实体的多个标签同时对外提供数据,如批量开启在线服务
功能概览:
- 支持批量发布、下线、上架标签和群组
- 支持批量开启或关闭标签和群组的在线服务
- 支持项目下或应用下申请的标签批量移除
- 优化依赖检测信息展示
3、总结与展望
下个版本中,Dataphin 多引擎适配能力再升级,可对接华为GaussDB(DWS)、星环 TDH9.3.x 底座;小时任务调度策略配置更灵活,满足更多业务场景;进一步提升资产盘点效率,支持目录及资产配置的批量导入导出;资产目录浏览体验优化,可自定义筛选项和展示列;数据服务可支持不停服升级...更多精彩功能,敬请期待!
4. 往期版本升级回顾
- Dataphin V4.3重大升级:AI“弄潮儿”,数据资产智能化
- Dataphin V4.2重大升级:上线敏捷版,打通数据资产管理和消费,开启数据价值放大新篇章
- DataphinV4.1大升级: 支持Lindorm,上线“公共云半托管”自助新模式
- DataphinV4.0:自定义全局角色 ,实时研发覆盖全部署场景
- DataphinV3.14:数据研发突破全域覆盖,资产治理更加灵活可控
了解更多请前往官网: Dataphin智能建设与治理 >>
获取深度资料:Dataphin产品白皮书 >>