Dataphin是瓴羊旗下的智能数据建设与治理平台,是阿里巴巴多年内部数据建设与治理实践及方法论的产品化输出,致力于通过一站式智能化的数据建设及治理能力,帮助企业构建起生产经济、质量可靠、安全稳定、消费便捷的企业级数据资产。
1. Dataphin V4.2 版本核心升级功能点
01- 支持多版本模式
- 发布Dataphin敏捷版:企业数据开发性价比之选
02- 平台支持企业级适配,适配企业特色
- 跨租户发布:跨租户发布期间允许所有用户进行简易研发和运维;
- 资源调度:支持通过注册的调度集群连接另一网络中的数据库,避免数据跨网络传输;
03-研发体验优化,加速企业数字能力建设
- 离线集成:RDBMS支持datetime类型的字段作为切分键;多组件优化;
- 离线研发:数据库 SQL 支持 Presto
- 实时研发:实时集成支持在运维侧下载查看脏数据
04-资产治理能力提升,保障企业数据质量与安全
- 安全:支持目录配置分类管理权限和脱敏规则,管控更灵活
05-资产运营与消费升级,助力平台精细化运营
- 资产目录:支持将资产盘点编目后按专题开放给不同的用户群体
- 资产消费:可快捷创建 Quick BI 分析任务,统一管理消费权限,缩短消费链路
2. 新版本重点特性详解及应用场景示例
2.1 特性 1:数据量小、需求简单?Dataphin敏捷版轻松搞定!
- Dataphin敏捷版具备完善的数据集成、易用数仓开发等优势,极具性价比。
2.2 特性 2:跨租户发布期间允许所有用户进行简易研发和运维
- 应用场景:
Dataphin作为企业级的数据平台,用户来源于公司不同的团队。在之前版本的跨租户发布期间,非“跨租户发布使用人”的用户都无法正常进入当前租户,影响工作效率。
- 功能概览:
支持所有非“跨租户发布人”的用户正常访问当前租户,包括“研发”、“分析”、“资产清单”和“权限管理”模块,允许用户进行简易研发和运维。为了保障所发布的内容是最新的版本,不支持用户提交Basic项目的任务和发布Dev项目的任务,也不支持对已经提交或发布的任务进行下线和删除。
2.3 特性 3:支持通过注册调度集群访问各网络环境中的数据源,避免数据跨网络传输
- 应用场景:
Dataphin实例与数据库处于不同的网络环境中,需要使用Dataphin将数据库的数据同步到另一数据库中,例如:Dataphin部署在云上,数据库A和B部署在本地机房,需要将数据库A的数据同步到数据库B中。如果采用公网传输的方式,存在安全性低、流量成本高等问题。
- 功能概览:
- 支持在创建Oracle、MySQL、SQLserver和PostgreSQL类型的数据源时,测试数据源与默认集群(用于部署Dataphin的集群)、注册调度集群的连通性,允许保存与注册调集群度网络相通的数据源;
- 支持使用上述数据源创建集成任务,将集成任务运行在基于注册调度集群的资源组中,可以避免跨网络传输数据的问题。
2.4 特性 4:实时集成支持在运维侧下载查看任务运行过程中产生的脏数据
- 应用场景:
在实时集成任务运行过程中,可能由于多种原因造成数据同步过程中出现不准确、不完整或格式错误的脏数据。对于这些脏数据,能够下载并进行查看对于维护数据的一致性和可用性非常关键。
假设你正在同步一个电子商务平台的订单数据库到数据仓库中。如果同步过程中产生了脏数据,可能会影响库存管理、财务报告或用户购物体验。支持下载和查看这些脏数据可以帮助及时纠正库存冗余或缺货,以及财务上的不一致。
- 功能概览:
支持在实时集成任务实例的运行日志中下载查看在运行过程中产生的脏数据。
2.5 特性 5:全新上线数据源的元数据采集与管理,助力构建企业级统一元数据中心
- 应用场景:
在数据驱动业务增长的时代,企业对数据的依赖程度日益加深,越来越多的数据管理者希望能有一个平台可以对全局所有数据资产进行统一、有效的管理。元数据(metadata),作为“描述数据的数据”,成为了高效组织和检索数据资产的关键。无论是分析师期望快速查找和理解数据,还是CIO寻求强化数据合规性与数据质量的提升,都可以以元数据的统一采集与管理为起点,通过元数据丰富盘活全局数据资产,并结合治理工具提升数据价值,帮助不同岗位的用户获得更多的数据洞察力,挖掘出隐藏在数据中的价值。
- 开发:在进行数据同步、开发数据库 SQL时,可以查看数据源表的表结构、字段详情,并结合表的使用说明判断是否符合业务需求、是否涉及重复开发等,提升开发效率和准确率
- 治理:结合从数据源采集的元数据对象,可补齐全链路血缘,帮助进行影响分析;此外,对数据源表进行落标稽核、分类分级打标、质量稽核等操作,可从源端保证数据的规范性和一致性,全面提升数据可用性
- 资产管理与运营:在数据供给侧汇聚全域数据,可以厘清企业数据资产概况,体系化地组织数据并丰富数据信息,同时结合数据运营培训及推广,建立良好的资产检索和确信体验。
- 资产消费:针对组织认证的确信资产,可以快捷跳转自助分析,提升消费侧的需求满足度,并进一步提升数据的流通性和资产价值。
- 功能概览:
Dataphin 作为数据开发与治理的一体化平台,提供了元数据的采集与管理能力,帮助企业用户快速了解数据概貌,并基于统一的元数据支撑数据开发与治理的全链路。
- 自动化采集元数据: 支持多种关系型数据库的元数据采集,可配置采集范围(指定 schema)、采集频率(定时/手动)、数据更新策略等,灵活管控采集和存储的对象范围;此外,还支持对采集任务进行运行配置,保证运行稳定性,减少人工干预。
- 元数据检索与查看:您可以在“元数据清单”统一查看采集到的元数据对象,根据对象类型不同,为您展示不同的元数据属性,包括但不限于表描述、表行数、存储格式、存储量;字段名称、数据类型、字段描述、是否可为空、字段默认值等信息,可快速了解元数据对象基本情况。此外,您也可以在“资产清单”统一查看 Dataphin 资产与已采集的数据源表,除了基本信息外,还为您展示了血缘信息、质量改变,帮助您进一步评估资产可用性。
- 元数据存储与管理:配置采集任务时,可配置基于该任务采集到的元数据归属的“业务系统”,便于后续分类。结合“数据更新策略”,您可以选择是否需要继续保留已采集但是在源端已被删除的对象,便于追溯历史。此外,每次采集执行时,系统会自动对比上一次采集的对象信息是否发生变化,并自动生成新的版本。您可以查看每个对象的历史版本列表及变更概览,也可以查看每个版本详情或进行版本对比,了解数据变更情况。
2.6 特性 6:资产运营目录,将资产盘点编目后按专题开放给不同的用户群体
- 应用场景:
小A是瓴小羊公司的数据平台及数据资产管理的负责人。瓴小羊公司是一家多业态的集团型客户,下设11个不同的子公司,包括地产、金融、零售、美妆等不同的业态,并且上游的业务系统众多,经过前几年的建设,使用Dataphin构建了统一的数据中台,但是为了支持不同的业务场景,分别构建了不同的企业数据集市。现在企业内部有海量的表,缺乏有效的手段进行统一的盘点和治理。在分析师需要用数时,找数成了一件非常艰难的问题,不知道这个数在哪里,是不是已经加工好了在数据中台或者数据集市中,亦或是完全还没有抽取到中台中来。就算找到了也不知道这个表是不是需要的表,无法快速的确信。
小A就需要有一个统一的数据资产管理平台,将数据资产进行划分和编目,让不同的数据资产服务于不同的场景或不同的用户群体或团队,按照资产专题进行定向的开放和运营可以帮助资产消费人员(分析师、数据研发、数据科学家等)更加精准的定位和搜索数据,降低数据使用的难度,促进数据资产的使用,进而释放资产价值。
- 功能概览:
Dataphin资产运营提供了资产目录管理和资产搜索及查看的功能。目录管理是目录的管理后台,包含目录的规划和上架管理。资产目录是目录的前台展示,提供给资产的查看的用户进行资产的搜索和资产的详情查看。
目录管理中的目录规划可以进行目录专题及专题下的目录管理。专题可以是针对某个部门或者场景的专题。比如财务部门的数据仅可提供给财务相关的分析人员查看,就可以在专题上可设置公开范围,针对财务部用户组开放。
准资产是我们需要进行上架或者暂不上架处理的资产列表。 我们需要持续的对新增的资产进行处理;已上架资产是已经上架到前台目录的资产;暂不上架资产用于放置测试表、临时表、备份表、不适合给到下游使用的ODS层的表或其他不适合开放查看的表。资产上架时,也可以为资产设置可见范围,同样也可以针对全员公开、部分人员公开或者部分人员不公开。在上架时,资产运营人员也可以对资产的属性进行丰富和优化,提供更加业务化的信息,让目标的用户更加容易理解。
用户能够根据设定的可见范围对上架后的资产进行精准搜索和查看,可搜索表资产的名称、描述以及字段的名称及描述信息。他们能够方便地检索到符合权限的专题和资产详情,提升了用户使用资产的便捷度和满意度。
通过Dataphin资产运营,赋能您的资产管理过程,实现高效便捷的运营,真正让每一份资产价值最大化。
2.7 特性 7:统一管控资产使用权限,快捷创建 BI 分析任务
- 应用场景:
如何统一管理并打通不同平台之间的用户权限,是企业资产管理人员常常遇到的一个难题,是瓴小羊公司的数据平台负责人小A 也不例外。为不同子公司的数据创建了对应的专题目录后,小 A 虽然解决了资产快捷查找和可见范围控制的问题,但是每天依然被源源不断地审批单打扰:即使在资产管理平台申请过了资产的使用权限,跳转到 BI 平台创建分析任务时,依然需要重新申请权限;分析师们对此也抱怨纷纷,资产管理平台的推广受到了阻碍。
- 功能概述:
Dataphin 全新推出“资产消费”功能:申请资产消费权限后,可针对有权限的数据表快捷创建Quick BI 分析任务;分析任务执行时会请求 Dataphin 并遵循在 Dataphin 已设置的消费权限,从而实现同一账号在资产管理平台和 Quick BI 分析平台间的权限打通。
- 一键申请数据消费权限:在资产目录查找到需要使用的资产后,您可以直接点击“申请权限”,也可以先加入申请篮、再统一从申请篮发起批量申请并统一配置详情和申请说明,简化申请配置操作并提升审批效率。
- “我可用的”资产一目了然: 您可以在“我可用的”资产列表查看所有可消费的资产,易于查找和管理。对于临到期的资产,支持一键进行续期申请,保证工作的连续性;对于已到期的资产,如果需要继续使用,您也可以快速重新发起申请。同时,您还可以快速针对每个数据表创建新的或查看已有的 BI分析任务,数据利用高效便捷。
- 统一权限管理,快速创建分析任务: 针对您拥有消费权限的资产,可以在目录列表页或者资产详情页快速创建QuickBI分析任务,只要设置好分析消费平台的计算源,就能开始数据探索之旅,无需重复申请权限。此外,在“我的 BI 分析”任务列表,所有您有查看权限的BI分析任务一览无余,并且能一键跳转至BI平台进行查看或编辑,让数据分析工作更加高效。
2.8 特性 8:支持按分类目录配置分类管理权限和脱敏规则,管控更灵活
- 应用场景:
做好了企业数据资产的分类与商家管理,瓴小羊公司的数据安全管理员小 B 又遇到了另一个难题:这些子公司不仅有自己的数据组织方式,也有不同的数据分类体系,使用统一的数据分类难以满足所有诉求。此外,财务部门的分类定义中使用了识别特征,包含了一些敏感信息,不希望被公开查看。应该如何设计才能把分类管理权限下放给每个子公司的安全管理员、满足分类详情的敏感保护诉求,同时也能让所有企业用户可以查看,避免分类定义冲突的问题呢?
- 功能概述:
Dataphin 的数据分类管理体系升级,通过设置分类目录管理员,实现分类管理权限的下放;识别规则新增支持选择动态分类,降低规则的维护成本。基于新版本的功能,小 B 只需要进行如下设置,就可以轻松解决他的难题:
- 为每个子公司创建对应的一级数据分类目录,并配置分类管理员:设置完成后,每个目录的管理员可以在自己管理的目录下创建子目录和数据分类,并设置分类详情的查看权限。对于没有管理权限的数据分类,仅能查看不能编辑,既能实现权限下放、也能避免不同目录下的分类定义冲突。
- 创建识别规则并配置动态分类范围:为了避免冲突导致识别结果频繁变更,识别规则的定义依然由全局的安全管理员统一定义。除了可以直接指定每条识别规则参与扫描的具体分类,新增“按目录动态圈选指定目录下的分类”功能。如此一来,小 B 只需要根据一级分类设置好对应的识别规则,后续分类的增删修改都无需再更新对应的识别规则,重复性的维护工作大大减少!
- 分类管理员设置各自的脱敏规则:除了定义分类外,每个目录的管理员还可以结合业务需求,为自己有管理权限的分类配置对应的脱敏规则,清晰又高效。小 B 再也不用追着各个业务方梳理脱敏要求,并一个个录入系统了。
释放了分类管理的繁琐工作,小 B 的工作效率大大提升,子公司也不再抱怨了,一切都井然有序。
2.9 特性 9:标签平台能力项扩展:支持新的计算源与数据源
- 应用场景:
- 一般项目已支持Lindorm计算引擎,标签项目进行同步适配
- 在线服务源仅支持HBase1.x,客户的其他HBase版本不支持选择,另外在线服务源类型单一,无法满足不同的客户诉求;
- 对接华为大数据平台时,离线服务需要导出到GaussDB,需使用openGauss进行支持
- 功能概览:
- 标签平台新增支持Lindorm(计算引擎)作为计算源
- 标签及群组在线服务源支持Lindorm(宽表)以及HBase 0.9.4、HBase2.x
- 标签及群组离线服务目标数据源支持openGauss
2.10 特性 10:跨租户发布标签对象全支持:新增行为关系及行为类标签发布
- 应用场景:
为解决客户在测试环境中开发标签,生产环境需要重新配置的问题,目前已支持离线数据集和离线标签(映射标签、组合标签),还需将行为关系和行为类标签进行导出。
功能概览:
- 跨租户发布支持行为关系
- 跨租户发布支持行为偏好类标签及行为统计类标签
3. 总结与展望
本次发布的V4.2 版本中,Dataphin 支持通过注册的调度集群连接另一网络中的数据库,避免数据跨网络传输,数据库 SQL 支持 Presto;引入了运营目录,支持将资产盘点编目后按专题开放给不同的用户群体;升级了资产消费,支持快捷创建 Quick BI 分析任务,统一管理消费权限,缩短消费链路;同时也对用户体验上做了很多优化: 实时集成支持在运维侧下载查看脏数据,离线集成多组件优化等。
在下一个版本中,Dataphin将推出指标资产目录管理及自动上架,支持数据源表的权限管理等功能,还有很多其他新增能力与功能升级,敬请期待。
4. 往期版本升级回顾
- DataphinV4.1大升级: 支持Lindorm,上线“公共云半托管”自助新模式
- DataphinV4.0:自定义全局角色 ,实时研发覆盖全部署场景
- DataphinV3.14:数据研发突破全域覆盖,资产治理更加灵活可控
联系我们,欢迎扫码请扫码加入钉钉群: