Dataphin是瓴羊旗下的智能数据建设与治理平台,是阿里巴巴多年内部数据建设与治理实践及方法论的产品化输出,致力于通过一站式智能化的数据建设及治理能力,帮助企业构建起生产经济、质量可靠、安全稳定、消费便捷的企业级数据资产。
1. Dataphin V4.1 版本升级功能点
瓴羊Dataphin再次震撼升级,本次升级以企业级适配、研发体验优化、治理能力提升为核心,支持了Lindorm计算引擎,优化代码搜索等功能体验,并全新推出公共云半托管部署模式,为用户提供更加高效、灵活、便捷、安全的数据管理与运营环境,促进企业数据资产的建设和价值挖掘。
01- 平台支持企业级适配,适配企业特色
- 浅色主题导航带来清新高效体验
- 支持使用 Lindorm(计算引擎)作为离线计算引擎
02-研发体验优化,加速企业数字能力建设
- 离线集成:整库迁移支持批量输入表名后自动选中表
- 离线研发:Hive 引擎下规范建模支持切换至 Spark 或 Impala 引擎;代码搜索体验优化
- 实时研发:开源Flink引擎支持从历史Checkpoint恢复作业
- 调度运维:支持页面化配置实例及运行日志的保留时长,支持配置是否定期清除补数据工作流及手动实例
03-数据治理能力提升,保障企业数据质量与安全
- 标准:自动化编码规则助力标准编码统一规范定义;订阅变更通知随时掌握标准动态,规范开发保障数据质量
- 质量:模板支持配置 set 命令以拓展灵活性;批量添加规则体验优化,进一步提升配置效率
04- 支持“公共云半托管”模式,打造云上自助新体验
2. 新版本重点特性详解及应用场景示例
2.1 重磅:“公共云半托管”来袭,打造云上自助新体验
随着技术的发展,云计算已经成为企业数字化转型的重要驱动力。
依托云计算带来的便利,数据治理部署也有了新模式。Dataphin推出全新的“公共云半托管”服务,旨在为客户打造更加自有、灵活、自主可控的云上自助体验。
(PS:全引擎包括MaxCompute、Hadoop体系如CDH、Lindorm、EMR、TDH等大数据计算引擎,Flink VVP及开源Flink等实时计算引擎,ADB、StarRocks、Impala等MPP数据库及Hudi、Iceberg、Paimon等湖仓引擎 )
2.2 浅色主题导航带来清新高效体验
在这次升级中,我们将绝大部分模块的导航由传统的深色风格转变为了明亮的浅色主题,不仅配合了现代化的视觉趋势,也尊重了企业的品牌调性。更轻盈的颜色搭配不仅可以减轻视觉疲劳,还可以引导注意力自然而然地集中到页面的主要内容,从而提升工作效率。
同时,由于研发工作的专业性和代码编写的特殊要求,我们保留了研发模块中的深色配色。深色背景与代码编辑器的传统暗色方案协调一致,不仅有助于减少眼睛的负担,提升焦点和精确度,也是对研发人员的工作环境的深入理解和尊重。
这次UI风格升级,是我们走向更加人性化、专业化服务的又一大步。我们期待它能够为您提供更加个性化、舒适且有成效的使用体验。我们珍视每一位用户的反馈,您的满意与建议是我们不断进步的动力源泉。
2.3 再见手动编码,标准自动化编码规则来帮忙!
应用场景:
标准管理员小S经常头疼于为新建的数据标准配置编码值:既要保证格式的规范性、让编码易读可维护,又需要确保编码的全局唯一性和连续性(如:指标标准统一使用“index_所属标准集编码_6位自增序列”格式);整个过程耗时又容易出错,一旦编码格式修改,更是需要几倍工作量重新维护。
小S 很希望能有更轻松、高效又可靠的方法来管理标准编码。
功能概览:
Dataphin 全新上线自动化的“标准编码规则”,只需要在“标准模板”中进行一次简单的设置,引用这个模板创建的数据标准都会按照规则自动生成对应的编码值。
编码规则可以由“自增序列、固定字符串、所属标准集编码”组合生成。如果同时配置了“标准集编码”和“自增序列”,生成的序列数将在同一标准集范围内自增,从而保证同一分组下标准编码的相关性,便于查找和维护。
系统自动生成的编码值支持手动修改,从而适配一些临时的标准变更和排序场景。如果我们希望保留配置灵活性,可以取消编码规则的强规范校验(如:编码规则配置了 6 位自增序列,自定义编辑时可以仅配置 3 位);如果需要强保证编码的全局规范性,也可以针对手动配置的编码值开启按照编码规则进行严格校验。规范 or 灵活,完全由您自行掌控!
最后,针对编码规则变更的场景也丝毫不用担心,在修改编码规则配置后,系统会自动校验是否已经有按照历史规则生成的标准编码;如果有,可以选择按照最新规则批量订正,并且可以查看批量订正记录,之前需要几天几夜完成的工作现在只需要几次点击就能轻松搞定!
---->
有了这个功能,小S 终于摆脱了重复繁琐的手动编码工作,一切都开始变得井井有条。小S 不禁感慨:Dataphin 的标准自动编码规则真的很好用呢!
2.4 订阅数据标准变更,随时掌握标准动态,保障您的开发质量!
应用场景:
为了进一步提升数据质量,ETL工程师小王所在的部门要求大家开发的核心表必须始终遵循最新的数据标准。标准的变化可能会影响表结构的设计和相关数据处理过程,从而影响表的可用性和数据合规性。在快节奏的开发环境下,小王如何即时、低成本又能精准的获知 标准更新动态呢?
功能概览:
为了帮助小王和同样面对此类挑战的开发人员,我们推出了“标准变更订阅”功能。
- 多配置入口:提升配置效率:如果您已经知道自己需要遵循的数据标准,可以直接在数据标准列表中搜索筛选后一键批量订阅;也可以在“个人数据中心-我负责的表”页面选择需要保障的核心表,通过“订阅关联标准变更”功能进行订阅,此时系统将根据字段和标准的映射关系自动圈选相关的数据标准并根据配置生成订阅任务。
- 多种变更通知项:各种动态一网打尽:包括数据标准生效、失效、下线、删除,您可以根据需要选择需要发送通知的场景。
- 多渠道通知:按需选择,保证通知到位:可以根据您的工作场景灵活选择站内信、电子邮件、群机器人消息(钉钉/飞书/企微)几种通知方式。
- 清晰可循的推送记录:先概览、再细查:每条通知概括展示了标准负责人、变更前后的状态、版本等信息,并提供了查看标准的链接,您可以通过链接进入标准详情页面,并点击“历史版本对比”了解变更前后的详细差异。此外,您还可以在“我订阅的列表-推送记录”中查询历史已推送的消息,便于追踪和差缺补漏。
这个新功能让小王在遵循数据标准的同时也能保证开发响应效率和数据质量,相关业务方和技术负责人都十分满意。
2.5 数据服务优化汇总
- 设置默认排序规则,API结果可预期。 向导模式API增加排序设置,除原有的在调用时传入OrderByList参数外,可设置默认排序,保证返回结果的稳定性
- 优化校验及提示,提升研发体验
- 根据是否分页,增加对SQL中orderby、limit的正确性校验
- 提交发布API时校验对应环境服务单元、数据源的字段存在性,及时阻断因字段不存在导致的上线后的API的调用失败
2.6 整库迁移搜索表支持精确输入表名和模糊搜索
在进行离线集成整库迁移时,并非所有场景都需要迁移数据库中的全部表。有些情况下可能只需要迁移特定的表集合,例如:进行系统升级时,可能只有部分数据表结构发生变化,或者某些表包含了不兼容新系统版本的数据。在这种情况下,仅需要迁移那些需要在新系统中使用到的表。
功能概览:
整库迁移支持批量输入表名后精确查找到表, 支持通过模糊搜索查找到表,支持查找10000张以后的表,支持一键选中查找到的表。
2.7 开源Flink引擎支持从历史Checkpoint恢复作业
应用场景:
实时任务需要处理连续不断的数据流。系统会定期创建检查点,即Checkpoint,以保存当前的状态和已处理的进度。例如,如果处理节点失败,系统可以从最近的检查点恢复,保证数据不会丢失,并且保持至少一次或精确一次的处理语义。
假设实时数据流处理系统中引入了一个含有bug的数据处理逻辑,这个bug导致了从引入时刻开始的数据都被错误地处理。一旦这个问题被发现并修正,实时研发人员就可能需要从引入bug之前的某个检查点开始,重新处理之后的所有数据,以保证数据的准确性。这时候,系统就需要从那个历史检查点恢复,而不是最近的检查点。
功能概览:
支持实时任务启动时可以选择从最近的有效状态启动,包含Checkpoint或Savepoint
2.8 行为关系支持配置码表:让标签加工与理解更直观
应用场景:
在进行行为分析和标签生成过程中,我们常面临一个挑战:部分字段(如商品类型、会员类型)通常以编码形式存在,这增加了行为关系配置和标签创建的复杂性,因为开发和业务人员需要额外的步骤来识别这些编码的实际含义,造成了更高的工作门槛,因此这些编码的含义需要通过一个独立的码表来解释,并向开发和业务人员进行展示;
- 标签开发人员小A,期望在加工行为关系的时候就能够方便地对照码表,这样在创建行为标签或组合标签时就可以快速地识别出各个编码字段的实际含义,从而有效地设置加工条件;
- 标签业务人员小B,希望在市场操作界面中能够直观地看到标签的真实含义,而不是仅仅展示代号。这有助于他们更加容易地理解标签分布情况;
功能概览:
- 行为关系配置工具新增码表关联功能,允许用户为特定行为关系属性直接配置对应码表;
- 在行为标签、复合标签以及用户群组的创建和加工阶段,如果相关的行为属性已关联码表,系统将提供下拉菜单以便用户通过代码的文本描述来选择条件。
- 在资产市场检视标签分布时,对于那些已经配置了码表的标签,系统将按照实际的文本描述展示结果,而不是抽象的编码,使得标签信息更易懂、更直接。
2.9 公共日历调度及数据筛选:更符合业务场景的数据产出方式
应用场景:
证券行业常遇到的一个核心挑战是数据的波动性,通常与交易日历密切相关。客户只在交易日产生数据,非交易日(包括周末和公共假日)的调度不仅无效而且会消耗资源,每当节假日回来工作的第一天客户都会发现没有数据产出很影响用户体验。另外,不同的业务交易日历也不一样,比如A股和港股,因此差异化的调度策略变得尤为重要。
功能概览:
- 数据集及行为关系支持按照某一公共日历设置调度条件,在指定公共日历配置的日期类型或日期标签进行调度,如按照沪深交易日进行调度
- 支持按照公共日历配置的日期类型或日期标签筛选数据,避免统计无效数据范围,如近7个交易日,
--->
2.10 灵活标签导出:一键满足多样化下游数据需求
应用场景:
标签及群组离线服务支持将标签及群组输出到目标库表中,供下游业务系统使用。当客户的业务较为多元时,不同的下游系统对于标签数据的使用不同:
- 对于需要深入分析或加工的系统,需要提供完整数据输出,包含代码值及其描述;
- 对于仅用作展示的系统,可提供仅包含代码描述的数据,避免需要进行二次处理。
通过提供灵活的标签数据服务,来满足客户日益增长的业务诉求。
功能概览:
- 标签导出时,用户可以灵活选择只导出标签值、只导出代码描述,或者两者都导出;
- 支持多数据源下一键建表,可快速根据勾选的标签以及码表生成表结构,进行表创建;
2.11 新增群组判定服务,促进群组资产消费
应用场景:
群组判定服务可判定指定的实体ID是否在群组中,面向已在标签平台构建了群组,并期望在此基础上进行定制化细分的场景。通过对多个群组进行判定,业务团队可以根据具体的业务场景灵活地组合和过滤用户群体,此服务将提供一种新的群组消费方式,促进群组资产消费。
功能概览:
- 已开启在线服务的群组,允许通过API接口快速获取实体ID是否匹配特定群组的结果
- 支持选择多个群组批量判定,快速获得所有判定结果,提升判定效率
--->
2.12 新增行级权限功能,灵活管控不同账号对同一张表的可见范围
应用场景:使用Dataphin的数多多公司有一张关于各业务线客户交易数据的大宽表,应企业数据安全要求,不同业务线的分析师只能看到该大宽表中自己业务线的客户交易数据。平台管理员可以通过对该表设置行级权限,并将不同行的权限授权给对应大区的分析师来实现此目的。
功能概览:
- 由安全管理员统一配置和管理全局的行级权限;
- 提供逻辑控制字段,可将不同表的不同名字段关联到同一行级权限中;
- 可将不同的行级权限规则授予给不同的账号,被授权账号在执行该表的相关SQL语句时,系统将根据该账号的行级权限自动补充对应的Where语句。
2.13 提供一键发布的能力,帮助跨租户发布者解放双手
应用场景:Dataphin已经支持了20余种对象的跨租户发布,在发布期间操作者需要按照一定的顺序并针对每个对象进行逐一发布,操作较为繁琐。
功能概览:
- 点击“一键发布”,Dataphin将自动按照指定的顺序对“待发布对象”进行发布,帮助操作者解放双手,离开电脑。
2.14 代码搜索优化,老板再也不用担心我找不到代码
应用场景:
代码搜索是一个开发工具最基础的功能之一。用户使用代码搜索有以下场景:
- 新建一个任务,写到某一段代码逻辑时,隐约记得在某一个任务或临时查询中实现过,想看看当时是怎么写的。对于那段代码所在对象,已经没有印象,不清楚对象类型,所在项目,甚至不知道是否还在使用。在代码搜索中,这类是有明确的单个目录的搜索。
- 有某一个 set 参数,在不同任务中可能会设置不同的值,想要确认下某个开发者最近一个月内发布的 SQL 计算任务中该参数是否设置正确。这是关键词搜索+筛选过滤的场景。
功能概览:
- 在很多位置增加了代码搜索的入口(旧版本很多用户反馈不知道怎么进入代码搜索)
- 代码搜索功能升级优化
- 支持多行关键词
- 支持跨项目搜索
- 支持对搜索结果做筛选过滤
- 搜索结果列表展示更多信息,帮助用户更好识别想要的搜索目标
- 支持搜索结果预览,关键词高亮和快捷上下查找
3. 总结与展望
本次发布的V4.1 版本中,Dataphin 在平台引擎上支持了 Lindorm(计算引擎),Impala/Spark 规范建模;引入了行级权限全新的精细化权限管控能力;同时也对用户体验上做了很多优化: 代码搜索升级优化,标准支持自动根据规则生成编码,补数据支持选择月末日等。
在下一个版本中,Dataphin将推出工具化自助化升级,使用外部调度资源运行集成任务等功能,还有很多其他新增能力与功能升级,敬请期待。
联系我们,欢迎扫码请扫码加入钉钉群: