开放、兼容的数据建设与治理平台——瓴羊Dataphin“进化论”

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
简介: Dataphin的技术架构与实践路径,涵盖多引擎兼容、混合云架构、统一资产消费等方面,Dataphin通过持续升级,帮助企业实现全生命周期的数据资产管理,助力企业在大模型时代更好地“建好数据”、“用好数据”。

作者:江岚  阿里云瓴羊智能科技高级技术专家

随着十四五“数字中国”规划的不断深入,我国企业对数据治理和数据资产建设的广阔需求依然亟待激活。不过,由于数据分析领域长期处于高速发展阶段,加上国内参差不齐的供给现状,“看不懂”、“跟不上”、“学不会”、“用不起”仍是大多数企业的真实感受。

从ELT、Data Fabric、Semantic Layer、DataOps,再到Lakehouse和流批一体,近几年,全球数据分析领域的“热词”层出不穷、令人目不暇接。行业发展脉络存在共性,细究其中,可以提炼出三大主题:统一的基础设施、统一的中间层、统一的数据资产。

瓴羊「数据荟」数据Meet Up 第3站线上开讲,来自中国信通院、瓴羊与企业大数据团队的多位技术专家齐聚一堂,共话大模型时代的数据治理创新实践。阿里云智能集团瓴羊高级技术专家江岚以Dataphin为例,从多引擎兼容、混合云架构、统一资产消费的应对策略,分享了“开放、兼容的数据建设与治理平台”的技术架构与实践路径。

作为阿里巴巴全资子公司瓴羊的代表产品,Dataphin长期专注于数据治理环节,通过运用阿里巴巴“OneData”方法论,持续打造统一的数据基建、高质量的数据资产。近日,瓴羊Dataphin宣布全新功能升级,推出Dataphin敏捷版、半托管及DataAgent智能体,以更普惠、可扩展性和开放性的架构更新,为广大企业“建好数据”、“用好数据”打好基础。分析人士认为,瓴羊Dataphin的本轮升级,是其一次意义重大的变化,反映了能力架构、底层技术的全面演进。

从混合云架构到安全管控,企业数据治理面临哪些挑战?

瓴羊,脱胎于阿里巴巴这座“超级工厂”的数字化实践,旨在将内部经验系统化、产品化地向千行百业进行输出。作为瓴羊旗下的智能数据建设与治理工具,Dataphin能够提供一站式的采、建、管、用的大数据能力,涵盖企业数据资产的建设、治理、消费等不同环节。自2018年上线以来,瓴羊Dataphin已服务了百余家客户,覆盖了餐饮、通信、乳品、汽车等多个行业。

以往,用户在使用Dataphin时,首要任务是配置集成管道,将业务库数据同步至数据库,并通过代码研发、规范建模等多种方式对数据进行加工处理。加工后的数据或通过集成管道任务回流至用户生产库,或通过配置数据服务API供下游系统使用。

在服务合作伙伴的过程中,瓴羊Dataphin发现,由于部署环境、引擎类型、治理目标等方面的差异,企业数据治理的需求变得越发精细和复杂,给平台既有的功能提出了诸多挑战。

一方面,许多企业迫切需要打通整个数据生产消费链路,不只限于传统的数据仓库环节,而是实现全域的数据资产治理。另一方面,不少企业的数据资产不再处于单一云环境,而是既涉及公共云、也涉及线下IDC机房,因而需要支持混合云架构的数据治理工具。同时,不少企业开展信创工作,众多国产化的引擎确实给兼容适配带来了不小的挑战。

因此,本轮产品升级的背后,是瓴羊Dataphin围绕数据治理的一线场景需求,通过持续的研发投入和自我迭代,实现了“多引擎适配”、“混合云统一调度”、“统一消费出口”三个层面的全新升级,从而与诸多企业伙伴共同进步,更好顺应“统一基建”、“全域治理”的行业发展趋势。

从多引擎兼容到统一资产消费,Dataphin的成果与经验

企业所使用的引擎各不相同,如果没有一个设计良好的多引擎中间件,就有可能带来重复的引擎对接成本,乃至潜在的类冲突和处理逻辑不一致的风险。如何适配数据库产业生态现存的众多引擎,是摆在瓴羊Dataphin面前的第一项难题。

目前,多引擎适配模式存在富客户端、轻客户端两种模式。富客户端直接对接引擎,网络开销少,且无单点瓶颈的风险;轻客户端压力小,无类冲突风险,且服务端可实现统一版本管理。

羊Dataphin结合富/轻客户端两者优势,通过“多引擎SDK+插件”的模式,提炼出了SQL、File、Schema三大API接口,每种插件相互独立的同时,还增设了类隔离的机制,确保多引擎的处理逻辑对业务代码没有侵入,最终通过JAR包的合并,有效减少了部署资源。截至目前,瓴羊Dataphin不仅支持公共云多租户、独立部署、私有云部署等环境,还实现了对MaxCompute、EMR、CDH等十余种主流大数据计算引擎的适配,通过插件化模式,也降低了后续新引擎的兼容成本。

混合云架构方面的挑战则更加复杂:有的企业出于信息安全性考虑,部分业务只能存于线下IDC机房,同时拥有公共云和私有云环境,导致管理和运维的难度大大增加。

为此,瓴羊Dataphin采用了外部调度集群技术可以同时管理多个Kubernetes集群的资源,由调度模块负责在指定的集群上拉取任务配置并调起任务。这一设计使得平台能够高效地在混合云环境中调度和执行数据任务,有效避免跨网络的访问限制,并大大提升集成性能。

具体而言,在数据集成场景,瓴羊Dataphin实现了一套集群对多个云环境的调度,仅任务调度需要跨网络,而数据本身无需经过专线网络传输,降低了跨网络传输的成本和复杂性。而在资产采集场景,平台通过配置元数据采集任务,手动或周期性地运行采集任务,将采集到的资产元数据写入存储,以供后续的数据消费链路使用。此外,瓴羊Dataphin通过于外部集群中拉起的数据服务常驻容器,确保了数据服务场景的灵活性、安全性和隐私性。

在数据资产消费时,企业常常面临着资产分散、权限管理不一致、使用链路长等问题。为了实现统一的资产消费,瓴羊Dataphin提供了标准的JDBC接口,通过多引擎插件对接底层数据库,打造了唯一的消费出口,实现了对底层数据的统一访问。

更值得注意的是,Dataphin还实现了瓴羊旗下BI工具——Quick BI的无缝对接,资产消费可以自动创建Quick BI的数据源以及数据集,并且减少用户查看数据的操作成本。

目前,Dataphin提供了丰富的资产消费方式,不论是自助取数、数据探查还是接口调用,企业无需复杂处理链路,即可轻松实现数据分析和可视化展示。

从全域资产运营到AI+,数据资产运营将去向何方?

在企业数字化浪潮中,有越来越多企业通过瓴羊Dataphin,实现了数据资产的采、建、管、用,在数据洞察力提升的同时,也挖掘出了隐藏在资产之中的价值。

相较以前,如今的瓴羊Dataphin功能架构得到了多重升级,不仅引擎兼容性增强,支持多种类型的数据源,还丰富了资产消费的形式,此外,瓴羊Dataphin还新增支持了混合云的部署模式和公共云半托管模式,能让企业以最小的成本实现复杂网络环境下的部署,由此,平台的覆盖范围不再局限于数据仓库,而是朝着实现全域资产运营的目标迈进。

在未来,瓴羊Dataphin将持续深化采、建、管、用的一体化平台定位,沿着数据资产建设-治理-消费的路径不断完善。在建设方面,平台将对接更多种类的引擎、支持更大规模的统一调度和运维,还将上线拖拽式标签工厂等;在治理方面,平台将打造统一的元数据中心,让企业的数据资产“标准可循、质量可靠、安全可控、成本经济”;在消费方面,瓴羊Dataphin已经推出资产目录管理、资产搜索及查看等运营功能,未来还将上线资产门户、质量报告等。

随着大模型时代到来,瓴羊Dataphin也将积极拥抱AI技术,探索“数智结合”的资产运营手段。比如,在智能问数的帮助下,用户无需技术背景即可问询需要的数据,极大地降低了数据分析的门槛;通过智能特征识别、智能分类分级等手段,提高资产质量和生产效率。

在产业、政策、技术等多种因素的影响下,我国的数据治理领域仍然方兴未艾,如何在高速变化的外部环境下,为不同企业提供个性、易用、专业、安全的治理体验,仍然是横亘在产业各方面前的重要课题。未来,依托阿里巴巴数字化转型经验,瓴羊Dataphin有望以持续的迭代和演进,为企业打造全生命周期的数据资产解决方案,帮助千行百业“建好数据”、“用好数据”。

(如对瓴羊Dataphin数据治理感兴趣,欢迎扫码入群领取Dataphin白皮书)



相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1天前
|
数据采集 SQL 人工智能
瓴羊Dataphin:AI驱动的数据治理——千里之行,始于标准
数据标准是数据治理的核心抓手,通过梳理数据标准可以有效提升数据质量。瓴羊Dataphin平台利用AI技术简化数据治理流程,实现自动化的数据标准建立、质量规则构建和特征识别,助力企业在大模型时代高效治理数据,推动数据真正为业务服务。
46 26
|
22天前
|
数据采集 自然语言处理 供应链
央国企“严选”的瓴羊,如何让数据“供得出、流得动、用得好”?|【瓴羊Dataphin在信通院2024数据资产管理大会】
在产业变革新浪潮下,数据资产管理步入“繁花时代”,瓴羊高级解决方案专家黄彦之出席2024数据资产管理大会并分享了瓴羊基于12年阿里最佳数据实践,通过Dataphin等产品助力央国企数智化转型的路径与方法。大会发布《数据治理产业图谱3.0》,瓴羊Dataphin入选BUCM板块代表产品,彰显其领先经验。
93 18
|
22天前
|
数据采集 安全 大数据
“点数成金”时代,如何应用全域数据资产治理释放企业数据价值?【瓴羊Dataphin在信通院2024数据资产管理大会】
在“点数成金”时代,企业数据成为宝贵资产。12月18-19日,信通院“2024数据资产管理大会”在京举办,瓴羊政企金融事业部总监徐宁分享了Dataphin在数据治理领域的创新方法论与实践经验,强调数据资产双循环和元数据管理的重要性。瓴羊副总裁王赛获颁数据资产管理专家证书。
77 16
|
2月前
|
人工智能 关系型数据库 MySQL
数据魔力,一触即发 —— Dataphin数据服务API,百炼插件新星降临!
本文通过一个利用百炼大模型平台和Dataphin数据服务API构建一个客户360智能应用的案例,介绍如何使用Dataphin数据服务API在百炼平台创建一个自定义插件,用于智能应用的开发,提升企业智能化应用水平。
177 4
数据魔力,一触即发 —— Dataphin数据服务API,百炼插件新星降临!
|
2月前
|
安全 Java 数据库连接
Dataphin的数据共享的应用场景和方案
不同的业务场景对数据访问和使用有着各自独特的需求,从简单的数据下载到复杂的跨系统集成,选择合适的数据共享与访问方式至关重要。本文旨在探讨几种常见的Dataphin上的数据共享与访问机制——包括数据复制、数据下载、视图创建、行级及列级权限控制、API数据服务以及JDBC连接等,并分析它们各自的适用场景、优势及限制,以帮助企业更好地根据自身需求做出合理的选择。
133 0
|
3月前
|
存储 人工智能 安全
【荣誉奖项】荣获2024数据治理优秀产品!瓴羊Dataphin联合DAMA发布数据管理技能认证
瓴羊Dataphin连续俩年获得DAMA年度优秀数据治理产品奖,本次与DAMA联合发布“DAMA x 瓴羊 数据管理技能认证”,助力提升全民数据素养。
184 0
【荣誉奖项】荣获2024数据治理优秀产品!瓴羊Dataphin联合DAMA发布数据管理技能认证
|
3月前
|
数据处理 调度
Dataphin功能Tips系列(26)-事实逻辑表配置数据延迟
零售行业中,订单数据是每天晚上由pos系统同步至数据中台,但门店人员经常会没有及时将订单信息录入pos,也许隔天或是隔几天才录入,这会导致指标的不准确性,数据中台的开发人员往往需要进行批量补历史分区的数据,这时怎么才能减轻开发人员的工作,让系统能够自动补前几天分区中的事实逻辑表中的数据呢?
|
6月前
|
SQL 运维 安全
【产品升级】Dataphin V4.2重大升级:上线敏捷版,打通数据资产管理和消费,开启数据价值放大新篇章
Dataphin 是阿里巴巴旗下的一个智能数据建设与治理平台,旨在帮助企业构建高效、可靠、安全的数据资产。在V4.2版本中,Dataphin敏捷版上线助力企业打造轻量版数据中台,打通数据资产管理和消费,陪伴企业迈入数据高价值应用新阶段。
2090 2
【产品升级】Dataphin V4.2重大升级:上线敏捷版,打通数据资产管理和消费,开启数据价值放大新篇章
|
5月前
|
JSON 数据管理 关系型数据库
【Dataphin V3.9】颠覆你的数据管理体验!API数据源接入与集成优化,如何让企业轻松驾驭海量异构数据,实现数据价值最大化?全面解析、实战案例、专业指导,带你解锁数据整合新技能!
【8月更文挑战第15天】随着大数据技术的发展,企业对数据处理的需求不断增长。Dataphin V3.9 版本提供更灵活的数据源接入和高效 API 集成能力,支持 MySQL、Oracle、Hive 等多种数据源,增强 RESTful 和 SOAP API 支持,简化外部数据服务集成。例如,可轻松从 RESTful API 获取销售数据并存储分析。此外,Dataphin V3.9 还提供数据同步工具和丰富的数据治理功能,确保数据质量和一致性,助力企业最大化数据价值。
253 1
|
8月前
|
存储 数据采集 安全
瓴羊Dataphin数据安全能力再升级,内置分类分级模板、上线隐私计算模块
瓴羊Dataphin数据安全能力再升级,内置分类分级模板、上线隐私计算模块
233 0

热门文章

最新文章