作者:江岚 阿里云瓴羊智能科技高级技术专家
随着十四五“数字中国”规划的不断深入,我国企业对数据治理和数据资产建设的广阔需求依然亟待激活。不过,由于数据分析领域长期处于高速发展阶段,加上国内参差不齐的供给现状,“看不懂”、“跟不上”、“学不会”、“用不起”仍是大多数企业的真实感受。
从ELT、Data Fabric、Semantic Layer、DataOps,再到Lakehouse和流批一体,近几年,全球数据分析领域的“热词”层出不穷、令人目不暇接。行业发展脉络存在共性,细究其中,可以提炼出三大主题:统一的基础设施、统一的中间层、统一的数据资产。
瓴羊「数据荟」数据Meet Up 第3站线上开讲,来自中国信通院、瓴羊与企业大数据团队的多位技术专家齐聚一堂,共话大模型时代的数据治理创新实践。阿里云智能集团瓴羊高级技术专家江岚以Dataphin为例,从多引擎兼容、混合云架构、统一资产消费的应对策略,分享了“开放、兼容的数据建设与治理平台”的技术架构与实践路径。
作为阿里巴巴全资子公司瓴羊的代表产品,Dataphin长期专注于数据治理环节,通过运用阿里巴巴“OneData”方法论,持续打造统一的数据基建、高质量的数据资产。近日,瓴羊Dataphin宣布全新功能升级,推出Dataphin敏捷版、半托管及DataAgent智能体,以更普惠、可扩展性和开放性的架构更新,为广大企业“建好数据”、“用好数据”打好基础。分析人士认为,瓴羊Dataphin的本轮升级,是其一次意义重大的变化,反映了能力架构、底层技术的全面演进。
从混合云架构到安全管控,企业数据治理面临哪些挑战?
瓴羊,脱胎于阿里巴巴这座“超级工厂”的数字化实践,旨在将内部经验系统化、产品化地向千行百业进行输出。作为瓴羊旗下的智能数据建设与治理工具,Dataphin能够提供一站式的采、建、管、用的大数据能力,涵盖企业数据资产的建设、治理、消费等不同环节。自2018年上线以来,瓴羊Dataphin已服务了百余家客户,覆盖了餐饮、通信、乳品、汽车等多个行业。
以往,用户在使用Dataphin时,首要任务是配置集成管道,将业务库数据同步至数据库,并通过代码研发、规范建模等多种方式对数据进行加工处理。加工后的数据或通过集成管道任务回流至用户生产库,或通过配置数据服务API供下游系统使用。
在服务合作伙伴的过程中,瓴羊Dataphin发现,由于部署环境、引擎类型、治理目标等方面的差异,企业数据治理的需求变得越发精细和复杂,给平台既有的功能提出了诸多挑战。
一方面,许多企业迫切需要打通整个数据生产消费链路,不只限于传统的数据仓库环节,而是实现全域的数据资产治理。另一方面,不少企业的数据资产不再处于单一云环境,而是既涉及公共云、也涉及线下IDC机房,因而需要支持混合云架构的数据治理工具。同时,不少企业开展信创工作,众多国产化的引擎确实给兼容适配带来了不小的挑战。
因此,本轮产品升级的背后,是瓴羊Dataphin围绕数据治理的一线场景需求,通过持续的研发投入和自我迭代,实现了“多引擎适配”、“混合云统一调度”、“统一消费出口”三个层面的全新升级,从而与诸多企业伙伴共同进步,更好顺应“统一基建”、“全域治理”的行业发展趋势。
从多引擎兼容到统一资产消费,Dataphin的成果与经验
企业所使用的引擎各不相同,如果没有一个设计良好的多引擎中间件,就有可能带来重复的引擎对接成本,乃至潜在的类冲突和处理逻辑不一致的风险。如何适配数据库产业生态现存的众多引擎,是摆在瓴羊Dataphin面前的第一项难题。
目前,多引擎适配模式存在富客户端、轻客户端两种模式。富客户端直接对接引擎,网络开销少,且无单点瓶颈的风险;轻客户端压力小,无类冲突风险,且服务端可实现统一版本管理。
瓴羊Dataphin结合富/轻客户端两者优势,通过“多引擎SDK+插件”的模式,提炼出了SQL、File、Schema三大API接口,每种插件相互独立的同时,还增设了类隔离的机制,确保多引擎的处理逻辑对业务代码没有侵入,最终通过JAR包的合并,有效减少了部署资源。截至目前,瓴羊Dataphin不仅支持公共云多租户、独立部署、私有云部署等环境,还实现了对MaxCompute、EMR、CDH等十余种主流大数据计算引擎的适配,通过插件化模式,也降低了后续新引擎的兼容成本。
混合云架构方面的挑战则更加复杂:有的企业出于信息安全性考虑,部分业务只能存于线下IDC机房,同时拥有公共云和私有云环境,导致管理和运维的难度大大增加。
为此,瓴羊Dataphin采用了外部调度集群技术可以同时管理多个Kubernetes集群的资源,由调度模块负责在指定的集群上拉取任务配置并调起任务。这一设计使得平台能够高效地在混合云环境中调度和执行数据任务,有效避免跨网络的访问限制,并大大提升集成性能。
具体而言,在数据集成场景,瓴羊Dataphin实现了一套集群对多个云环境的调度,仅任务调度需要跨网络,而数据本身无需经过专线网络传输,降低了跨网络传输的成本和复杂性。而在资产采集场景,平台通过配置元数据采集任务,手动或周期性地运行采集任务,将采集到的资产元数据写入存储,以供后续的数据消费链路使用。此外,瓴羊Dataphin通过于外部集群中拉起的数据服务常驻容器,确保了数据服务场景的灵活性、安全性和隐私性。
在数据资产消费时,企业常常面临着资产分散、权限管理不一致、使用链路长等问题。为了实现统一的资产消费,瓴羊Dataphin提供了标准的JDBC接口,通过多引擎插件对接底层数据库,打造了唯一的消费出口,实现了对底层数据的统一访问。
更值得注意的是,Dataphin还实现了瓴羊旗下BI工具——Quick BI的无缝对接,资产消费可以自动创建Quick BI的数据源以及数据集,并且减少用户查看数据的操作成本。
目前,Dataphin提供了丰富的资产消费方式,不论是自助取数、数据探查还是接口调用,企业无需复杂处理链路,即可轻松实现数据分析和可视化展示。
从全域资产运营到AI+,数据资产运营将去向何方?
在企业数字化浪潮中,有越来越多企业通过瓴羊Dataphin,实现了数据资产的采、建、管、用,在数据洞察力提升的同时,也挖掘出了隐藏在资产之中的价值。
相较以前,如今的瓴羊Dataphin功能架构得到了多重升级,不仅引擎兼容性增强,支持多种类型的数据源,还丰富了资产消费的形式,此外,瓴羊Dataphin还新增支持了混合云的部署模式和公共云半托管模式,能让企业以最小的成本实现复杂网络环境下的部署,由此,平台的覆盖范围不再局限于数据仓库,而是朝着实现全域资产运营的目标迈进。
在未来,瓴羊Dataphin将持续深化采、建、管、用的一体化平台定位,沿着数据资产建设-治理-消费的路径不断完善。在建设方面,平台将对接更多种类的引擎、支持更大规模的统一调度和运维,还将上线拖拽式标签工厂等;在治理方面,平台将打造统一的元数据中心,让企业的数据资产“标准可循、质量可靠、安全可控、成本经济”;在消费方面,瓴羊Dataphin已经推出资产目录管理、资产搜索及查看等运营功能,未来还将上线资产门户、质量报告等。
随着大模型时代到来,瓴羊Dataphin也将积极拥抱AI技术,探索“数智结合”的资产运营手段。比如,在智能问数的帮助下,用户无需技术背景即可问询需要的数据,极大地降低了数据分析的门槛;通过智能特征识别、智能分类分级等手段,提高资产质量和生产效率。
在产业、政策、技术等多种因素的影响下,我国的数据治理领域仍然方兴未艾,如何在高速变化的外部环境下,为不同企业提供个性、易用、专业、安全的治理体验,仍然是横亘在产业各方面前的重要课题。未来,依托阿里巴巴数字化转型经验,瓴羊Dataphin有望以持续的迭代和演进,为企业打造全生命周期的数据资产解决方案,帮助千行百业“建好数据”、“用好数据”。
(如对瓴羊Dataphin数据治理感兴趣,欢迎扫码入群领取Dataphin白皮书)