【云栖实录】DataWorks:新一代智能湖仓一体数据开发与治理平台

本文涉及的产品
大数据开发治理平台DataWorks,Serverless资源组抵扣包300CU*H
简介: 在9月21日的云栖大会上,DataWorks发布了新一代智能湖仓一体数据开发与治理平台。DataWorks历经Kubernetes改造与云原生调度系统的优化,实现了资源组全面Serverless化,降低了使用成本,最高可节省40%。新推出的DataWorks Data Studio,支持多种计算引擎,提供更开放的云原生WebIDE,提升开发效率。DataWorks Copilot智能助手也得到升级,支持多种SQL方言和Python代码生成,平均提升数据开发效率35%。此外,DataWorks还推出了全方位的数据资产治理体系,涵盖业务和技术视角,助力企业实现数据智能化管理和转型。

本文根据9月21日云栖大会—【大数据:商用大数据计算与分析平台专场】DataWorks 深度技术解读、年度产品发布实录整理而成,演讲信息如下:

演讲人

林伟 | 阿里云智能集团研究员、阿里云 DataWorks 负责人

田奇铣|阿里云智能集团高级产品专家、阿里云 DataWorks 产品负责人

演讲主题:

DataWorks 深度技术解读:构建开放的云原生数据开发平台

DataWorks 年度产品发布:新一代智能湖仓一体数据开发治理平台


阿里云智能集团研究员、DataWorks 负责人林伟发布新一代大数据开发治理平台 DataWorks 并进行了深度的技术解读。DataWorks 积累和沉淀了阿里巴巴15年大数据建设方法论和最佳实践,深度适配阿里云 MaxCompute、Hologres、EMR、Flink、PAI 等数十种大数据和 AI 计算服务。今年,DataWorks全新升级和推出新一代智能湖仓一体数据开发与治理平台,为 OpenLake 湖仓一体数据架构提供智能化数据集成、数据开发、数据分析与主动式数据资产治理服务,助力“Data+AI”全生命周期的数据管理,致力于为用户构建一个开放的云原生数据开发治理平台。

DataWorks 全面云原生转型,资源组全面 Serverless 化

今年是 DataWorks 迎来重大变革的一年,为了提升整体的服务效率和平台的开放度,DataWorks 进行了Kubernetes 改造,优化了任务调度策略,增强了网络层的灵活性以适配多样化需求。此外,引入了云原生调度系统,并对资源节点进行优化,以便更好地对接云产品,同时简化了用户对网络管理的复杂度,提升了数据处理的便捷性和灵活性。在此基础上 DataWorks 实现了资源组全面 Serverless 化,从原有多类型资源组统一为通用型资源组,Serverless 化不仅带来使用门槛的降低,更显著提升了资源的利用效率,付费方式的灵活和资源效率的提升,在保障更高安全性的情况下,大幅度降低了使用成本,特定使用场景下成本最高可节省40%。未来 DataWorks 将持续释放云原生技术红利,帮助企业有效降低数据生产的成本。

新一代智能数据开发平台 DataWorks Data Studio,Data+AI 协同开发平台

容器化资源管理能力为 DataWorks 在数据开发层面带来了更多的可能,通过标准化支持云网络 VPC 能力以及自身 OpenAPI 的体系化建设从而能够很好连接丰富的云产品。解耦数据源和计算资源,重新定义数据源和计算资源的顶层概念模型,抽象化数据源格式,标准化对接云产品,使得 DataWorks 可以快速对接除数据仓库以外的更多元的计算引擎和数据源类型,成为更开放可扩展的数据开发平台。

为更好的适应湖仓一体、Data+AI 的发展趋势与需求,DataWorks 正式推出全新一代数据开发 IDE,即DataWorks Data Studio,在原有基础上进行全面的架构和云原生化升级,致力于打造一个更加开放的、更符合开发者习惯的云原生 WebIDE。新一代 Data Studio 适配更多计算引擎,新增支持流式计算引擎 Flink、StarRocks 等主流 OLAP 计算引擎;全新升级工作流,将工作流定义为可编排可管理、可独立调度的实体对象;覆盖多种数据仓库、Lakehouse 湖仓的统一元数据管理,同时覆盖了包含 AI 数据集、AI 模型在内的数据实体对象。可支持基于 OpenLake 湖仓一体架构的多种计算引擎协同数据开发。

新一代 Data Studio 更大的升级是在开发模式上,在传统的 WebIDE 之上,DataWorks 全新推出个人开发环境。个人开发环境是一种云原生的 WebIDE,构建在 Serverless 资源组之上,可为开发者提供自定义容器实例和自定义镜像能力,可以执行 Python、Shell 等脚本,并支持代码调试。在个人开发环境中,支持连接云存储 NAS 和 GIT,用户可以自由选择将任务代码存储在 NAS 中或者使用 GIT 进行代码版本管理。从 WebIDE 到云原生版 WebIDE,DataWorks 可以让你在任意地点像使用本地 IDE 一样使用云上的 IDE最大程度为开发者保留更 Native 的开发体验。

个人开发环境的出现使得 DataWorks Notebook 应运而生,DataWorks Notebook 基于 PAI-DSW 构建,重点解决了 Jupyter Notebook 对于大数据开发分析支持的不完善的问题和增强了 Data+AI 协同开发的能力。DataWorks Notebook 支持多种计算引擎 SQL 查询,增强数据可视化,支持 Python 与 SQL 交互式数据分析,内置 Copilot 智能助手。DataWorks Notebook 同时将大数据计算引擎的分布式数据处理、Python 单机和分布式数据处理、AI 模型训练协同起来,提供 Data+AI 一站式协同开发。

全新升级 DataWorks Copilot 智能助手,数据开发分析平均提效35%

阿里云智能集团高级产品专家、DataWorks 产品负责人田奇铣表示,DataWorks Copilot 自2023年10月发布以来,每天都在持续进化。在编程助手方向,从起初只支持 MaxCompute SQL 生成,到如今全面支持包含 MaxCompute SQL、Hologres SQL、Spark SQL、Hive SQL、StarRocks SQL 等在内的各类计算引擎的 SQL 方言的生成和 SQL 代码补全,同时支持 Python 等非 SQL 语言的代码生成;在 AI Agent 方向持续丰富,尤其是数据开发流程上提供各类 Agent,通过大模型的语义理解与内容生成能力,在找表、建表、图表生成、代码变更描述和函数描述生成等方面提供 Agent,提升了操作效率和体验。据调研统计,DataWorks Copilot 可平均为数据开发和分析工作效率提升35%,更重要的是, Copilot 为开发者在开发过程中带来愉悦感。

DataWorks 全新升级数据资产治理,AI 时代的数据资产治理

业务价值是数据资产治理的核心驱动力,为加速企业数据治理工作的落地,我们将 DataWorks 数据治理中心全新升级为 DataWorks 数据资产治理,提供了从技术视角+业务视角的资产治理体系和 Data+AI 全方位数据资产治理体系。DataWorks 数据资产治理新增通过业务标签将数据资产按数据产品或者业务进行分类,然后基于业务标签自动进行业务数据资产的健康评估,自动识别问题业务资产,推荐场景化数据治理计划,增强数据质量管理及数据安全管控。DataWorks 数据资产治理增加了对 AI 资产的覆盖,全新推出 Data+AI 全链路数据血缘,从数据集、数据处理、PAI 模型训练到 PAI 推理服务,端到端全链路追溯和可视化展现数据血缘,帮助 AI 开发者记录和识别数据与模型之间的关系,加速 AI 模型的迭代效率。

更开放的 DataWorks,更好的开发者体验

DataWorks 致力于为开发者提供更开放的、更灵活、更 Native 的开发体验。

DataWorks 将调度系统中DAG背后完整的定义描述FlowSpec完全开源(https://github.com/aliyun/alibabacloud-DataWorks-tool-dflow),并提供了便捷的配套工具,用户可以基于DataWorks FlowSpec快速将其他调度系统的工作流导入到DataWorks,也可以便捷的将DataWorks中的工作流导出,从而不用担心被Lock-in的问题。

同时,DataWorks 在提供高效方便的可视化开发界面的同时,也为用户提供了覆盖 DataWorks 完整产品能力的全套 OpenAPI,使得用户可以结合自身业务特点,将DataWorks的能力集成到其自有平台,甚至是构建一套高度定制化的数据管理平台。

DataWorks致力于打造更加开放、更加智能的,面向湖仓一体架构和Data+AI场景的一站式数据开发治理平台,助力企业快速实现数据价值的最大化和智能化转型。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
相关文章
|
12天前
|
SQL 分布式计算 DataWorks
活动实践 | DataWorks智能交互式数据开发与分析之旅
本指南介绍了如何使用阿里云平台进行大数据开发与分析。首先,在MaxCompute控制台创建项目并配置计算资源;接着,通过DataWorks控制台创建工作空间和独享资源组,并绑定工作空间。然后,创建个人开发环境,载入案例并新建Notebook实例。在Notebook中,通过SQL和Python Cell进行交互式开发和数据分析,体验智能助手Copilot的功能,如SQL改写、解释、生成注释及智能建表。最后,清理所有创建的资源,包括删除DataWorks资源、MaxCompute项目及网络配置,确保环境整洁。
|
4天前
|
SQL 存储 JSON
实时数仓 Hologres 产品介绍:一体化实时湖仓平台
本次方案的主题是实时数仓 Hologres 产品介绍:一体化实时湖仓平台,介绍了 Hologres 湖仓存储一体,多模式计算一体、分析服务一体和 Data+AI 一体四方面一体化场景,并对其运维监控方面及客户案例进行一定讲解。 1. Hologres :面向未来的一体化实时湖仓 2. 运维监控 3. 客户案例 4. 总结
27 14
|
10天前
|
数据采集 机器学习/深度学习 DataWorks
DataWorks产品评测:大数据开发治理的深度体验
DataWorks产品评测:大数据开发治理的深度体验
59 1
|
19天前
|
SQL 人工智能 自然语言处理
DataWorks年度发布:智能化湖仓一体数据开发与治理平台的演进
阿里云在过去15年中持续为268集团提供数据服务,积累了丰富的实践经验,并连续三年在IDC中国数据治理市场份额中排名第一。新一代智能数据开发平台DateWorks推出了全新的DateStudio IDE,支持湖仓一体化开发,新增Flink计算引擎和全面适配locs,优化工作流程系统和数据目录管理。同时,阿里云正式推出个人开发环境模式和个人Notebook,提升开发者体验和效率。此外,DateWorks Copilot通过自然语言生成SQL、代码补全等功能,显著提升了数据开发与分析的效率,已累计帮助开发者生成超过3200万行代码。
|
19天前
|
人工智能 Cloud Native 大数据
DataWorks深度技术解读:构建开放的云原生数据开发平台
Dateworks是一款阿里云推出的云原生数据处理产品,旨在解决数据治理和数仓管理中的挑战。它强调数据的准确性与一致性,确保商业决策的有效性。然而,严格的治理模式限制了开发者的灵活性,尤其是在面对多模态数据和AI应用时。为应对这些挑战,Dateworks进行了重大革新,包括云原生化、开放性增强及面向开发者的改进。通过Kubernetes作为资源底座,Dateworks实现了更灵活的任务调度和容器化支持,连接更多云产品,并提供开源Flowspec和Open API,提升用户体验。
|
1月前
|
SQL 分布式计算 DataWorks
DataWorks智能交互式数据开发与分析之旅
本次实验将带您进行DataWorks Notebook的快速入门,包含:Notebook新建、多引擎SQL开发与分析、Python开发、交互式分析等,同时,使用DataWorks Copilot体验智能数据开发,体验智能交互式数据探索之旅。
2489 10
|
8天前
|
DataWorks 监控 数据建模
DataWorks产品体验评测
DataWorks产品体验评测
|
3天前
|
分布式计算 DataWorks 搜索推荐
DataWorks 产品评测与最佳实践探索!
DataWorks 是阿里巴巴推出的一站式智能大数据开发治理平台,内置15年实践经验,集成多种大数据与AI服务。本文通过实际使用角度,探讨其优势、潜力及改进建议。评测涵盖用户画像分析、数据治理、功能表现等方面,适合数字化转型企业参考。
12 1
|
22天前
|
SQL DataWorks 大数据
DataWorks产品体验测评
一文带你了解DataWorks大数据开发治理平台的优与劣
149 11
|
29天前
|
数据采集 人工智能 DataWorks
DataWorks产品最佳实践测评
DataWorks产品最佳实践测评

热门文章

最新文章

相关产品

  • 大数据开发治理平台 DataWorks