2.DataWorks 数据集成介绍及实践(二)|学习笔记

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
大数据开发治理平台DataWorks,Serverless资源组抵扣包300CU*H
云原生数据库 PolarDB PostgreSQL 版,标准版 2核4GB 50GB
简介: 快速学习2.DataWorks 数据集成介绍及实践

开发者学堂课程【DataWorks 一站式大数据开发治理平台精品课程:2.DataWorks 数据集成介绍及实践】与课程紧密联系,让用户快速学习知识

课程地址:https://developer.aliyun.com/learning/course/81/detail/1228


2.DataWorks 数据集成介绍及实践(二)

四、离线同步

1、核心亮点

(1)数据源种类多

支持50多种常见数据源,涵盖各种关系型数据库、文件系统、大数据系统、消息系统。

(2)解决方案

支持全量和增量同步支持整库、批量数据同步支持分库分表

精细化权限管控

数据源权限安全控制开发生产环境隔离方便开发流程管控,权限清晰同步流量控制

支持复杂调度

与 DataWorks 深度融和支持定时、条件调度千万级调度规模基线设定报警管理

2、同步原理

基于数据库 JDBC 协议或数据源 SDK 进行读写

源端到目标端之间任务是通过 datax 的引擎同步的,首先datax引擎通过jdb协议或者数据源的idc进行源库数据的统筹的拉取和分割任务,虽然是一个job,但是会分成多个task,这样可以并发的去读取数据,加快数据的同步,每一个task中,都有对应到读写的相当于子线程在里面,读可以去根据分割好的区域去源库里抽取数据,同时把数据塞到对应的缓存中,最后由写入端 writer,通过调用这样的gdbc或者idk的接口,把数据灌入到目标中,实现数据的读写。

3、同步引擎支持的数据源

支持50+关系型数据库、非结构化存储、大数据存储、消息队列之间的数据同步这些数据源合在一起,读写是交叉的,基本上都能够进行读写,可以组合成各种各样的同步链路,匹配实际中的生产需要。

4、数据源演示

数据连通性包含数据集成,包括做的任务。

5、离线同步任务演示

如何通过格式化的方式建立一个任务,在 datastudio 中新建一个任务,通过配置数据的来源,可以选择来源种类和对应的表,数据源的种类和对应的表,就自动的把表进行了字段映射,这就完成了离线同步任务的建立。


五、实时同步

1、特性

(1)数据处理

支持数据过滤、Groovy函数字符串替换

(2)丰富多样的数据源

支持星型链路组合,任何种输入源都可以和任何一种输出源搭配组成同步链路。支持一个任务读多写多路输出

读取MySQL、Oracle、sQLSeverOceanBase、Kafka、 LogHub

DataHub、PolarDB

写入MaxComputeHologres (支持动态增加列)Datahub、Kafka

(3)实时库监控抽取

支持分库分表、单表、整库多表、DDL消息

(4)监控运维告警可以监控业务延迟、Failover. 脏数据心跳检查、失败信息支持邮件、电话、钉钉通知

(5)解决方案系统

把实时和离线有机的做了一个整合,支持常见数据库的整库全增量到MaxCompute、Hologres (自 动先全量再持续增量)

2、架构

输入数据源经过实时库的抽取,分库分表,在或者实时消息流的对接,这些对接的数据可以进行数据的处理,包括数据过滤,groovy 函数,字符串替换,打星号的意思是在上线您的产品中 groovy 还处于波动,但是近期就会把它增值在项目,如果有需要的用户可以进行联系,进行点对点单独开通,包括后面的多路输出也是一样,是有能力进行一读多写的能力,就是读一个数据源,可以同时写入到多个不同的数据源中,最终把数据出去,下面与之支撑是运维的系统,包括的告警系统,上面可以更加抽象组成整库全增量解决方案,可以实现整库增量同步,可以把数据做自动增量的融合,这些解决方案只需要做一个简单配置即可。

image.png

3、核心技术点

脏数据收集机制

image.png

把脏数据进行统一的收集,收集后通过收集接口写入到收集的地方,包括写入到本地, loghub 中或者写入到 maxcompute

4、界面演示

(1)支持MysqI、Oracle、Datahub、Loghub、Kafka实时同步到Datahub、Kafka等目的端,通过拖拽即可完成开发。同步新建任务的展示,包括可以看到新建任务时,有几种任务,这里选择的单表进行展示。输入任务的名字,在界面中拖拽输入跟输出节点即可,进行连线完成源端到目标端的输出,配置来源数据,具体的表,可以看到字段是自动拉取出来的,目标端也一样,目标端可以把数据源选择一下,选择目标端表,可以针对表做字符串做字段的映射这就完成了实时同步的任务的配置。

(2)支持简单的数据过滤、替换及 Groovy 自定义处理能力。刚才任务中加数据节点,通过编辑数据处理的属性,就可以实现简单的数据处理,整个操作在探讨。


六、同步解决方案

不是面向一个任务进行单独的做任务的配置或者同步,还是面向一系列的使用场景,在场景中它会自动的去帮用户去建立,包括从建表,建立任务或者启动任务这些流程做统一的整合

1、整库迁移

帮助提升用户效率、降低用户使用成本的一种快捷工具,它可以快速

把一个关系型数据库(MySQL/Oracle/Sqlserver/DRDS等)内所有表一并上传到MaxCompute 的工作。把关系数据库里面所有的表进行一次性同步到MaxCompute中,选择目标后,可以把原选择库中所有的表进行逐一的同步,在这过程中会自动的进行建表,可以设置同步的时间点,是整批还是分批,都是可以。

2、批量上云

支持将多个数据库同时上传至 MaxCompute,选择三个数据源,把数据源上所有的表都同步到 MaxCompute 中,指定同步的间隔,提交任务,支持配置表名转换、字段名转换、字段类型转换、目标表新增字段、目标表字段赋值、数据过滤、目标表名前缀等规则,来满足多种业务场景需求。

3、解决方案系统

全增量实时同步

以非常方便的将现有数据库通过简单的配置后完成存量的全量迁移以及后续增量的实时同步。

这是全增量实时同步的解决方案,一键同步到 MaxCompute 的解决方案,操作都是一样的,选择源表,源库,选择目标库,hologress 选择完之后就可以把对应到的源表上所有对应的表,在hologress中进行建表,建立任务,指定对应的资源组,目前只能用独享资源组,建立好后,就有对应的解决任务,可以看到都是解决方案自动排放用户进行建立任务建立表等等,可以点击每个任务中查看详情

支持:

(1)自动在目标库建表

(2)自动建立离线同步任务

(3)自动建立实时任务

(4)自动启动离线任务

(5)自动启动实时任务

(6)自动建立和启动增量和全量的融和任务

(7)全流程分布监控和展示支持分步重试


七、收费模式

公有云收费模式

公有云中是分为4收费点进行收费,跟使用到的资源组相关的。

1、按实例数收费

前提:使用公共资源组按实例并发数阶梯计费可以使用预付费的资源包来节省费用

2、包年包月

前提:使用独享资源组只按照机器规格和年月时长计费,与运行实例数无关

3、版本费

前提:使用自定义资源组只在专业版及以上版本才提供支持自定义资源组

4、网络费

前提:使用了公网与阿里云进行数据传输。按照流量收取,阿里云统一标准国内: 0.8元/GB

相关文章
|
2天前
|
SQL 分布式计算 DataWorks
活动实践 | DataWorks智能交互式数据开发与分析之旅
本指南介绍了如何使用阿里云平台进行大数据开发与分析。首先,在MaxCompute控制台创建项目并配置计算资源;接着,通过DataWorks控制台创建工作空间和独享资源组,并绑定工作空间。然后,创建个人开发环境,载入案例并新建Notebook实例。在Notebook中,通过SQL和Python Cell进行交互式开发和数据分析,体验智能助手Copilot的功能,如SQL改写、解释、生成注释及智能建表。最后,清理所有创建的资源,包括删除DataWorks资源、MaxCompute项目及网络配置,确保环境整洁。
|
2月前
|
机器学习/深度学习 人工智能 jenkins
软件测试中的自动化与持续集成实践
在快速迭代的软件开发过程中,自动化测试和持续集成(CI)是确保代码质量和加速产品上市的关键。本文探讨了自动化测试的重要性、常见的自动化测试工具以及如何将自动化测试整合到持续集成流程中,以提高软件测试的效率和可靠性。通过案例分析,展示了自动化测试和持续集成在实际项目中的应用效果,并提供了实施建议。
|
2月前
|
jenkins Devops Java
DevOps实践:Jenkins在持续集成与持续部署中的价值
【10月更文挑战第27天】在快速发展的软件开发领域,DevOps实践日益重要。Jenkins作为一款流行的开源自动化服务器,在持续集成(CI)和持续部署(CD)中扮演关键角色。本文通过案例分析,探讨Jenkins在Java项目中的应用,展示其自动化构建、测试和部署的能力,提高开发效率和软件质量。
77 2
|
7天前
|
分布式计算 DataWorks 大数据
🚀DataWorks 深度实践与评测:数据治理新时代的全景体验。
在数字化转型中,企业不仅需要技术创新,更需完善的**数据管理和开发治理工具**。DataWorks 作为阿里云推出的一站式智能大数据平台,整合了阿里巴巴15年的大数据经验,提供从数据接入、开发、治理到资产管理的全流程解决方案。它支持湖仓一体架构,内置AI助手提升开发效率,并适用于金融、零售等多行业。本文将深入探讨 DataWorks 的功能、应用场景及性能表现,通过用户画像分析实践展示其强大潜力...
26 8
🚀DataWorks 深度实践与评测:数据治理新时代的全景体验。
|
28天前
|
DataWorks 数据挖掘 大数据
方案实践测评 | DataWorks集成Hologres构建一站式高性能的OLAP数据分析
DataWorks在任务开发便捷性、任务运行速度、产品使用门槛等方面都表现出色。在数据处理场景方面仍有改进和扩展的空间,通过引入更多的智能技术、扩展数据源支持、优化任务调度和可视化功能以及提升团队协作效率,DataWorks将能够为企业提供更全面、更高效的数据处理解决方案。
|
30天前
|
SQL 数据采集 DataWorks
基于DataWorks的多场景实践及数据开发Data Studio最新体验测评
DataWorks是阿里云推出的一站式智能大数据开发治理平台,自2009年发布以来,历经多次迭代,成为企业数字化转型的重要工具。本文通过多个实践案例,如公共电影票房数据预处理,展示了DataWorks如何帮助企业高效处理大数据,涵盖数据集成、ETL开发、数据分析及治理等全流程。最新版DataWorks引入了智能助手Copilot,进一步提升了用户体验和工作效率。
|
1月前
|
SQL 数据采集 DataWorks
DataWorks产品最佳实践测评:用户画像分析实践
DataWorks作为阿里云提供的一款大数据开发治理平台,以其强大的数据处理能力和便捷的操作界面,在数据处理领域扮演着重要角色。本文将基于个人体验,对DataWorks产品进行最佳实践测评,重点探讨用户画像分析实践,并提出优化建议。
63 11
|
1月前
|
数据采集 DataWorks 搜索推荐
DataWorks产品最佳实践测评:用户画像分析实践
DataWorks产品最佳实践测评:用户画像分析实践
82 3
|
2月前
|
运维 Devops jenkins
DevOps实践:持续集成与持续部署在现代软件开发中的作用
【10月更文挑战第42天】在快节奏的软件开发世界里,DevOps已经成为一种提升效率、确保质量和加速交付的重要方法。本文将深入探讨DevOps的核心组成部分—持续集成(CI)和持续部署(CD)—并展示它们如何通过自动化流程优化开发周期。我们将从基础概念讲起,逐步过渡到实际操作,最终通过一个简单代码示例来演示这一过程。文章旨在为读者提供清晰的指导,帮助他们理解和实现CI/CD流程,从而在软件开发领域取得竞争优势。
|
2月前
|
Devops jenkins 测试技术
DevOps实践:自动化部署与持续集成的融合之旅
【10月更文挑战第41天】在软件开发的世界中,快速迭代和高效交付是企业竞争力的关键。本文将带你走进DevOps的核心实践——自动化部署与持续集成,揭示如何通过它们提升开发流程的效率与质量。我们将从DevOps的基本理念出发,逐步深入到具体的技术实现,最终展示一个实际的代码示例,让理论与实践相结合,为你的开发旅程提供清晰的指引。
65 4

热门文章

最新文章

  • 1
    DataWorks操作报错合集之DataWorks任务异常 报错: GET_GROUP_SLOT_EXCEPTION 该怎么处理
    131
  • 2
    DataWorks操作报错合集之DataWorksUDF 报错:evaluate for user defined function xxx cannot be loaded from any resources,该怎么处理
    133
  • 3
    DataWorks操作报错合集之在DataWorks中,任务流在调度时间到达时停止运行,是什么原因导致的
    118
  • 4
    DataWorks操作报错合集之DataWorks ODPS数据同步后,timesramp遇到时区问题,解决方法是什么
    110
  • 5
    DataWorks操作报错合集之DataWorks配置参数在开发环境进行调度,参数解析不出来,收到了 "Table does not exist" 的错误,该怎么处理
    111
  • 6
    DataWorks操作报错合集之DataWorks中udf开发完后,本地和在MaxCompute的工作区可以执行函数查询,但是在datawork里报错FAILED: ODPS-0130071:[2,5],是什么原因
    131
  • 7
    DataWorks操作报错合集之DataWorks提交失败: 提交节点的源码内容到TSP(代码库)失败:"skynet_packageid is null,该怎么解决
    139
  • 8
    DataWorks操作报错合集之DataWorks在同步mysql时报错Code:[Framework-02],mysql里面有个json类型字段,是什么原因导致的
    177
  • 9
    DataWorks操作报错合集之DataWorks集成实例绑定到同一个vpc下面,也添加了RDS的IP白名单报错:数据源配置有误,请检查,该怎么处理
    95
  • 10
    DataWorks操作报错合集之在 DataWorks 中运行了一个 Hologres 表的任务并完成了执行,但是在 Hologres 表中没有看到数据,该怎么解决
    141