2.2离线同步能力介绍 | 学习笔记

简介: 快速学习2.2离线同步能力介绍

开发者学堂课程【全链路数据治理-全域数据集成2.2离线同步能力介绍学习笔记,与课程紧密连接,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/1082/detail/16060


2.2离线同步能力介绍


离线同步能力介绍

接下来我们来介绍离线同步的功能,离线同步提供了一套抽象化的数据抽取插件与数据写入插件,并基于此框架设计了一套简化版的中间数据传输格式,实现任意结构化,半结构化数据源之间的数据传输,支持单表同步至单表,分布分表数据同步至单表等场景。同时,它也支持复杂网络环境下的数据同步,包含云数据库、本地或者ecs自建数据库或者非压的云数据库等环境下的数据同步在配置之前,同样需要保证网络的联通,在数据开发data studio当中配置离线同步任务,可以支持单表同步至单表分库分表同步至单表,如果你需要将多库多表数据同步至目标端的多表,需要使用数据集成主站当中的整库离线同步解决方案,同步解决方案的使用也可以参考帮助文档。

使用权限,离线同步暂不支持跨时区同步数据,如果同步任务中同步的数据源与使用的datawall资源组不在同一个时区,会导致同步的数据有误。

接下来是离线同步的离线调度的能力,离线同步依托了dataverse强大的调度能力,可以为您实现离线任务的周期性自动调度执行,结合dataverse的调度参数,可以实现增量数据和全量数据写入到目标表对应分区调度参数,结合dataverse的补数据功能,可实现一套任务配置,批量将历史数据同步至目标数据库或数据仓库指定表或者表指定的分区,具体可以参考这沃的调度参数与补数据的使用。

离线同步的场景与配置,这里分别有单表或者分库分表同步至单表的场景,以及全量和增量的数据同步,在这里会有向导模式以及其他方式不同的同步方式,那接下来我们会针对不同的同步方式进行说明,第一个向导模式其实就是dataverse数据集成当中提供的向导式的开发引导,可以通过可视化的填写和下一步的引导,帮助您快速完成数据同步任务的配置工作。向导模式学习,成本比较低,但是无法支持一些高级的功能。

第二个是脚本模式,我们可以提供脚本式的开发引导,直接通过编写数据库的JSON脚本来完成数据同步开发,适合一些高级的用户,学习成本相对比较高。

第三个是通过dataverse离线同步创建API,通过API的调用会实现数据集成离线任务的创建,dataverse opened API是依赖dataverse企业版相关的能力最后是dataverse离线同步相关的这个附加能力,那首先我们能够实现字段映射关系与赋值,在同步任务配置过程中,您可以通过字段映射来定义源端字段与目标端字段的读取和写入关系,源端某字段数据将会根据字段映射关系写入目标端对应的字段中。同时,我们也支持多种的字段映射方式,也支持目标表字段的一个数制。

第二点是我们作业速率上限的控制,我们可以在界面上进行控制数据同步过程相关的属性,比如说支持通过并发控制来限制数据集成读取和写入数据库的最大并发数,同时,支持通过限流控制来保持数据库的保护,这个数据库的读写压力,在不限流的情况下,任务将所在配置的并发数的限制基础上提供硬件环境下最大的传输性能。

第三点是分布式的任务执行,部分数据源会支持分布式的任务执行,可以将任务进行切片,分散到多个执行节点上进行并发。另外,这种分布式的模式也对机器的碎片资源和资源利用率非常的友好。

第四是我们对于张书记的定义,刚才在实时同步篇已经做了一些简单的介绍,大家可以参考上一篇章,最后我们附表上就是离线同步支持的数据源以及对应的能力,大家可以参考自己使用的数据源类型以及数据同步的方式,然后看一下在我们的数据集成还是data studio的入口。

相关文章
|
消息中间件 存储 NoSQL
离线与实时数据开发方案
离线与实时数据开发方案
394 0
pip镜像源大全及配置
在中国使用pip时,可以配置国内镜像源来提高安装速度和稳定性。以下是一些常见的国内镜像源:
19688 0
|
存储 关系型数据库 MySQL
DataX: 阿里开源的又一款高效数据同步工具
DataX 是由阿里巴巴集团开源的一款大数据同步工具,旨在解决不同数据存储之间的数据迁移、同步和实时交换的问题。它支持多种数据源和数据存储系统,包括关系型数据库、NoSQL 数据库、Hadoop 等。 DataX 提供了丰富的数据读写插件,可以轻松地将数据从一个数据源抽取出来,并将其加载到另一个数据存储中。它还提供了灵活的配置选项和高度可扩展的架构,以适应各种复杂的数据同步需求。
|
8月前
|
人工智能 开发框架 安全
Serverless MCP 运行时业界首发,函数计算让 AI 应用最后一公里提速
作为云上托管 MCP 服务的最佳运行时,函数计算 FC 为阿里云百炼 MCP 提供弹性调用能力,用户只需提交 npx 命令即可“零改造”将开源 MCP Server 部署到云上,函数计算 FC 会准备好计算资源,并以弹性、可靠的方式运行 MCP 服务,按实际调用时长和次数计费,欢迎你在阿里云百炼和函数计算 FC 上体验 MCP 服务。
736 30
|
分布式计算 大数据 关系型数据库
MaxCompute产品使用问题之如何为新表添加列并向新列插入数据
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
470 1
|
存储 文件存储 数据库
在飞牛 NAS 上部署宝塔面板
飞牛NAS成为家庭私有云热门选择,通过部署宝塔面板,用户可以轻松搭建网站及各类Web应用,如相册、笔记、影视库等。本文介绍如何在飞牛NAS上安装宝塔面板,实现快速配置网站、数据库等服务,特别适合新手操作。
1828 5
在飞牛 NAS 上部署宝塔面板
|
分布式计算 Oracle NoSQL
DataX教程(01)- 入门
DataX教程(01)- 入门
9199 0
DataX教程(01)- 入门
|
人工智能 分布式计算 DataWorks
DataWorks
DataWorks是阿里巴巴推出的智能化大数据开发与治理平台,支持数据仓库、数据湖等架构,集成多种阿里云大数据计算服务,如MaxCompute、Hologres等,助力政府、金融、零售等行业实现数据全生命周期管理,推动数字化转型和数据资产增值。
|
存储 算法 数据挖掘
重磅发布 | OpenSearch推出向量检索GPU图算法方案并支持GPU规格售卖
OpenSearch向量检索版推出了面向企业开发者的GPU图算法方案(CAGRA算法),支持客户直接购买GPU规格节点,是国内首家支持GPU规格的向量检索产品。
964 12
|
机器学习/深度学习 算法 数据挖掘
从零到精通:Scikit-learn在手,数据分析与机器学习模型评估不再难!
【10月更文挑战第4天】在数据科学领域,模型评估是连接理论与实践的桥梁,帮助我们理解模型在未知数据上的表现。对于初学者而言,众多评估指标和工具常令人困惑。幸运的是,Scikit-learn 这一强大的 Python 库使模型评估变得简单。本文通过问答形式,带你逐步掌握 Scikit-learn 的评估技巧。Scikit-learn 提供了丰富的工具,如交叉验证、评分函数(准确率、精确率、召回率、F1 分数)、混淆矩阵和 ROC 曲线等。
248 1