企业的实时数据一般存储在大数据引擎中,实时数据通常会产生许多非结构化的日志数据,这类日志数据以及企业的离线数据可以使用通过Elasticsearch全托管方式提供的冷热存储方案进行存储。基于该功能,DataWorks为您提供了整库离线同步数据至Elasticsearch的解决方案,轻松助力企业同步整库数据至Elasticsearch中。同时,您可以查看创建的同步任务详情,监控任务的运行状况,提高自动化运维管理效率。整库离线同步任务可以将业务库数据全量或增量同步至ElasticSearch中,用于做数据检索、数据分析或后续进行数据开发。其优势如下:整库级别同步。 无需逐个创建表级别的数据同步任务,支持直接创建库级别的同步任务,选择目标库的部分或全部表数据进行同步。同步方式多样。 支持全量、增量以及全量和增量相结合的方式同步数据。同时,支持对同步任务进行周期性调度配置。配置操作简单。 您无需进行创建同步任务、创建数据库、创建表、创建相互依赖以及执行参数对齐等复杂操作,通过简单的产品配置向导,即可完成对应功能的配置。成本较低,自动化运维管理效率较高。
https://help.aliyun.com/document_detail/198908.html,此回答整理自钉群“DataWorks交流群(答疑@机器人)”
配置查看DataWorks整库离线同步任务的背景信息可以在以下几个步骤中完成:
完成数据源、网络、资源的准备配置后,您可创建实时同步节点,将多种输入及输出数据源搭配组成同步链路,进行单表或整库数据的实时增量同步。本文为您介绍如何创建单表或整库增量数据实时同步任务,并在创建完成后查看任务运行情况。https://help.aliyun.com/zh/dataworks/user-guide/configure-a-real-time-synchronization-node-in-datastudio?spm=a2c4g.11186623.0.i4
前提条件
已完成数据源配置。您需要在数据集成同步任务配置前,配置好您需要同步的源端和目标端数据库,以便在同步任务配置过程中,可通过选择数据源名称来控制同步任务的读取和写入数据库。实时同步支持的数据源及其配置详情请参见实时同步支持的数据源。
说明
数据源相关能力介绍详情请参见:数据源概述。
已购买合适规格的独享数据集成资源组。详情请参见:新增和使用独享数据集成资源组。
独享数据集成资源组与数据源网络已打通。详情请参见:配置资源组与网络连通。
进入数据开发
实时同步任务配置入口在数据开发模块,您需要前往数据开发进行创建。
进入数据开发页面。
登录DataWorks控制台,单击左侧导航栏的数据建模与开发 > 数据开发,在下拉框中选择对应工作空间后单击进入数据开发。
操作流程
步骤一:创建实时同步节点
步骤二:配置资源组
步骤三:配置整库实时同步任务
步骤四:提交并发布实时同步任务
在 DataWorks 中,可以按照以下步骤查看整库离线同步任务背景信息:
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。