DataWorks上数据集成任务如何解决网络问题

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
RDS MySQL Serverless 高可用系列,价值2615元额度,1个月
简介: DataWorks是一个一站式智能大数据研发平台,在DataWorks上我们可以做一系列与大数据开发相关的工作。今天主要给大家讲解,在DataWorks上配置数据集成任务时,遇到的那些网络不通的问题该如何处理。

特别声明:本文介绍的场景是各种网络环境下的数据库该如何将数据上云(同步的目标端为MaxCompute),若同步的目标端为其他数据源,本文也可参考,底层执行原理基本一致。

网络背景(全局通用)

在讲网络问题的解决方案之前,先给大家讲讲阿里云上的网络背景。

  1. 同一region下,经典网络环境中的机器与经典网络环境中的机器,内网是可以互通的。
  2. 同一region下,VPC网络环境中的机器与VPC网络环境中的机器,内网是可以互通的
  3. 同一region下,经典网络环境中的机器和VPC网络环境中的机器,不保证内网可通。
  4. 不同region下,经典网络环境中的机器与经典网络环境中的机器,不保证内网可通。
  5. 不同region下,VPC网络环境中的机器与VPC网络环境中的机器,不保证内网可通。
  6. 不同region下,经典网络环境中的机器和VPC网络环境中的机器,不保证内网可通。
  7. 阿里云上的ECS和本地IDC机房中的机器,默认内网不通,只能走公网。

介绍完整体的网络背景,总结了一句话: 只有同一region下,同一网络环境中的机器,内网才能互通,如果开启了安全组或白名单,请自行添加。

场景描述 - 数据源测试连通性失败

最近很多用户都会问我,你好,我的数据源测试连通性的时候失败了,该如何处理呢?
结合上面介绍的网络背景,我们需要有一个灵魂三问(请):

  1. 该数据源是云数据库还是自建的数据库 ?

注:云数据库类似rds,是阿里云上已经搭建好的数据库服务,用户可直接使用。自建的数据库是指,本地IDC机房中自建搭建的数据库,或者是在阿里云上通过ECS自己搭建的数据库。

  1. 数据库所在的Region和DataWorks项目所在Region是否相同?
  2. 数据库的网络环境是什么?

云数据库

由于RDS数据库在网络方面做得比较好,即使是RDS数据库所在的region 和DataWorks 项目不在同一 region下,且数据库网络也是VPC环境下,测试连通性也是可以连通的(因为RDS做了 VPC反向代理)。除RDS数据库外,其他云数据库都可通过以下问题来判断,通过什么方式同步数据比较好,以下两问需严格注意。

第一问:数据库所在的Region和DataWorks项目所在Region是否相同?

  • 当数据库所在region和DataWorks项目在同一region下时,那么就需要看下一个问题,数据库的网络环境了。
  • 当数据库所在region和DataWorks项目不在同一region下时 ,大概率下内网是无法互通的,此时请考虑使用公网,如果不想用公网的话,可以使用自定义资源组。

注:数据集成添加自定义资源组的操作流程:https://help.aliyun.com/document_detail/72979.html
特别注意:在添加自定义资源组中机器时,需保证,该机器与您的数据库内网可达,判断规则可借鉴第一节网络背景。

第二问:数据库的网络环境是什么?

  • 当云数据库网络环境是经典网络时,由于DataWorks底层任务运行的机器,是部署在经典网络环境下的,所以同一region下,经典网络的机器与经典网络的机器网络是可以互通的,如果测试连通性失败,那么可以考虑一下,是不是白名单没有加全;或者用户名、密码等连接方式是否书写正确。
  • 当云数据库网络环境是VPC网络时,大概率下内网是无法互通的,此时可以通过添加自定义资源组的方式,来解决网络问题。

DataWorks数据集成白名单地址:https://help.aliyun.com/document_detail/72977.html

数据集成添加自定义资源组的操作流程:https://help.aliyun.com/document_detail/72979.html
特别注意:在添加自定义资源组中机器时,需保证,该机器与您的数据库内网可达,判断规则可借鉴第一节网络背景。

ECS上的自建数据库

ECS上自建数据库和云数据库的情况基本一致,建议DataWorks的项目和自建数据库的ECS在同一region下。如果DataWorks项目和自建数据库的ECS不在同一region下时,又不想使用公网进行数据传输,可以考虑使用数据集成的自定义资源组来运行任务。

注:数据集成添加自定义资源组的操作流程:https://help.aliyun.com/document_detail/72979.html

特别注意:在添加自定义资源组中机器时,需保证,该机器与您的数据库内网可达,判断规则可借鉴第一节网络背景。

本地IDC机房中的自建数据库

当本地IDC机房中的自建数据库需要上云的话,可以优先选择通过公网传递数据。若不想将本地IDC机房中的机器开启公网访问的话,可以使用DataWorks上的自定义资源组来完成数据传输;或者通过专线打通网络。

注:数据集成添加自定义资源组的操作流程:https://help.aliyun.com/document_detail/72979.html

特别注意,当测试连通性失败,准备使用自定义资源组来运行任务时。您需要确认您注册数据源输入的数据库连接地址、数据库名、用户名、密码等信息输入是正确的,确认后选择完成即可。image

场景描述 - 配置数据同步任务

结合上文,当数据源添加成功后,如何完成接下来的同步任务配置。主要分为两个部分,数据源测试连通性成功,或数据源测试连通性失败时该如何处理。

测试连通性成功的同步任务配置

当测试连通性成功的时候,表示DataWorks任务的默认执行集群与您要同步的数据库之间的网络是可达的,那么您只需要通过正常任务配置即可。任务配置文档可参考:向导模式同步任务配置

测试连通性失败的同步任务配置

当测试连通性失败时,表示DataWorks任务的默认执行集群与您要同步的数据库之间的网络是不可达的。那么意味着,您无法使用向导模式来配置同步任务(无法获取到数据库中表的元数据信息),只能通过脚本模式来配置同步任务(因为数据源中表的元数据信息可以手填),详情请参考:脚本模式同步任务配置

切记:脚本模式同步任务配置完成以后,需要在右上角的任务运行资源组中,指定同步任务运行所在的资源组。

image

总结

当您的数据库与DataWorks任务的默认执行集群不通时(测试连通性失败),配置同步任务需注意以下几点:

  1. 添加数据集成自定义资源组
  2. 使用脚本模式配置同步任务
  3. 修改同步任务运行的资源组

特别注意:在添加自定义资源组中机器时,需保证,该机器与您的数据库内网可达,判断规则可借鉴第一节网络背景。。

如果参考上述方法,还是没法解决问题,那么建议工单咨询。若对本文有无法理解的地方,可加入DataWorks用户交流群给我们反馈,感谢您的支持。DataWorks数加交流0群(群号:11718465)。 也可以钉钉扫码加群:
image

目录
相关文章
|
23天前
|
监控 安全 Linux
在 Linux 系统中,网络管理是重要任务。本文介绍了常用的网络命令及其适用场景
在 Linux 系统中,网络管理是重要任务。本文介绍了常用的网络命令及其适用场景,包括 ping(测试连通性)、traceroute(跟踪路由路径)、netstat(显示网络连接信息)、nmap(网络扫描)、ifconfig 和 ip(网络接口配置)。掌握这些命令有助于高效诊断和解决网络问题,保障网络稳定运行。
59 2
|
2月前
|
数据采集 DataWorks 数据管理
DataWorks不是Excel,它是一个数据集成和数据管理平台
【10月更文挑战第10天】随着大数据技术的发展,企业对数据处理的需求日益增长。阿里云推出的DataWorks是一款强大的数据集成和管理平台,提供从数据采集、清洗、加工到应用的一站式解决方案。本文通过电商平台案例,详细介绍了DataWorks的核心功能和优势,展示了如何高效处理大规模数据,帮助企业挖掘数据价值。
124 1
|
2月前
|
机器学习/深度学习 存储 自然语言处理
从理论到实践:如何使用长短期记忆网络(LSTM)改善自然语言处理任务
【10月更文挑战第7天】随着深度学习技术的发展,循环神经网络(RNNs)及其变体,特别是长短期记忆网络(LSTMs),已经成为处理序列数据的强大工具。在自然语言处理(NLP)领域,LSTM因其能够捕捉文本中的长期依赖关系而变得尤为重要。本文将介绍LSTM的基本原理,并通过具体的代码示例来展示如何在实际的NLP任务中应用LSTM。
128 4
|
2月前
|
机器学习/深度学习 数据采集 算法
目标分类笔记(一): 利用包含多个网络多种训练策略的框架来完成多目标分类任务(从数据准备到训练测试部署的完整流程)
这篇博客文章介绍了如何使用包含多个网络和多种训练策略的框架来完成多目标分类任务,涵盖了从数据准备到训练、测试和部署的完整流程,并提供了相关代码和配置文件。
62 0
目标分类笔记(一): 利用包含多个网络多种训练策略的框架来完成多目标分类任务(从数据准备到训练测试部署的完整流程)
|
2月前
|
数据采集 SQL DataWorks
DataWorks不是Excel,它是一个数据集成和数据管理平台
【10月更文挑战第5天】本文通过一家电商平台的案例,详细介绍了阿里云DataWorks在数据处理全流程中的应用。从多源数据采集、清洗加工到分析可视化,DataWorks提供了强大的一站式解决方案,显著提升了数据分析效率和质量。通过具体SQL示例,展示了如何构建高效的数据处理流程,突显了DataWorks相较于传统工具如Excel的优势,为企业决策提供了有力支持。
108 3
|
5月前
|
监控 druid Java
spring boot 集成配置阿里 Druid监控配置
spring boot 集成配置阿里 Druid监控配置
309 6
|
5月前
|
Java 关系型数据库 MySQL
如何实现Springboot+camunda+mysql的集成
【7月更文挑战第2天】集成Spring Boot、Camunda和MySQL的简要步骤: 1. 初始化Spring Boot项目,添加Camunda和MySQL驱动依赖。 2. 配置`application.properties`,包括数据库URL、用户名和密码。 3. 设置Camunda引擎属性,指定数据源。 4. 引入流程定义文件(如`.bpmn`)。 5. 创建服务处理流程操作,创建控制器接收请求。 6. Camunda自动在数据库创建表结构。 7. 启动应用,测试流程启动,如通过服务和控制器开始流程实例。 示例代码包括服务类启动流程实例及控制器接口。实际集成需按业务需求调整。
404 4
|
5月前
|
消息中间件 Java 测试技术
【RocketMQ系列八】SpringBoot集成RocketMQ-实现普通消息和事务消息
【RocketMQ系列八】SpringBoot集成RocketMQ-实现普通消息和事务消息
356 1
|
6月前
|
消息中间件 Java Kafka
springboot集成kafka
springboot集成kafka
178 2
|
5月前
|
消息中间件 Java Kafka
Spring Boot与Apache Kafka Streams的集成
Spring Boot与Apache Kafka Streams的集成

热门文章

最新文章

  • 1
    DataWorks操作报错合集之DataWorks任务异常 报错: GET_GROUP_SLOT_EXCEPTION 该怎么处理
    112
  • 2
    DataWorks操作报错合集之DataWorksUDF 报错:evaluate for user defined function xxx cannot be loaded from any resources,该怎么处理
    109
  • 3
    DataWorks操作报错合集之在DataWorks中,任务流在调度时间到达时停止运行,是什么原因导致的
    106
  • 4
    DataWorks操作报错合集之DataWorks ODPS数据同步后,timesramp遇到时区问题,解决方法是什么
    95
  • 5
    DataWorks操作报错合集之DataWorks配置参数在开发环境进行调度,参数解析不出来,收到了 "Table does not exist" 的错误,该怎么处理
    97
  • 6
    DataWorks操作报错合集之DataWorks中udf开发完后,本地和在MaxCompute的工作区可以执行函数查询,但是在datawork里报错FAILED: ODPS-0130071:[2,5],是什么原因
    111
  • 7
    DataWorks操作报错合集之DataWorks提交失败: 提交节点的源码内容到TSP(代码库)失败:"skynet_packageid is null,该怎么解决
    119
  • 8
    DataWorks操作报错合集之DataWorks在同步mysql时报错Code:[Framework-02],mysql里面有个json类型字段,是什么原因导致的
    154
  • 9
    DataWorks操作报错合集之DataWorks集成实例绑定到同一个vpc下面,也添加了RDS的IP白名单报错:数据源配置有误,请检查,该怎么处理
    88
  • 10
    DataWorks操作报错合集之在 DataWorks 中运行了一个 Hologres 表的任务并完成了执行,但是在 Hologres 表中没有看到数据,该怎么解决
    126