现在需要把大量的ploardb表导入Dataworks,Dataworks里有哪个功能可以实现批量地执行数据接入代码和数据接入调度代码,生成数据接入任务?
DataWorks支持通过数据源管理功能实现批量导入数据库表的操作。您可以在数据源管理中创建数据源,然后在数据接入服务中创建数据接入任务,将多个数据源的配置信息添加到一个数据源列表中,并设置调度策略,最后提交任务即可实现批量导入数据库表的操作。
DataHub通过数据集成批量导入数据https://help.aliyun.com/zh/dataworks/use-cases/use-data-integration-to-import-data-to-datahub?spm=a2c4g.750001.0.i3
本文以Stream同步数据至DataHub的脚本模式为例,为您介绍如何通过数据集成导入离线DataHub数据。
操作步骤
进入数据开发页面。
登录DataWorks控制台。
在左侧导航栏,单击工作空间列表。
选择工作空间所在地域后,单击相应工作空间后的快速进入 > 数据开发。
展开目标业务流程,右键单击数据集成,选择新建节点 > 离线同步。
在新建节点对话框中,输入名称并选择路径,单击确认。
说明
节点名称的长度不能超过128个字符。
此处的路径为创建的业务流程,具体操作请参见创建周期业务流程。
成功创建离线同步节点后,根据需要进行网络资源配置,单击下一步,选择工具栏中的转换脚本图标。
单击提示对话框中的确认,即可进入脚本模式进行开发。
单击工具栏中的导入模板图标。
在导入模板对话框中,选择从来源端的Stream数据源同步至目标端的DataHub数据源的导入模板,单击确认。
导入模板后,根据自身需求编辑代码。
"type": "job",
"version": "1.0",
"configuration": {
"setting": {
"errorLimit": {
"record": "0"
},
"speed": {
"mbps": "1",
"concurrent": 1,//作业并发数。
"throttle": false
}
},
"reader": {
"plugin": "stream",
"parameter": {
"column": [//源端列名。
{
"value": "field",//列属性。
"type": "string"
},
{
"value": true,
"type": "bool"
},
{
"value": "byte string",
"type": "bytes"
}
],
"sliceRecordCount": "100000"
}
},
"writer": {
"plugin": "datahub",
"parameter": {
"datasource": "datahub",//数据源名。
"topic": "xxxx",//Topic是DataHub订阅和发布的最小单位,您可以用Topic来表示一类或者一种流数据。
"mode": "random",//随机写入。
"shardId": "0",//Shard 表示对一个Topic进行数据传输的并发通道,每个Shard会有对应的ID。
"maxCommitSize": 524288,//为了提高写出效率,待攒数据大小达到maxCommitSize大小(单位MB)时,批量提交到目的端。默认是1,048,576,即1MB数据。
"maxRetryCount": 500
}
}
}
}
配置完成后,分别单击保存和运行图标。
在DataWorks中,可以使用数据同步任务来实现批量地执行数据接入代码和数据接入调度代码,生成数据接入任务。具体操作步骤如下:
在阿里云的数据工场DataWorks中,你可以使用数据集成(Data Integration)服务来批量地执行数据接入代码和调度代码。
具体步骤如下:
创建数据集成项目:在DataWorks控制台中,选择“项目管理”>“新建项目”,然后选择“数据集成”作为项目类型,填写项目名称、描述等信息,然后点击“确定”创建项目。
配置数据源:在项目中,选择“数据源管理”>“新建数据源”,填写数据源名称、类型、描述、数据库地址、用户名、密码等信息,然后点击“确定”创建数据源。
创建数据接入任务:在项目中,选择“数据开发”>“新建数据接入任务”,填写任务名称、描述等信息,然后在“数据源”选项中选择刚刚创建的数据源,然后在“数据目标”选项中选择你需要导入的ploardb表。
编写数据接入代码和调度代码:在任务配置页面,你可以编写你的数据接入代码和调度代码。DataWorks支持多种编程语言,包括Java、Python、Shell等。
提交并运行任务:配置完成后,点击“提交”按钮保存任务配置,然后点击“运行”按钮启动任务。任务运行完成后,你可以在“数据开发”>“数据接入任务”页面查看任务运行结果。
以上就是在DataWorks中批量执行数据接入代码和调度代码的基本步骤。
在 DataWorks 中创建一个新的工作流。工作流是 DataWorks 中用于执行数据处理任务的基本单元,您可以使用工作流来定义和执行数据处理任务。
在工作流中添加数据接入任务。数据接入任务是 DataWorks 中用于从各种数据源(如数据库、文件等)读取数据的任务。您可以使用 DataWorks 的数据接入工具来创建数据接入任务,并配置数据接入任务的参数(如数据源、数据表等)。
在工作流中添加调度任务。调度任务是 DataWorks 中用于定时执行数据处理任务的任务。您可以使用 DataWorks 的调度工具来创建调度任务,并配置调度任务的参数(如执行时间、执行频率等)。
在DataWorks中,您可以使用DataWorks的数据接入功能,批量地执行数据接入代码和数据接入调度代码,生成数据接入任务。具体步骤如下:
DataWorks提供了数据接入任务调度功能,可以实现批量地执行数据接入代码和数据接入调度代码,生成数据接入任务。
要实现批量地执行数据接入代码和数据接入调度代码,生成数据接入任务,可以按照以下步骤操作:
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。