DATAX工具同步数据从hdfs到drds性能优化

2018-09-06 6022

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云原生数据库 PolarDB 分布式版，标准版 2核8GB

简介：

问题描述

在客户现场运维过程中，使用datax同步数据从hdfs到drds速度极其缓慢，因此希望进行datax的json文件进行优化，提升速度，同步缓慢及报错如下； fd0a8c8ead073bd604a2862f6717cf011158db67

问题分析

对于datax的使用问题，第一要素就要检查json文件的问题；

从同步的datax的日志及报错的tddl-4603来看，json文件是可以使用的，只是使用的参数设置有问题导致了4603的报错，也就是出现了跨库事务的存在；drds使用datax从hdfs同步数据过来，解析之后应该直接进入到对应的分库分表当中，为何会出现这种报错？

89d0d14d2aa348716ba42e81a73fd20b1cd712fc

检查json文件，我们发现如下：

532e1000195d33a250ab2bc2629219fe0407ae30

这里的drds导入的writer引擎竟然是mysqlwriter而非drdswriter引擎，经过咨询师兄，mysqlwriter不能用在drds目标的，否则就会出现跨库事物不支持；

由于drds本身是出现是有适用datax的drdswriter的引擎，所以修改引擎为drdswriter以后，重新执行datax同步任务，发现tddl-4603报错消失，同步速度从38k提升到200k；

c98f9ea17575d383cc92e5d52db285dca451537a

而此时200k速度，3000多行的导入速率依然太慢无法满足客户的需求；

故而还需继续分析优化其他参数来进行速度的提升；

这里涉及到的最直接的优化参数就是speed参数；

speed参数在这个场景有两种模式：

aã channel模式：是并行的一个设置，设置并行切分任务数；

bã bytes模式：限制单个任务速度上线；

而目前是由于速度根本上不去，并且测试了bytes以后根本不起作用，所以依旧选择使用channel；

对于数据writeMode写入模式，由于数据准备已经确定没有问题，没有必要进行导入校验，可以选择导入以后校验，故而用insert ignore替换了replace，并且添加了batchsize的缓冲大小再次进行测试

0fe79f6f0bab996b31ec2a403dbb23605aef1df2

如下为修改后的json文件模式；

f7c9a6157a14f3705d3f4ba98929ace94e06fb76

再次测试的结果如下：

89a56a40a58ce386c18b3501303f3a753d56f50b

速度从原来的200k提升到了1.7M，满足客户需求；

然后针对目前的情况略作微调进行压测如下：

340936ec0ea2fb6896197003d7b50a069f6e0cff

问题解决及建议

1、调整写入引擎从mysqlwriter到drdswriter引擎，避免夸库事务的存在；

2、调整writeMode写入模式从replace为insert ignore选择不进行数据检查模块，并增加batchsize参数，速度提升满足客户需求；

3、在此基础上进行微调，添加数据源参数及调整channel及batchsize等，得到最后参数设置及速度情况；

DATAX工具同步数据从hdfs到drds性能优化

问题描述

问题分析

问题解决及建议

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

DATAX工具同步数据从hdfs到drds性能优化

问题描述

问题分析

问题解决及建议

热门文章

最新文章

相关课程

相关电子书

相关实验场景