DATAX介绍
DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步功能。
使用背景:
阿里云公有云环境
DRDS迁移到DRDS
单表
数据量 2500万行
使用介绍:
1.下载工具
下载网址:
link
2.下载完成后解压工具
3.配置工具配置文件:
创建一个json格式的文件,修改内容:
{
"job": {
"content": [
{
"reader": {
"name": "drdsreader", //源端名字
"parameter": {
"column": ["id","bid","name","a1","a2"], //表中包含的列
"password": "JINzi521", //源端密码
"username": "qiany_tool", //用户名
"connection": [
{
"table": ["aa3"], //需要迁移的表名
"jdbcUrl": ["jdbc:mysql://drdsXXXXXXXXXXXXXXX.drds.aliyuncs.com:3306/[数据库名称]"] //目的端JDBC链接地址
}
]
}
},
"writer": {
"name": "drdswriter", //目的端名字
"parameter": {
"column": ["id","bid","name","a1","a2"],
"password": "JINzi521",
"username": "qiany_new",
"table": ["aa3"],
"jdbcUrl": ["jdbc:mysql://drdsXXXXXXXXXXXXXXpublic.drds.aliyuncs.com:3306/qiany_new"]
}
}
}
],
"setting": {
"speed": {
"channel": "5" //并行数目
}
}
}
}
4.启动命令正式迁移
python datax.py [你常见的配置文件名称]
5.迁移过程查看日志文件
工具目录下有log文件,查看效果如下: