【笔记】最佳实践—如何优化数据导入导出

简介: 数据库实际应用场景中经常需要进行数据导入导出,本文将介绍如何使用数据导入导出工具。

测试环境

本文档的测试环境要求如下表:

环境 参数
PolarDB-X版本 polarx-kernel_5.4.11-16282307_xcluster-20210805
节点规格 16核64GB
节点个数 4个

测试用表如下:


CREATE TABLE `sbtest1` (
    `id` int(11) NOT NULL,
    `k` int(11) NOT NULL DEFAULT '0',
    `c` char(120) NOT NULL DEFAULT '',
    `pad` char(60) NOT NULL DEFAULT '',
    PRIMARY KEY (`id`),
    KEY `k_1` (`k`)
) ENGINE = InnoDB DEFAULT CHARSET = utf8mb4 dbpartition by hash(`id`);

导入导出工具介绍

PolarDB-X常见的数据导出方法有:

  • mysql -e命令行导出数据
  • musqldump工具导出数据
  • select into outfile语句导出数据(默认关闭)
  • Batch Tool工具导出数据(PolarDB-X配套的导入导出工具)

PolarDB-X常见的数据导入方法有:

  • source语句导入数据
  • mysql命令导入数据
  • 程序导入数据
  • load data语句导入数据
  • Batch Tool工具导入数据(PolarDB-X配套的导入导出工具)

MySQL原生命令使用示例

mysql -e命令可以连接本地或远程服务器,通过执行sql语句,例如select方式获取数据,原始输出数据以制表符方式分隔,可通过字符串处理改成','分隔,以csv文件方式存储,方法示例:


mysql -h ip  -P port -u usr -pPassword db_name -N -e "SELECT id,k,c,pad FROM sbtest1;" >/home/data_1000w.txt

## 原始数据以制表符分隔,数据格式:188092293 27267211 59775766593-64673028018-...-09474402685 01705051424-...-54211554755
mysql -h ip -P port -u usr -pPassword db_name -N -e "SELECT id,k,c,pad FROM sbtest1;" | sed 's/\t/,/g' >/home/data_1000w.csv
## csv文件以逗号分隔,数据格式:188092293,27267211,59775766593-64673028018-...-09474402685,01705051424-...-54211554755

原始数据格式适合load data语句导入数据,使用方法可参考:LOAD DATA 语句,示例如下:


LOAD DATA LOCAL INFILE '/home/data_1000w.txt' INTO TABLE sbtest1;
## LOCAL代表从本地文件导入,local_infile参数必须开启

csv文件数据适合程序导入,具体方式可查看使用程序进行数据导入

mysqldump工具使用示例

mysqldump工具可以连接到本地或远程服务器,详细使用方法请参见使用mysqldump导入导出数据

  • 导出数据示例:
mysqldump -h ip  -P port -u usr -pPassword --default-character-set=utf8mb4 --net_buffer_length=10240 --no-tablespaces --no-create-db --no-create-info --skip-add-locks --skip-lock-tables --skip-tz-utc --set-charset  --hex-blob db_name [table_name] > /home/dump_1000w.sql
  • mysqldump导出数据可能会出现的问题及解决方法,这两个问题通常是mysql client和mysql server版本不一致导致的。
    1. 问题:mysqldump: Couldn't execute 'SHOW VARIABLES LIKE 'gtid\_mode''解决方法:添加“--set-gtid-purged=OFF”参数关闭gtid_mode。
    2. 问题:mysqldump: Couldn't execute 'SHOW VARIABLES LIKE 'ndbinfo\_version''解决方法:查看mysqldump --version和mysql版本是否一致,使用和mysql版本一致的mysql client。
  • 导出的数据格式是SQL语句方式,以Batch Insert语句为主体,包含多条SQL语句,INSERT INTO `sbtest1` VALUES (...),(...),“net_buffer_length”参数将影响batch size大小。
  • SQL语句格式合适的导入数据方式:
方法一:souce语句导入数据

source /home/dump_1000w.sql
方法二:mysql命令导入数据
mysql -h ip -P port -u usr -pPassword --default-character-set=utf8mb4 db_name < /home/dump_1000w.sql

Batch Tool工具使用示例

Batch Tool是阿里云内部开发的数据导入导出工具,支持多线程操作。

  • 导出数据:
## 导出“默认值=分片数”个文件
java -jar batch-tool.jar -h ip -P port -u usr -pPassword -D db_name -o export -t sbtest1 -s ,
## 导出整合成一个文件
java -jar batch-tool.jar -h ip -P port -u usr -pPassword -D db_name -o export -t sbtest1 -s , -F 1
  • 导入数据:
## 导入32个文件
java -jar batch-tool.jar -hpxc-spryb387va1ypn.polarx.singapore.rds.aliyuncs.com -P3306 -uroot -pPassw0rd -D sysbench_db -o import -t sbtest1 -s , -f "sbtest1_0;sbtest1_1;sbtest1_2;sbtest1_3;sbtest1_4;sbtest1_5;sbtest1_6;sbtest1_7;sbtest1_8;sbtest1_9;sbtest1_10;sbtest1_11;sbtest1_12;sbtest1_13;sbtest1_14;sbtest1_15;sbtest1_16;sbtest1_17;sbtest1_18;sbtest1_19;sbtest1_20;sbtest1_21;sbtest1_22;sbtest1_23;sbtest1_24;sbtest1_25;sbtest1_26;sbtest1_27;sbtest1_28;sbtest1_29;sbtest1_30;sbtest1_31" -np -pro 64 -con 32
## 导入1个文件
java -jar batch-tool.jar -h ip -P port -u usr -p password -D db_name -o import -t sbtest1 -s , -f "sbtest1_0" -np

导出方法对比

测试方法以PolarDB-X导出1000w行数据为例,数据量大概2GB左右。

方式 数据格式 文件大小 耗时 性能(行/每秒) 性能(MB/S)
mysql -e命令 导出原始数据 原始数据格式 1998MB 33.417s 299248 59.8
mysql -e命令导出csv格式 csv格式 1998MB 34.126s 293031 58.5
mysqldump工具(net-buffer-length=10KB) sql语句格式 2064MB 30.223s 330873 68.3
mysqldump工具(net-buffer-length=200KB) sql语句格式 2059MB 32.783s 305036 62.8
batch tool工具文件数=32(分片数) csv格式 1998MB 4.715s 2120890 423.7
batch tool工具文件数=1 csv格式 1998MB 5.568s 1795977 358.8

总结:

  1. mysql -e命令和mysqldump工具原理上主要是单线程操作,性能差别并不明显。
  2. Batch Tool工具采用多线程方式导出,并发度可设置,能够极大提高导出性能。

导入方法对比

测试方法以PolarDB-X导入1000w行数据为例,源数据是上一个测试中导出的数据,数据量大概2GB左右。

方式 数据格式 耗时 性能(行/每秒) 性能(MB/S)
source语句(net-buffer-length=10KB) sql语句格式 10m24s 16025 3.2
source语句(net-buffer-length=200KB) sql语句格式 5m37s 29673 5.9
mysql命令导入(net-buffer-length=10KB) sql语句格式 10m27s 15948 3.2
mysql命令导入(net-buffer-length=200KB) sql语句格式 5m38s 29585 5.9
load data语句导入 原始数据格式 4m0s 41666 8.3
程序导入batch-1000thread-1 csv格式 5m40s 29411 5.9
程序导入batch-1000thread-32 csv格式 19s 526315 105.3
batch tool工具文件数=32(分片数) csv格式 19.836s 504133 100.8
batch tool工具文件数=1 csv格式 10.806s 925411 185.1

总结:

  1. source语句和mysql命令导入方式,都是单线程执行SQL语句导入,实际是Batch Insert语句的运用,Batch size大小会影响导入性能。Batch size和mysqldump导出数据时的“net-buffer-length”参数有关。建议优化点如下:
    • 推荐将“net-buffer-length”参数设置大,不超过256K,以增大batch size大小,来提高插入性能。
    • 使用第三方工具,例如mysqldump,进行mydumper(备份)和myloader(导入)等,可多线程操作。
  1. load data语句是单线程操作,性能优于mysql命令和source语句。
  2. 程序导入灵活性较好,可自行设置合适的batch size和并发度,可以达到较好性能。推荐batch大小为1000,并发度为16~32。
  3. Batch Tool工具支持多线程导入,且贴合分布式多分片的操作方式,性能优异。

总结

  1. PolarDB-X兼容MySQL运维上常用的数据导入导出方法,但这些方法大多为MySQL单机模式设计,只支持单线程操作,性能上无法充分利用所有分布式资源。
  2. PolarDB-X提供Batch Tool工具,非常贴合分布式场景,在多线程操作下,能够达到极快的数据导入导出性能。
相关文章
|
机器学习/深度学习 编解码 人工智能
AI短视频制作一本通:文本生成视频、图片生成视频、视频生成视频
AI短视频制作一本通:文本生成视频、图片生成视频、视频生成视频
1975 0
|
自然语言处理 API 索引
Elasticsearch Analyzer原理分析并实现中文分词
Elasticsearch Analyzer原理分析并实现中文分词
347 0
|
敏捷开发 存储 搜索推荐
《阿里巴巴Java开发手册v1.4.0(详尽版)》更新,新增16条设计规约
阿里巴巴集团推出的《阿里巴巴Java开发手册》是阿里巴巴近万名开发同学集体智慧的结晶,以开发视角为中心,详细列举如何开发更加高效、更加容错、更加有协作性,力求知其然,更知其不然,结合正反例,让Java开发者能够提升协作效率、提高代码质量。
738852 3
|
3月前
|
人工智能 Java 开发者
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
JManus是阿里开源的Java版OpenManus,基于Spring AI Alibaba框架,助力Java开发者便捷应用AI技术。支持多Agent框架、网页配置、MCP协议及PLAN-ACT模式,可集成多模型,适配阿里云百炼平台与本地ollama。提供Docker与源码部署方式,具备无限上下文处理能力,适用于复杂AI场景。当前仍在完善模型配置等功能,欢迎参与开源共建。
1695 58
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
|
编解码 弹性计算 应用服务中间件
阿里云服务器Arm计算架构解析:Arm计算架构云服务器租用收费标准价格参考
阿里云服务器架构分为X86计算、Arm计算、高性能计算等多种架构,其中Arm计算架构以其低功耗、高效率的特点受到广泛关注。本文将深入解析阿里云Arm计算架构云服务器的技术特点、适用场景以及包年包月与按量付费的收费标准与最新活动价格情况,以供选择参考。
|
数据可视化 图形学 UED
只需四步,轻松开发三维模型Web应用
为了让用户更方便地应用三维模型,阿里云DataV提供了一套完整的三维模型Web模型开发方案,包括三维模型托管、应用开发、交互开发、应用分发等完整功能。只需69.3元/年,就能体验三维模型Web应用开发功能!
991 9
只需四步,轻松开发三维模型Web应用
|
11月前
|
Web App开发 Linux C#
C# 网页截图全攻略:三种技术与 Chrome 路径查找指南
本文主要介绍了在 C# 中实现网页截图的几种技术及相关要点。涵盖了 PuppeteerSharp、Selenium 和 HtmlToImage 三种方式,分别阐述了它们的安装步骤及核心代码。同时,针对在 C# 中寻找 Windows 上 chrome.exe 路径这一问题,分析了未安装 Google Chrome 和已安装两种情况下的查找原因,并给出了相关参考链接,还列举了一系列与 C# 使用 Selenium、获取 chrome.exe 路径以及在 Linux 上部署相关的参考资料。
424 11
|
前端开发 应用服务中间件 定位技术
Nginx 如何代理转发传递真实 ip 地址?
【10月更文挑战第32天】
2872 5
Nginx 如何代理转发传递真实 ip 地址?
|
数据处理 Python
熵值法计算权重
熵值法计算权重是一种基于信息论的方法,用于多指标综合评价。通过计算各指标的信息熵,反映指标的变异程度,从而确定其在综合评价中的权重。熵值越小,表示信息量越大,指标的重要性越高。该方法适用于样本数据较少的情形,能有效避免主观因素的影响。文中详细介绍了熵值法的原理、计算步骤及Python实现代码。
2249 1
|
XML 数据格式 Python
将xml标签转换为txt(voc格式转换为yolo方便进行训练)
该文章提供了一个Python脚本,用于将VOC格式的XML标签文件转换为YOLO训练所需的TXT格式,包括修改数据集类别、输入图像与标注文件夹地址、转换过程和结果展示。
将xml标签转换为txt(voc格式转换为yolo方便进行训练)