最佳实践—如何优化Batch Insert-阿里云开发者社区

最佳实践—如何优化Batch Insert

2022-06-23 127

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Batch Insert语句是常见的数据库写入数据的方式，PolarDB-X兼容MySQL协议和语法，Batch Insert语法为：

INSERT [IGNORE] [INTO] table_name(column_name, ...) VALUES (value1, ...), (value2, ...), ...;

影响Batch Insert性能的主要因素包括：

batch size
并行度
分片数目
列数目
GSI的数目
sequence数目

对于分片数目、列数目、GSI数目、sequence数目等内需因素，根据实际需求进行设置，并且常常会和读性能相互影响，例如GSI数目较多情况下，写入性能肯定会下降，但是对读性能有提升。本文不详细讨论这些因素的影响，主要聚焦于batch size和并行度的合理设置。

测试环境

本文档的测试环境见下表：

环境	参数
PolarDB-X版本	polarx-kernel_5.4.11-16279028_xcluster-20210802
节点规格	16核64GB
节点个数	4

测试的表用例：

CREATE TABLE `sbtest1` (

`id` int(11) NOT NULL,
`k` int(11) NOT NULL DEFAULT '0',
`c` char(120) NOT NULL DEFAULT '',
`pad` char(60) NOT NULL DEFAULT '',
PRIMARY KEY (`id`),
KEY `k_1` (`k`)
) ENGINE = InnoDB DEFAULT CHARSET = utf8mb4;

Batch特性：BATCH_INSERT_POLICY=SPLIT

PolarDB-X针对数据批量写入，为保障更好的并发性，对Batch Insert进行了优化，当单个Batch Insert语句大小超过256K时，PolarDB-X会将Batch Insert语句动态拆分成多个小Batch，多个小Batch之间串行执行，这个特性称为SPLIT。

通过BATCH_INSERT_POLICY=SPLIT的机制，在保障最佳性能的同时，减少PolarDB-X并行执行Batch Insert的代价，尽可能规避分布式下多节点的负载不均衡。

单表的性能基准

在分布式场景下单表只会在一个主机上，其性能可以作为一个基础的性能基线，用于评测分区表的水平扩展的能力，分区表会将数据均匀分布到多台主机上。

测试方法为对PolarDB-X中的单表进行Batch Insert操作，单表的数据只会存在一个数据存储节点中，PolarDB-X会根据表定义将数据写入到对应的数据存储节点上。

场景一：batch size

参数配置：

并行度：16
列：4
gsi：无
sequence：无

测试项	batch size	1	10	100	500	1000	2000	5000	10000
PolarDB-X【单表】	性能（行每秒）	5397	45653	153216	211976	210644	215103	221919	220529

场景二：并行度

参数配置：

batch size：1000
列：4
gsi：无
sequence：无

测试项	thread	1	2	4	8	16	32	64	128
PolarDB-X【单表】	性能（行每秒）	22625	41326	76052	127646	210644	223431	190138	160858

测试总结

对于单表的测试，推荐batch size为1000，并行度为16~32时整体性能比较好。在测试batch size为2000、5000、10000时，需要添加hint参数来关闭SPLIT特性，从测试的结果来看batch size超过1000以后提升并不明显。示例：

/+TDDL:CMD_EXTRA(BATCH_INSERT_POLICY=NONE)/

分区表的性能基准

Batch size和并行度都会影响Batch Insert的性能，下面对这两个因素分开进行测试分析。

场景一：batch Size

在数据分片的情况下，由于包含拆分函数，Batch Insert语句会经过拆分函数分离values，下推到物理存储上的batch size会改变，示意图如下图所示。

INSERT [IGNORE] [INTO] table_name(column_name, ...) VALUES (value1, ...), (value2, ...), ...;

影响Batch Insert性能的主要因素包括：

batch size
并行度
分片数目
列数目
GSI的数目
sequence数目

测试环境

本文档的测试环境见下表：

环境	参数
PolarDB-X版本	polarx-kernel_5.4.11-16279028_xcluster-20210802
节点规格	16核64GB
节点个数	4

测试的表用例：

CREATE TABLE `sbtest1` (
    `id` int(11) NOT NULL,
    `k` int(11) NOT NULL DEFAULT '0',
    `c` char(120) NOT NULL DEFAULT '',
    `pad` char(60) NOT NULL DEFAULT '',
    PRIMARY KEY (`id`),
    KEY `k_1` (`k`)
) ENGINE = InnoDB DEFAULT CHARSET = utf8mb4;

Batch特性：BATCH_INSERT_POLICY=SPLIT

通过BATCH_INSERT_POLICY=SPLIT的机制，在保障最佳性能的同时，减少PolarDB-X并行执行Batch Insert的代价，尽可能规避分布式下多节点的负载不均衡。

单表的性能基准

场景一：batch size

参数配置：

并行度：16
列：4
gsi：无
sequence：无

测试项	batch size	1	10	100	500	1000	2000	5000	10000
PolarDB-X【单表】	性能（行每秒）	5397	45653	153216	211976	210644	215103	221919	220529

场景二：并行度

参数配置：

batch size：1000
列：4
gsi：无
sequence：无

测试项	thread	1	2	4	8	16	32	64	128
PolarDB-X【单表】	性能（行每秒）	22625	41326	76052	127646	210644	223431	190138	160858

测试总结

/+TDDL:CMD_EXTRA(BATCH_INSERT_POLICY=NONE)/

分区表的性能基准

Batch size和并行度都会影响Batch Insert的性能，下面对这两个因素分开进行测试分析。

场景一：batch Size

在数据分片的情况下，由于包含拆分函数，Batch Insert语句会经过拆分函数分离values，下推到物理存储上的batch size会改变，示意图如下图所示。

最佳实践—如何优化Batch Insert

测试环境

Batch特性：BATCH_INSERT_POLICY=SPLIT

单表的性能基准

分区表的性能基准

测试环境

Batch特性：BATCH_INSERT_POLICY=SPLIT

单表的性能基准

分区表的性能基准

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

最佳实践—如何优化Batch Insert

测试环境

Batch特性：BATCH_INSERT_POLICY=SPLIT

单表的性能基准

分区表的性能基准

测试环境

Batch特性：BATCH_INSERT_POLICY=SPLIT

单表的性能基准

分区表的性能基准

热门文章

最新文章

相关电子书