值得收藏:当向数据库导入大量数据时,mysql主键唯一键重复插入,如何丝滑操作并不导入重复数据呢

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,高可用系列 2核4GB
简介: 最近要导入大量数据到数据库,数据库中有数据列要求唯一的,也就是唯一键,但是我拿到的数据有部分重复,一运行就会出错,如果把重复数据找出来,删除后在导入,太麻烦了,所以想要丝滑导入,并忽略重复数据,有了下面的解决方案:本次案例使用phpmyadmin进行演示

最近要导入大量数据到数据库,数据库中有数据列要求唯一的,也就是唯一键,但是我拿到的数据有部分重复,一运行就会出错,如果把重复数据找出来,删除后在导入,太麻烦了,所以想要丝滑导入,并忽略重复数据,有了下面的解决方案:

本次案例使用phpmyadmin进行演示


1.准备

比如我有如下的数据表(order):orderNo为唯一列

网络异常,图片无法展示
|

目前表中已存在如下数据:

网络异常,图片无法展示
|


建表代码如下:当然你也可以使用PHPmyadmin或者Navicat等管理工具,使用可视化的方式创建数据库和表


--建表CREATE DATABASE hotel;---- 表的结构 `order`--CREATETABLE IF NOT EXISTS `order` (  `id` int(11)NOTNULL AUTO_INCREMENT,  `orderNo` varchar(80)NOTNULL DEFAULT '0',  `proId` int(11)NOTNULL DEFAULT '0',  PRIMARY KEY (`id`),  UNIQUE KEY `orderNo` (`orderNo`)) ENGINE=InnoDB  DEFAULT CHARSET=utf8mb4 AUTO_INCREMENT=6;---- 转存表中的数据 `order`--INSERTINTO `order` (`id`, `orderNo`, `proId`)VALUES(1,'12345678',1),(2,'12345676',1),(3,'12345876',2),(4,'12345877',2),(5,'12345879',3);


我现在拿到的数据如下:


网络异常,图片无法展示
|

INSERTINTO `order` ( `orderNo`, `proId`)VALUES('12345678',1),('12345696',1),('12345886',2),('12345877',2),('32345817',2),('12345827',2),('12345887',2),('12345849',3);

上面的数据中有多条重复,如果这时候导入,会出现下面的报错:

网络异常,图片无法展示
|

执行到第一条的时候就已经有重复的数据.所以在执行导入第一条数据时就会报错,剩下的数据不会再继续执行,但是如果导入的数据中前面没有重复的,只是中间某一条和数据库orderNo列已存在的数据重复,前面重复的数据会导入,直到执行到出现重复那条数据,然后出现如上图一样的报错,并停止执行数据导入.

那么遇到以上问题,想要丝滑导入不重复的数据,且不会因为个别数据重复,影响数据导入中断,应该怎么操作?


2.解决方法:

1.初级方法:

a.insert后面添加ignore

使用ignore当插入的值遇到主键(PRIMARY KEY)或者唯一键(UNIQUE KEY)重复时自动忽略重复的记录行,而且不会影响后面的记录行的插入。

比如我把执行脚本改为如下代码:

INSERT ignore INTO `order` ( `orderNo`, `proId`)VALUES('12345678',1),('12345696',1),('12345886',2),('12345877',2),('32345817',2),('12345827',2),('12345887',2),('12345849',3);

这时候执行这个SQL语句就能丝滑导入数据:从下图执行的结果可以看出,不重复的数据已经完全导入,而且会忽略重复数据,不受重复数据的影响

网络异常,图片无法展示
|
网络异常,图片无法展示
|


2.replace

a.使用replace代替insert

使用replace插入的记录遇到主键或者唯一键重复时会先删除表中已存在的重复记录行再执行插入

代码如下:

replace INTO `order` ( `orderNo`, `proId`)VALUES('12345678',1),('12345696',1),('12345886',2),('12345877',2),('32345817',2),('12345827',2),('12345887',2),('12345849',3);

执行结果如下:

网络异常,图片无法展示
|
网络异常,图片无法展示
|

从执行结果的自增ID就可以看出replace会先删除已有数据再插入


3.使用更新的方式插入已有数据

ON DUPLICATE KEY UPDATE为Mysql特有语法,语句的作用,当insert已经存在的记录时,执行Update

Mysql告诉我们,我们的主键冲突了,我们是不是可以改变一下思路,当插入已存在主键的记录时,将插入操作变为修改:

INSERTINTO `order` (id,orderNo,proId)VALUES(2,'88888',4)ON DUPLICATE KEY UPDATE id =88,orderNo='888888';

执行结果如下:

网络异常,图片无法展示
|
网络异常,图片无法展示
|
网络异常,图片无法展示
|

本来id为2的数据变为88且orderNo更新为888888


VALUES修改

那么问题又来了,有人会说我ON DUPLICATE KEY UPDATE 后面跟的是固定的值,如果我想要分别给不同的记录插入不同的值怎么办呢?

可以将后面的修改条件改为VALUES(orderNo),动态的传入要修改的值,执行以下:

INSERTINTO `order` (id,orderNo,proId)VALUES(3,'808080808',4),(88,'9191919',4)ON DUPLICATE KEY UPDATE orderNo=VALUES(orderNo);

执行结果:

网络异常,图片无法展示
|
网络异常,图片无法展示
|
网络异常,图片无法展示
|

我们成功的为不同id的orderNo修改成了不同的值


3.总结

修改的方法有很多种,包括SET或用REPLACE,ignore,连事务都省了,这些在日常的使用当中已经能够满足导入需求,ON DUPLICATE KEY UPDATE能够让我们便捷的完成重复插入的开发需求,但它是Mysql的特有语法,使用时应多注意主键和插入值是否是我们想要插入或修改的key、Value。前面几种较,ON DUPLICATE KEY UPDATE简单且灵活

相关实践学习
如何快速连接云数据库RDS MySQL
本场景介绍如何通过阿里云数据管理服务DMS快速连接云数据库RDS MySQL,然后进行数据表的CRUD操作。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
目录
相关文章
|
6天前
|
数据采集 数据库 Python
有哪些方法可以验证用户输入数据的格式是否符合数据库的要求?
有哪些方法可以验证用户输入数据的格式是否符合数据库的要求?
112 75
|
21天前
|
关系型数据库 MySQL Linux
Linux下mysql数据库的导入与导出以及查看端口
本文详细介绍了在Linux下如何导入和导出MySQL数据库,以及查看MySQL运行端口的方法。通过这些操作,用户可以轻松进行数据库的备份与恢复,以及确认MySQL服务的运行状态和端口。掌握这些技能,对于日常数据库管理和维护非常重要。
84 8
|
19天前
|
SQL 存储 运维
从建模到运维:联犀如何完美融入时序数据库 TDengine 实现物联网数据流畅管理
本篇文章是“2024,我想和 TDengine 谈谈”征文活动的三等奖作品。文章从一个具体的业务场景出发,分析了企业在面对海量时序数据时的挑战,并提出了利用 TDengine 高效处理和存储数据的方法,帮助企业解决在数据采集、存储、分析等方面的痛点。通过这篇文章,作者不仅展示了自己对数据处理技术的理解,还进一步阐释了时序数据库在行业中的潜力与应用价值,为读者提供了很多实际的操作思路和技术选型的参考。
31 1
|
23天前
|
存储 Java easyexcel
招行面试:100万级别数据的Excel,如何秒级导入到数据库?
本文由40岁老架构师尼恩撰写,分享了应对招商银行Java后端面试绝命12题的经验。文章详细介绍了如何通过系统化准备,在面试中展示强大的技术实力。针对百万级数据的Excel导入难题,尼恩推荐使用阿里巴巴开源的EasyExcel框架,并结合高性能分片读取、Disruptor队列缓冲和高并发批量写入的架构方案,实现高效的数据处理。此外,文章还提供了完整的代码示例和配置说明,帮助读者快速掌握相关技能。建议读者参考《尼恩Java面试宝典PDF》进行系统化刷题,提升面试竞争力。关注公众号【技术自由圈】可获取更多技术资源和指导。
|
26天前
|
前端开发 JavaScript 数据库
获取数据库中字段的数据作为下拉框选项
获取数据库中字段的数据作为下拉框选项
54 5
|
1月前
|
存储 关系型数据库 MySQL
mysql怎么查询longblob类型数据的大小
通过本文的介绍,希望您能深入理解如何查询MySQL中 `LONG BLOB`类型数据的大小,并结合优化技术提升查询性能,以满足实际业务需求。
126 6
|
1月前
|
SQL 关系型数据库 MySQL
MySQL导入.sql文件后数据库乱码问题
本文分析了导入.sql文件后数据库备注出现乱码的原因,包括字符集不匹配、备注内容编码问题及MySQL版本或配置问题,并提供了详细的解决步骤,如检查和统一字符集设置、修改客户端连接方式、检查MySQL配置等,确保导入过程顺利。
|
27天前
|
存储 Oracle 关系型数据库
数据库传奇:MySQL创世之父的两千金My、Maria
《数据库传奇:MySQL创世之父的两千金My、Maria》介绍了MySQL的发展历程及其分支MariaDB。MySQL由Michael Widenius等人于1994年创建,现归Oracle所有,广泛应用于阿里巴巴、腾讯等企业。2009年,Widenius因担心Oracle收购影响MySQL的开源性,创建了MariaDB,提供额外功能和改进。维基百科、Google等已逐步替换为MariaDB,以确保更好的性能和社区支持。掌握MariaDB作为备用方案,对未来发展至关重要。
55 3
|
27天前
|
安全 关系型数据库 MySQL
MySQL崩溃保险箱:探秘Redo/Undo日志确保数据库安全无忧!
《MySQL崩溃保险箱:探秘Redo/Undo日志确保数据库安全无忧!》介绍了MySQL中的三种关键日志:二进制日志(Binary Log)、重做日志(Redo Log)和撤销日志(Undo Log)。这些日志确保了数据库的ACID特性,即原子性、一致性、隔离性和持久性。Redo Log记录数据页的物理修改,保证事务持久性;Undo Log记录事务的逆操作,支持回滚和多版本并发控制(MVCC)。文章还详细对比了InnoDB和MyISAM存储引擎在事务支持、锁定机制、并发性等方面的差异,强调了InnoDB在高并发和事务处理中的优势。通过这些机制,MySQL能够在事务执行、崩溃和恢复过程中保持
64 3
|
27天前
|
SQL 关系型数据库 MySQL
数据库灾难应对:MySQL误删除数据的救赎之道,技巧get起来!之binlog
《数据库灾难应对:MySQL误删除数据的救赎之道,技巧get起来!之binlog》介绍了如何利用MySQL的二进制日志(Binlog)恢复误删除的数据。主要内容包括: 1. **启用二进制日志**:在`my.cnf`中配置`log-bin`并重启MySQL服务。 2. **查看二进制日志文件**:使用`SHOW VARIABLES LIKE 'log_%';`和`SHOW MASTER STATUS;`命令获取当前日志文件及位置。 3. **创建数据备份**:确保在恢复前已有备份,以防意外。 4. **导出二进制日志为SQL语句**:使用`mysqlbinlog`
84 2

热门文章

最新文章