MySQL---决策支持的基本测试标准TPC-DS测试数据的生成及导入

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS PostgreSQL,集群系列 2核4GB
简介: TPC-DS是tpc组织提供的官方决策支持基本测试标准,这个标准的数据对于决策支持的学习和测试很有帮助,怎样生成测试数据及将测试数据导入到MySQL数据库,可以参阅本文。

1 TPC-DS和TPC-H的区别

     说起数据库测试基准,第一个想到的tpc-c,tpc-c常常被用于在线事务处理(OLTP)数据库的性能测试,比如linux上常用的sysbench测试工具就支持oltp测试,开源工具sysbench-tpcc就基于sysbench的tpcc测试工具。

     oltp的测试基准是tpcc,olap(在线分析处理)的测试基准呢?广为人知的是tpc-H,TPC-H面向商品零售业,它定义了8张表,22个查询,遵循SQL92标准,它的表结构同oltp的表架构比较接近。

      另一个不太为人知的标准就是本文要提到的TPC-DS,这个标准表结构是典型的数据仓库的表结构,采用星型、雪花型等多维数据模式。它包含7张事实表,17张纬度表,跟大数据的分析挖掘应用非常类似。对于数据仓库的初学者来说,通过实际的例子来学习相对起来容易一些,这个数据集是不错的选择。

2  TPC-DS的下载和编译

     下载连接在这个位置

  https://www.tpc.org/tpc_documents_current_versions/current_specifications5.asp

     在这个页面填入信息后,点击下载,可能会出现下面这个错误

捕获.PNG

    这个错误并不是输入有误,用必应搜索一下得知可以在火狐浏览器上安装gooreplacer插件来解决,插件的地址是:

https://addons.mozilla.org/zh-CN/firefox/addon/gooreplacer/

      下载插件安装后,设置一下这个插件:

屏幕截图(1173).png

     设置完之后重启一下浏览器,打开TPC-DS的下载连接,输入信息,点击下载后。输入的电子邮件地址会收到下载连接。将这个连接复制粘贴到浏览器就可以下载了。

     这个工具的编译十分简单,进入/usr/local/tpcds/tools目录下运行make命令即可。

[root@ tools]# pwd    /usr/local/tpcds/tools
[root@ tools]# make

3 准备MySQL数据库

    MySQL数据库的准备也不复杂,创建一个数据库,在数据库内创建表就可以了。

3.1 创建并切换到数据库

mysql>create database tpcds DEFAULT CHARSET utf8 COLLATE utf8_general_ci;    Query OK,1 row affected (0.00 sec)mysql> use tpcds;    Database changed

3.2 创建表

  建表脚本比较长,就不在这里粘贴了,建表后的结果如下(一共是25个表):

mysql> show tables;+------------------------+| Tables_in_tpcds        |+------------------------+| call_center            || catalog_page           || catalog_returns        || catalog_sales          || customer               || customer_address       || customer_demographics  || date_dim               || dbgen_version          || household_demographics || income_band            || inventory              || item                   || promotion              || reason                 || ship_mode              || store                  || store_returns          || store_sales            || time_dim               || warehouse              || web_page               || web_returns            || web_sales              || web_site               |+------------------------+25 rows inset(0.00 sec)

4 生成测试数据

       生成测试数据之前先要创建测试数据存放的目录

[root@ tools]# mkdir -p /tmp/tpcds_data

      运行生成测试数据的命令

[root@ tools]# ./dsdgen -DIR /tmp/tpcds_data -SCALE 1 -TERMINATE N, tpcds.sql    dsdgen Population Generator (Version 3.2.0)
    Copyright Transaction Processing Performance Council (TPC) 2001-2021    Warning: This scale factor is valid for QUALIFICATION ONLY

    -SCALE 参数指定数据的大小,以G为单位。

5 生成导入数据的脚本

          tpc-ds生成的测试数据可以用load命令导入MySQL数据库,可以用文本编辑器编辑,也可以用shell脚本生成,这里给出一个shell脚本,只需要调整数据文件所在的位置就可以生成25个表的导入脚本。

[root@ tpcds_data]# for file in `ls -l |awk '{print $9}'`;    >  do    >      echo"LOAD DATA INFILE '/tmp/tpcds_data/"$file"' INTO TABLE"${file%%.*}" FIELDS TERMINATED BY '|' LINES TERMINATED BY '\n';";
    >  done


      脚本是一个for循环,ls -l |awk '{print $9}'打印出来是当前目录下的文件名,文件名是带有扩展名的,针对每一取到的文件名,利用linux字符串功能拼接成load语句,${file%%.*}截取文件名中'.'左边的部分,这时是花括号,不是括号。这个脚本的输出结果如下:

LOAD DATA INFILE '/tmp/tpcds_data/call_center.dat' INTO TABLE call_center  FIELDS TERMINATED BY '|' LINES TERMINATED BY '\n';
LOAD DATA INFILE '/tmp/tpcds_data/catalog_page.dat' INTO TABLE catalog_page  FIELDS TERMINATED BY '|' LINES TERMINATED BY '\n';
LOAD DATA INFILE '/tmp/tpcds_data/catalog_returns.dat' INTO TABLE catalog_returns  FIELDS TERMINATED BY '|' LINES TERMINATED BY '\n';
LOAD DATA INFILE '/tmp/tpcds_data/catalog_sales.dat' INTO TABLE catalog_sales  FIELDS TERMINATED BY '|' LINES TERMINATED BY '\n';
LOAD DATA INFILE '/tmp/tpcds_data/customer_address.dat' INTO TABLE customer_address  FIELDS TERMINATED BY '|' LINES TERMINATED BY '\n';
LOAD DATA INFILE '/tmp/tpcds_data/customer.dat' INTO TABLE customer  FIELDS TERMINATED BY '|' LINES TERMINATED BY '\n';
LOAD DATA INFILE '/tmp/tpcds_data/customer_demographics.dat' INTO TABLE customer_demographics  FIELDS TERMINATED BY '|' LINES TERMINATED BY '\n';
LOAD DATA INFILE '/tmp/tpcds_data/date_dim.dat' INTO TABLE date_dim  FIELDS TERMINATED BY '|' LINES TERMINATED BY '\n';
LOAD DATA INFILE '/tmp/tpcds_data/dbgen_version.dat' INTO TABLE dbgen_version  FIELDS TERMINATED BY '|' LINES TERMINATED BY '\n';
LOAD DATA INFILE '/tmp/tpcds_data/household_demographics.dat' INTO TABLE household_demographics  FIELDS TERMINATED BY '|' LINES TERMINATED BY '\n';
LOAD DATA INFILE '/tmp/tpcds_data/income_band.dat' INTO TABLE income_band  FIELDS TERMINATED BY '|' LINES TERMINATED BY '\n';
LOAD DATA INFILE '/tmp/tpcds_data/inventory.dat' INTO TABLE inventory  FIELDS TERMINATED BY '|' LINES TERMINATED BY '\n';
LOAD DATA INFILE '/tmp/tpcds_data/item.dat' INTO TABLE item  FIELDS TERMINATED BY '|' LINES TERMINATED BY '\n';
LOAD DATA INFILE '/tmp/tpcds_data/promotion.dat' INTO TABLE promotion  FIELDS TERMINATED BY '|' LINES TERMINATED BY '\n';
LOAD DATA INFILE '/tmp/tpcds_data/reason.dat' INTO TABLE reason  FIELDS TERMINATED BY '|' LINES TERMINATED BY '\n';
LOAD DATA INFILE '/tmp/tpcds_data/ship_mode.dat' INTO TABLE ship_mode  FIELDS TERMINATED BY '|' LINES TERMINATED BY '\n';
LOAD DATA INFILE '/tmp/tpcds_data/store.dat' INTO TABLE store  FIELDS TERMINATED BY '|' LINES TERMINATED BY '\n';
LOAD DATA INFILE '/tmp/tpcds_data/store_returns.dat' INTO TABLE store_returns  FIELDS TERMINATED BY '|' LINES TERMINATED BY '\n';
LOAD DATA INFILE '/tmp/tpcds_data/store_sales.dat' INTO TABLE store_sales  FIELDS TERMINATED BY '|' LINES TERMINATED BY '\n';
LOAD DATA INFILE '/tmp/tpcds_data/time_dim.dat' INTO TABLE time_dim  FIELDS TERMINATED BY '|' LINES TERMINATED BY '\n';
LOAD DATA INFILE '/tmp/tpcds_data/warehouse.dat' INTO TABLE warehouse  FIELDS TERMINATED BY '|' LINES TERMINATED BY '\n';
LOAD DATA INFILE '/tmp/tpcds_data/web_page.dat' INTO TABLE web_page  FIELDS TERMINATED BY '|' LINES TERMINATED BY '\n';
LOAD DATA INFILE '/tmp/tpcds_data/web_returns.dat' INTO TABLE web_returns  FIELDS TERMINATED BY '|' LINES TERMINATED BY '\n';
LOAD DATA INFILE '/tmp/tpcds_data/web_sales.dat' INTO TABLE web_sales  FIELDS TERMINATED BY '|' LINES TERMINATED BY '\n';
LOAD DATA INFILE '/tmp/tpcds_data/web_site.dat' INTO TABLE web_site  FIELDS TERMINATED BY '|' LINES TERMINATED BY '\n';

6 导入数据

      登录MySQL数据库,切换到tcpds数据库下,粘贴生成的脚本就可以导入数据了。导入时往往报下面这个错误。

mysql> LOAD DATA INFILE '/tmp/tpcds_data/call_center.dat'INTOTABLE call_center  FIELDS TERMINATED BY'|' LINES TERMINATED BY'\n';    ERROR 1290(HY000): The MySQL server is running with the --secure-file-priv option so it cannot execute this statement

出现这个错误的原因是secure_file_priv设置的问题,这个变量默认的设置为空

mysql> show variables like'%secure_file_priv%';+------------------+-------+| Variable_name    | Value |+------------------+-------+| secure_file_priv |NULL|+------------------+-------+1 row inset(0.00 sec)

需要将它设置为存放要导入文件的目录

mysql>set secure_file_priv="/tmp/tpcds_data/";    ERROR 1238(HY000): Variable 'secure_file_priv'is a read only variable

这个变量是只读变量,只能在数据库启动之前设置,关闭MySQL数据库,重启后带上这个选项

[root@ tpcds_data]# mysqld_safe --user=mysql --datadir=/mysqldata --secure_file_priv="/tmp/tpcds_data/"&    [1] 60061[root@ tpcds_data]# 2022-08-30T07:10:08.899244Z mysqld_safe Logging to '/mysqldata/iZ2ze0t8khaprrpfvmevjiZ.err'.2022-08-30T07:10:08.926603Z mysqld_safe Starting mysqld daemon with databases from /mysqldata

再次登录数据库就可以导入了。

mysql> LOAD DATA INFILE '/tmp/tpcds_data/call_center.dat'INTOTABLE call_center  FIELDS TERMINATED BY'|' LINES TERMINATED BY'\n';    ERROR 1292(22007): Incorrect date value:'' for column 'cc_rec_end_date' at row 1

这个错误可以通过设置sql模式来消除

mysql>set sql_mode ='NO_AUTO_CREATE_USER,NO_ENGINE_SUBSTITUTION';    Query OK,0 rows affected (0.00 sec)

再次导入

mysql> LOAD DATA INFILE '/tmp/tpcds_data/call_center.dat'INTOTABLE call_center  FIELDS TERMINATED BY'|' LINES TERMINATED BY'\n';    Query OK,6 rows affected,9 warnings (0.00 sec)    Records:6  Deleted:0  Skipped:0  Warnings:9

7 生成查询

# ./dsqgen -input ../query_templates/templates.lst -directory ../query_templates -output ./sql.ansi/ -DIALECT ansi -LOG ./sql.ansi/ansi.log

-directory是查询模板所在的目录,-DIALECT设置sql语言的版本

  生成查询的过程中也有可能报下面这个错误

qgen2 Query Generator (Version 3.2.0)
      Copyright Transaction Processing Performance Council (TPC) 2001-2021      Warning: This scale factor is valid for QUALIFICATION ONLY
      ERROR: Substitution'_END' is used before being initialized at line 63in ../query_templates/query1.tpl

需要处理一下查询模板文件,在每个文件的末尾加上一行

[root@ query_templates]# for i in `ls query*tpl`    > do    >     echo$i;
    >     echo"define _END = \"\";" >> $i    > done

生成查询之间仍然需要创建查询的存储目录

[root@ tools]# mkdir sql.ansi

生成查询

[root@ tools]# ./dsqgen -input ../query_templates/templates.lst -directory ../query_templates -output ./sql.ansi/ -DIALECT ansi -LOG ./sql.ansi/ansi.log    qgen2 Query Generator (Version 3.2.0)
    Copyright Transaction Processing Performance Council (TPC) 2001-2021    Warning: This scale factor is valid for QUALIFICATION ONLY

8 运行查询

找一个查询语句运行一下

selectcount(*)from store_sales
,household_demographics
,time_dim, store
where ss_sold_time_sk = time_dim.t_time_skand ss_hdemo_sk = household_demographics.hd_demo_skand ss_store_sk = s_store_sk
and time_dim.t_hour=8and time_dim.t_minute>=30and household_demographics.hd_dep_count=5and store.s_store_name='ese'orderbycount(*);

看一下这条语句的执行计划

mysql> explain selectcount(*)from store_sales     ,household_demographics     ,time_dim, store where ss_sold_time_sk
= time_dim.t_time_skand ss_hdemo_sk = household_demographics.hd_demo_skand ss_store_sk = s_store_sk     and time_dim.t_hour=8and time_dim.t_minute>=30and household_demographics.hd_dep_count=5and store.s_store_name='ese'orderbycount(*);+----+-------------+------------------------+------------+--------+---------------+---------+---------+-----------------------------------+---------+----------+----------------------------------------------------+| id | select_type |table| partitions | type   | possible_keys | key     | key_len | ref                               | rows    | filtered | Extra                                              |+----+-------------+------------------------+------------+--------+---------------+---------+---------+-----------------------------------+---------+----------+----------------------------------------------------+|1| SIMPLE      | store                  |NULL| ALL    | PRIMARY       |NULL|NULL|NULL|12|10.00| Using where||1| SIMPLE      | store_sales            |NULL| ALL    |NULL|NULL|NULL|NULL|3754283|10.00| Using where; Using join buffer (Block Nested Loop)||1| SIMPLE      | household_demographics |NULL| eq_ref | PRIMARY       | PRIMARY |4| tpcds.store_sales.ss_hdemo_sk|1|10.00| Using where||1| SIMPLE      | time_dim               |NULL| eq_ref | PRIMARY       | PRIMARY |4| tpcds.store_sales.ss_sold_time_sk|1|5.00| Using where|+----+-------------+------------------------+------------+--------+---------------+---------+---------+-----------------------------------+---------+----------+----------------------------------------------------+4 rows inset,1 warning (0.00 sec)




相关实践学习
如何在云端创建MySQL数据库
开始实验后,系统会自动创建一台自建MySQL的 源数据库 ECS 实例和一台 目标数据库 RDS。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
|
16天前
|
安全 关系型数据库 MySQL
如何将数据从MySQL同步到其他系统
【10月更文挑战第17天】如何将数据从MySQL同步到其他系统
94 0
|
22天前
|
SQL 前端开发 关系型数据库
全表数据核对 ,行数据核对,列数据核对,Mysql 8.0 实例(sample database classicmodels _No.3 )
全表数据核对 ,行数据核对,列数据核对,Mysql 8.0 实例(sample database classicmodels _No.3 )
40 0
全表数据核对 ,行数据核对,列数据核对,Mysql 8.0 实例(sample database classicmodels _No.3 )
|
27天前
|
关系型数据库 MySQL 数据库
mysql 里创建表并插入数据
【10月更文挑战第5天】
106 1
|
29天前
|
分布式计算 关系型数据库 MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
46 3
|
1天前
|
SQL 前端开发 关系型数据库
SpringBoot使用mysql查询昨天、今天、过去一周、过去半年、过去一年数据
SpringBoot使用mysql查询昨天、今天、过去一周、过去半年、过去一年数据
25 9
|
26天前
|
Java 关系型数据库 MySQL
自动化测试项目实战笔记(一):JDK、Tomcat、MySQL、Jpress环境安装和搭建
这篇文章是关于自动化测试项目实战笔记,涵盖了JDK、Tomcat、MySQL、Jpress环境的安装和搭建过程,以及测试用例和常见问题总结。
45 1
自动化测试项目实战笔记(一):JDK、Tomcat、MySQL、Jpress环境安装和搭建
|
13天前
|
SQL Java 关系型数据库
java连接mysql查询数据(基础版,无框架)
【10月更文挑战第12天】该示例展示了如何使用Java通过JDBC连接MySQL数据库并查询数据。首先在项目中引入`mysql-connector-java`依赖,然后通过`JdbcUtil`类中的`main`方法实现数据库连接、执行SQL查询及结果处理,最后关闭相关资源。
|
9天前
|
SQL 关系型数据库 MySQL
定时任务频繁插入数据导致锁表问题 -> 查询mysql进程
定时任务频繁插入数据导致锁表问题 -> 查询mysql进程
23 1
|
10天前
|
SQL 关系型数据库 MySQL
mysql数据误删后的数据回滚
【11月更文挑战第1天】本文介绍了四种恢复误删数据的方法:1. 使用事务回滚,通过 `pymysql` 库在 Python 中实现;2. 使用备份恢复,通过 `mysqldump` 命令备份和恢复数据;3. 使用二进制日志恢复,通过 `mysqlbinlog` 工具恢复特定位置的事件;4. 使用延迟复制从副本恢复,通过停止和重启从库复制来恢复数据。每种方法都有详细的步骤和示例代码。
|
21天前
|
存储 测试技术 数据库
数据驱动测试和关键词驱动测试的区别
数据驱动测试 数据驱动测试或 DDT 也被称为参数化测试。