基于Spark进行TPC-DS性能测试的完整实践-开发者社区-阿里云

Spark做TPC-DS性能测试

2023-06-12 2066

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Spark做TPC-DS性能测试

背景

最近由于在做上云的工作，并且公司离线部分引擎是Spark，所以做了一次基于TPC-DS性能比对测试。

云上和云下的机器主要不同如下:

不同点	云上	云下
存储	OSS	HDFS
机器CPU	Intel®Xeon®Platinum 8269CY CPU@2.50GHz	Intel®Xeon®Gold 6626 CPU@2.70GHz

TPC-DS是什么

如下解释：

TPC-DS is a data warehousing benchmark defined by the Transaction Processing Performance Council (TPC)
The “DS” in TPC-DS stands for “decision support.”

TPC-DS数据来源

进行TPCDS的数据来源需要我们自己生产，参考Spark Commiter和PMC的项目 spark-tpcds-datagen，具体的生产数据命令如下：

nohup ./bin/dsdgen --output-location /tmp/spark-tpcds-data --overwrite --scale-factor 600 --partition-tables --num-partitions 100 &>dsdgen.log &

生产了大约200GB的数据

TPC-DS的SQL来源

目前很多引擎都自带了TPC-DS的sql语句(如Trino，Spark)，目前我们参考Spark的提供的sql语句如下：

TPC-DS v1.4

TPC-DS v2.7

运行TPC-DS Benchemark

由于spark内置的TPCDSQueryBenchmark.scala里是local模式运行，所以我们得修改成如下：

vi  spark/sql/core/src/test/scala/org/apache/spark/sql/execution/benchmark/TPCDSQueryBenchmark.scala
  override def getSparkSession: SparkSession = {
    val conf = new SparkConf()
//      .setMaster("local[1]")
      .setAppName("test-sql-context")
//      .set("spark.sql.parquet.compression.codec", "snappy")
//      .set("spark.sql.shuffle.partitions", "4")
//      .set("spark.driver.memory", "3g")
//      .set("spark.executor.memory", "3g")
//      .set("spark.sql.autoBroadcastJoinThreshold", (20 * 1024 * 1024).toString)
//      .set("spark.sql.crossJoin.enabled", "true")

同时还得修改脚本spark-tpcds-datagen/bin/report-tpcds-benchmark，如下：

vi spark-tpcds-datagen/bin/report-tpcds-benchmark
\\ 删除以下四个配置
--conf spark.ui.enabled=false          \
  --conf spark.master=local[1]           \
  --conf spark.driver.memory=60g         \
  --conf spark.sql.shuffle.partitions=32 \

用如下命令进行测试

nohup ./bin/report-tpcds-benchmark /tmp/spark-tpcds-data /tmp/benchmark-result &> benchmark.log &

结果

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-yIDFoehO-1685524759310)(null)]

作图的工具可以参考：

其他有意思的文章如下:

dsdgen

tpcds-kit

warehouse-performance-record

Spark做TPC-DS性能测试

背景

TPC-DS是什么

TPC-DS数据来源

TPC-DS的SQL来源

运行TPC-DS Benchemark

结果

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Spark做TPC-DS性能测试

背景

TPC-DS是什么

TPC-DS数据来源

TPC-DS的SQL来源

运行TPC-DS Benchemark

结果

热门文章

最新文章

相关课程

相关电子书