10亿+文件数压测,阿里云JindoFS轻松应对

本文涉及的产品
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: Apache Hadoop FileSystem (HDFS) 是被广为使用的大数据存储方案,其核心元数据服务 NameNode 将全部元数据存放在内存中,因此所能承载的元数据规模受限于内存,单个实例所能支撑的文件个数大约 4亿。JindoFS块模式是阿里云基于 OSS 海量存储自研的一个存储优化系统,提供了高效的数据读写加速能力和元数据优化能力。JindoFS 实际表现如何,我们在 10亿文件数规模下做了压测,验证 JindoFS 在达到这个规模的时候是否还可以保持稳定的性能。

作者:苏昆辉,花名抚月,阿里巴巴计算平台事业部 EMR 技术专家, Apache HDFS committer,目前从事开源大数据存储和优化方面的工作。

主要介绍


Apache Hadoop FileSystem (HDFS) 是被广为使用的大数据存储方案,其核心元数据服务 NameNode 将全部元数据存放在内存中,因此所能承载的元数据规模受限于内存,单个实例所能支撑的文件个数大约 4亿。JindoFS块模式是阿里云基于 OSS 海量存储自研的一个存储优化系统,提供了高效的数据读写加速能力和元数据优化能力。在设计上避免了 NameNode 上的内存限制,与HDFS不同的一点是,JindoFS元数据服务采用RocksDB作为底层元数据存储,RocksDB可以存储在大容量本地高速磁盘,解决了内存容量瓶颈问题。借助于内存缓存,将10%~40%的热文件元数据存放于内存缓存,从而保持稳定的优秀的读写性能。借助于Raft机制,JindoFS元数据服务可以组成3个主备实例,实现服务高可用。JindoFS 实际表现如何,我们在 10亿文件数规模下做了压测,验证 JindoFS 在达到这个规模的时候是否还可以保持稳定的性能。同时在一些关键的元数据操作上,我们也跟 HDFS 做了个测试对比。



JindoFS 10亿文件数测试


HDFS NameNode 单个实例所能支撑的文件个数大约 4亿,主要原因是受限于内存大小。除此之外,由于文件数增加,需要处理的DataNode上报块也增加,造成了性能上的巨大抖动。大量文件信息保存在一个很大的FsImage文件,用于下次启动时加载,而很大的FsImage文件使得 NameNode 启动需要花费10分钟以上的时间。

JindoFS 解决了以上系列问题,它使用 RocksDB 存储元数据,相比于 NameNode 可以存储更大规模的文件数,不受限于内存。另外不需要Worker节点上报块信息,没有性能抖动的问题。JindoFS 元数据服务可以在1s内完成启动,毫秒内完成主备节点切换。所以本次测试,我们分别测试了 JindoFS 从1亿文件数增长到10亿文件数,从而测试其是否可以保持稳定的性能。


测试环境

主实例组 (MASTER) 核心实例组 (CORE)

主机数量: 3

机型规格: ecs.g5.8xlarge

CPU: 32核

内存: 128GB

数据盘配置: 640GB ESSD云盘*1

主机数量: 4

机型规格: ecs.i2g.8xlarge

CPU: 32核

内存: 128GB

数据盘配置: 1788GB 本地盘*2


数据集(共4组)

为了测试在不同的元数据规模下,JIndoFS元数据服务的性能。我们准备4组数据。分别是:初始状态(0文件数)、1亿文件数、5亿文件数、10亿文件数。我们使用一份真实的经过用户脱敏的HDFS FsImage文件,将其还原到JindoFS元数据服务当中。文件大小按1:1相应地创建block信息一起存入JindoFS元数据。最终生成的数据集如下。


元数据磁盘空间占用

0文件数(初始状态)

1亿文件数

5亿文件数

10亿文件数

50MB

17GB

58GB

99GB


文件大小的分布(以10亿文件数为例)

文件大小

比例

0(目录)

1.47%

0(文件)

2.40%

大于0,小于等于128KB

33.66%

大于128KB,小于等于1MB

16.71%

大于1MB,小于等于8MB

15.49%

大于8MB,小于等于64MB

18.18%

大于64MB,小于等于512MB

9.26%

大于512MB

2.82%

另外,目录层级主要分布在5到7级目录居多。数据集的文件大小分布、目录层级分布一定程度上比较接近生产环境的情况。



NNBench测试

NNBench全称NameNode Benchmark,是HDFS官方自带的用于测试NameNode性能的工具。由于它使用的是标准的FileSystem接口,因此我们可以使用它来测试JindoFS服务端的性能。NNBench的执行参数如下:

测试写性能

-operation create_write  -maps 200  -numberOfFiles 5000 -bytesToWrite 512

测试读性能

-operation open_read  -maps 200  -numberOfFiles 5000 -bytesToWrite 512


启动200个Map Task,每个Task写(读)5000个文件,共计100万个文件。(受测试集群规模限制,实际同时执行Map个数为128个)


测试结果

操作 0文件数 1亿文件数 5亿文件数 10亿文件数
create_write 5836 5791 5598 5153
open_read 24853 24097 23521 23567


image.png

TPS

create_write

7000

6000

5836

5791

5598

5153

5000

4000

3000

2000

1000

0文件数

1亿文件数

10亿文件数

5亿文件数

image.png

TPS

openread

26000

24853

24000

24097

23567

23521

22000

20000

18000

16000

14000

12000

10000

10亿文件数

1亿文件数

0文件数

5亿文件数


NNBench的结果很好地反馈了随着元数据规模增长,元数据服务的性能变化曲线。通过结果我们可以分析得出:

  1. 当达到10亿文件数时,写入TPS受到略微影响,TPS 下降为原先的88%。
  2. 当达到5亿文件数时,读TPS受到略微影响,TPS 下降为原先的94%。而10亿文件数时,读TPS保持稳定,跟5亿文件数时基本持平。



TPC-DS测试

使用的是官方TPC-DS数据集,5TB数据量,使用的是ORC格式,Spark作为执行引擎进行测试。

测试成绩如下,时间单位秒:

image.png

99个查询总耗时对比:

查询 0文件数 1亿文件数 5亿文件数 10亿文件数
总计 13032.51 13015.226 13022.914 13052.728


通过观察发现,去掉误差影响,随着元数据规模从0增加到10亿文件数,TPC-DS成绩基本不受影响。



ls -R/count测试

上述NNBench工具主要测试高并发下元数据服务单点写入、单点查询的性能。然而,文件列表导出(ls -R)操作、文件大小统计(du/count)操作也是用户使用频率较高的操作,这些命令的执行时间,反应了元数据服务遍历操作的执行效率。

我们使用两个样本数据进行测试:

  1. 对一个表(半年数据,154个分区,270万个文件)执行ls -R操作,统计执行时间,使用以下命令

time hadoop fs -ls -R jfs://test/warehouse/xxx.db/tbl_xxx_daily_xxx > /dev/null

  1. 对一个数据库(50万个目录,1800万个文件)执行count操作,统计执行时间,使用以下命令

time hadoop fs -count jfs://test/warehouse/xxx.db


测试结果(单位:秒)

操作 1亿文件数 5亿文件数 10亿文件数
ls -R 7.321 7.322 7.425
count 5.425 5.445 5.478


测试结果发现,对于遍历(ls -R/count)相同数量的文件(目录),元数据服务的性能保持稳定,不会随着元数据总量的增长有所变化。


对于10亿级别的文件数,磁盘占用有近100GB,JindoFS元数据服务只会缓存部分热文件元数据,那么元数据文件的page cache是否会对性能有所影响?我们为此做了测试。

热启动:直接重启元数据服务服务,此时系统存在page cahe。

冷启动:我们使用命令echo 3 > /proc/sys/vm/drop_caches清空缓存,并重启元数据服务。


测试结果如下(使用10亿文件数据集)

image.png

耗时(秒)

7.602

7.425

5.609

5.478

ls-R

COunT

热启动

冷启动

通过观察发现,冷启动情况下,这些操作耗时增加了约0.2秒,只受到细微的影响。




与HDFS横向对比测试


通过上面的测试我们得知 JindoFS 在10亿文件数下,依然保持了稳定的性能。另外我们补充测试了 JindoFS 跟 HDFS 的对比。由于 HDFS 存储10亿规模文件数需要极高规格的机器,因此本轮测试我们主要测试1亿文件数场景,我们通过横向对比list、du、count等常用操作,对比两者的性能差异。


样本说明

抽取 a, b, c, d 共 4 组目录,

目录 a:Hive warehouse目录包含 31.7万目录,1250万文件;

目录 b:某 database 目录包含 1万2目录,32万文件

目录 c:某 table 目录包含 91个目录,7.7万文件

目录 d:spark 结果存放目录包含4.2万目录,7.1万文件


测试结果(用时更短,性能更好)

单层 list 操作

对单层目录进行展开并输出,采样方法: time hadoop dfs -ls [DIR] > /dev/null


image.png

LS耗时(秒)

1.693

1.686

0.6

目录

目录c

目录

目录b

HDSS

JindoFs



递归 list 操作

对目录进行逐层展开并输出,采样方法: time hadoop dfs -ls -R [DIR] > /dev/null


image.png

LSR耗时(秒)

11.999

12

10.532

8.249

3.851

3.77

3.249

目录

目录

目录

HDFS

JindoFs



du 操作

对目录占用的存储空间进行计算,采样方法: time hadoop dfs -du [DIR] > /dev/null

image.png

DU耗时(秒)

11.569

1.978

1845

1.788

1.603

1.382

目录

目录a

目录b

目录c

HDFS

JindoFs


count 操作

对目录的文件(夹)数量、容量进行计算,采样方法: time hadoop dfs -count [DIR] > /dev/null

image.png

COUNT耗时(秒)

12

4.071

2.006

1.83

1.777

1.398

1398

1.35

目录d

目录b

目录c

目录

HDRSWJindFs

结果分析

通过上述测试结果,可以明显发现 JindoFS 在list、du、count等常用操作上速度明显快于 HDFS。分析原因,HDFS NameNode 内存中使用了全局的读写锁,所以对于查询操作,尤其是对目录的递归查询操作都需要拿读锁。拿锁之后使用了单线程串行的方式做目录递归操作,速度较慢。拿锁时间长继而又影响了其它rpc请求的执行。JindoFS 从设计上解决了这些问题。它对目录的递归操作使用了多线程并发加速,因此在对目录树的递归操作上速度更快。同时使用了不同的目录树存储结构,配合细粒度锁,从而减少了多个请求之间的影响。



总结


JindoFS 块模式可以轻松地存储10亿+文件数,并且提供高性能的读写请求处理能力。跟 HDFS NameNode 相比占用内存更小、性能更好、运维更加简单。我们可以利用 JindoFS 作为存储引擎,将底层数据存放在对象存储(比如OSS)上,并且利用 JindoFS 的本地缓存加速能力,组成一个云上稳定、可靠、高性能的大数据存储方案,给上层计算分析引擎提供强大有力的支撑。


另外,JindoFS SDK可以单独使用,替代Hadoop社区OSS客户端实现。相比于Hadoop社区实现,JindoFS SDK对读写OSS的能力上做了很多的性能优化,可以访问github repo下载使用。


欢迎试用

欢迎对阿里云 JindoFS 感兴趣的朋友加入阿里云EMR钉钉群交流测试,群内会定期进行精品内容分享,测试请@扬流,钉钉群如下

309470c69d24477bae208ed320d9ad8a.jpg

相关实践学习
通过性能测试PTS对云服务器ECS进行规格选择与性能压测
本文为您介绍如何利用性能测试PTS对云服务器ECS进行规格选择与性能压测。
相关文章
|
8月前
|
存储 弹性计算 运维
阿里云服务器ECS经济型e实例详细介绍_性能测试和租用价格
阿里云服务器ECS经济型e实例详细介绍_性能测试和租用价格,阿里云服务器ECS推出经济型e系列,经济型e实例是阿里云面向个人开发者、学生、小微企业,在中小型网站建设、开发测试、轻量级应用等场景推出的全新入门级云服务器,CPU采用Intel Xeon Platinum架构处理器,支持1:1、1:2、1:4多种处理器内存配比,e系列性价比优选
|
消息中间件 弹性计算 Java
使用阿里云性能测试工具 JMeter 场景压测 RocketMQ 最佳实践
使用阿里云性能测试工具 JMeter 场景压测 RocketMQ 最佳实践
1315 11
|
5月前
|
测试技术 语音技术
FunASR英文离线文件转写软件包问题之性能测试详细结果查看如何解决
FunASR英文离线文件转写软件包问题之性能测试详细结果查看如何解决
88 0
|
7月前
|
关系型数据库 MySQL 测试技术
《阿里云产品四月刊》—瑶池数据库微课堂|RDS MySQL 经济版 vs 自建 MySQL 性能压测与性价比分析
阿里云瑶池数据库云原生化和一体化产品能力升级,多款产品更新迭代
|
7月前
|
测试技术 Linux Apache
掌握JMeter参数化技巧:通过CSV文件实现高效登录压测
在本文中,我们将探讨如何使用 Apache JMeter 通过 CSV 数据文件进行登录性能测试参数化。首先创建一个包含用户名和密码的 `users.csv` 文件。接着在 JMeter 中,创建测试计划,添加线程组,配置 CSV 数据集,设置文件路径、编码及变量名。然后,创建 HTTP 请求并添加参数,使用 `${username}` 和 `${password}` 引用 CSV 中的数据。最后,添加监听器如查看结果树和聚合报告以分析测试结果。通过这种方法,能更有效地模拟真实用户行为,提高测试覆盖率,助力性能瓶颈的发现和优化。
|
8月前
|
存储 弹性计算 网络协议
【阿里云弹性计算】ECS实例性能测试报告:阿里云实例性能横向评测
【5月更文挑战第27天】阿里云ECS性能横向评测对比了经济型e系列、计算型c7a系列实例的CPU、内存、网络和存储性能。使用SPEC CPU 2017、Stream、iperf和fio工具进行测试。结果显示,计算型c7a系列在CPU和网络性能上突出,经济型e系列性价比高。所有实例内存性能良好,ESSD云盘提供出色存储性能。用户应根据业务需求选择合适实例。
199 0
|
8月前
|
存储 弹性计算 运维
阿里云经济型e实例详细介绍_性能测试_使用限制说明
阿里云服务器ECS推出经济型e系列,经济型e实例是阿里云面向个人开发者、学生、小微企业,在中小型网站建设、开发测试、轻量级应用等场景推出的全新入门级云服务器,CPU采用Intel Xeon Platinum架构处理器
|
8月前
|
弹性计算 测试技术 数据中心
阿里云香港服务器BGP多线精品网络_CN2性能测试_中国香港主机测试
阿里云香港服务器BGP多线精品网络_CN2性能测试_中国香港主机测试,阿里云香港服务器中国香港数据中心网络线路类型BGP多线精品,中国电信CN2高速网络高质量、大规格BGP带宽,运营商精品公网直连中国内地,时延更低,优化海外回中国内地流量的公网线路,可以提高国际业务访问质量
|
8月前
|
弹性计算 缓存 测试技术
阿里云2核4g服务器(费用价格/性能测试/支持人数)
阿里云2核4g服务器能支持多少人访问?2核4G服务器并发数性能测试,阿小云账号下的2核4G服务器支持20人同时在线访问,然而应用不同、类型不同、程序效率不同实际并发数也不同,2核4G服务器的在线访问人数取决于多个变量因素
|
8月前
|
测试技术
几种读取文件方式的性能测试
几种读取文件方式的性能测试