Hbase合并怎么操作?合并的大小是多少-阿里云开发者社区

Hbase合并怎么操作?合并的大小是多少

2022-03-29 971

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 关于Hbase合并问题

compact的作用
flush操作会将memstore的数据落地为一个个StoreFile（HFile），那么随着时间的增长在HDFS上面就会有很多的HFile文件，这样对读操作会产生比较大的影响（读操作会对HFile进行归并查询），并且对DataNode的压力也会比较大。为了降低对读操作的影响，可以对这些HFile进行compact操作，但是compact操作会产生大量的IO，所以可以看出compact的本质就是用IO操作换取后续读性能的提升。
minor compaction （小合并）
选取部分小的、相邻的HFile文件，形成一个较大的HFile文件。
小合并并不会进行过期数据的清除工作。
major compaction（大合并）
合并所有的HFile文件为一个大的HFile文件
大合并会清理TTL过期数据、超出设定版本号的数据以及delete标记的数据
一般是手动进行，将参数hbase.hregion.majorcompaction的值设为0，表示禁用major compaction。其默认值为7天，允许上下浮动hbase.hregion.majorcompaction * hbase.hregion.majorcompaction.jitter的值，后者默认是0.5。即[7 - 70.5, 7 + 70.5]
触发条件
一、memstore flush之后
memstore flush之后，都需要对当前Store的文件数量进行判断，一旦大于hbase.hstore.compactionThreshold（现在的版本中这个参数的名字为hbase.hstore.compaction.min）的值（默认3），触发合并操作。该参数一般需要调大。一次minor cmpaction最多合并hbase.hstore.compaction.max个文件（默认值10）。
二、定期compaction
后台线程CompactionChecker定期触发检查是否需要执行compaction，检查周期为：hbase.server.thread.wakefrequency * hbase.server.compactchecker.interval.multiplier，默认值为10s和1000
当文件大小小于参数hbase.hstore.compaction.min.size指定的值的时候（默认128M，单位字节），该文件会被加入到合并队列中，当合并队列中的StoreFile数量超过参数hbase.hstore.compaction.min（更早的版本中这个的参数的名字为hbase.hstore.compactionThreshold）的值（默认3）时会触发compaction操作。一次minor cmpaction最多合并hbase.hstore.compaction.max个文件（默认值10）。
如果一个文件的大小超过hbase.hstore.compaction.max.size的值（默认值LONG.MAX_VALUE），则会被compaction操作排除。
通过hbase.hstore.compaction.ratio参数（默认值1.2）确定大小超过hbase.hstore.compaction.min.size的文件是否需要进行compaction。如果一个文件的大小小于它后面（按文件产生的先后顺序，总是从新产生的文件开始选择即“老文件”）的hbase.hstore.compaction.max个StoreFile的大小之和乘以hbase.hstore.compaction.ratio，则该StoreFile文件也会加入到合并队列中。
三、手动触发major compaction
使用命令major_compact

相关实践学习

lindorm多模间数据无缝流转

展现了Lindorm多模融合能力——用kafka API写入，无缝流转在各引擎内进行数据存储和计算的实验。

云数据库HBase版使用教程

  相关的阿里云产品：云数据库 HBase 版面向大数据领域的一站式NoSQL服务，100%兼容开源HBase并深度扩展，支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力，是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库，是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。了解产品详情: https://cn.aliyun.com/product/hbase   ------------------------------------------------------------------------- 阿里云数据库体验：数据库上云实战开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引，您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。点击下方链接，领取免费ECS&RDS资源，30分钟完成数据库上云实战！https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl

Hbase合并怎么操作?合并的大小是多少

热门文章

最新文章

相关课程

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Hbase合并怎么操作?合并的大小是多少

热门文章

最新文章

相关课程

相关电子书