HBase sequenceId知识点略记-阿里云开发者社区

HBase sequenceId知识点略记

2020-05-03 1705

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 在HBase中，sequenceId是实现一致性的灵魂，这里的一致性有两方面意思：顺序性，即先写的先被读到，未提交的写不能被读到; 完整性，包含如下几点；未持久化到hfile的数据，对应的wal文件不能删除如果由于wal文件过多需要清理，则需要先把对应的数据持久化异常恢复过程中，需要.

在HBase中，sequenceId是实现一致性的灵魂，这里的一致性有两方面意思：

顺序性，即先写的先被读到，未提交的写不能被读到;
完整性，包含如下几点；

未持久化到hfile的数据，对应的wal文件不能删除
如果由于wal文件过多需要清理，则需要先把对应的数据持久化
异常恢复过程中，需要能够找出wal文件中尚未持久化的部分

以下从seqId的生成、保存和使用几方面对相关知识点进行了整理；

在哪里生成

1、每个HRegion都对应了一个的MultiVersionConcurrencyControl，该类中有2个变量：readPoint和writePoint，rpcHandler处理写请求的过程中，在写wal之前，会通过将writePoint加1来得到最新的seqId，然后创建1个WriteEntry，封装了该seqId和代表是否完成的状态，最后放入到1个链表中，代码如下：

synchronized (writeQueue) {
  long nextWriteNumber = writePoint.incrementAndGet();
  WriteEntry e = new WriteEntry(nextWriteNumber);
  writeQueue.add(e);
  action.run();
  return e;
}

在哪些地方保存

写wal，walEntry的key中包含该seqId，同时会更新SequenceIdAccounting中的highestSequenceIds，其中保存了该WAL实例负责的各个region的最大seqId，值得注意的时，如果启用了multiwal，则会存在多个WAL实例并各自对应一个SequenceIdAccounting实例；
写memstore，cell中包含该seqId；
写完成时，更新readPoint为该seqId，这里会检查writeQueue中是否存在更小的未完成WriteEntry，如果有，则不会更新；
flush，生成的hfile中，除了会在cell中包含该seqId之外，还会在fileInfo中保存MAX_SEQ_ID，代表hfile中的最大seqId，同时也会更新SequenceIdAccounting中的lowestUnflushedSequenceIds，其中保存了每个region下各个store的最小未持久化seqId；
report，rs每隔3s会上报信息给master，其中包含了每个region及其各个store的lastFlushedSequenceIds；
compact，会获取smallestReadPoint，seqId小于该值的cell会被当前及后续的所有scanner读取，因此在生成的新hfile中这些cell不需要再保存seqId；
roll log，会获取SequenceIdAccounting中的highestSequenceIds，将其保存到AbstractFSWAL中的walFile2Props，然后将highestSequenceIds清空；
bulkload，会先请求执行flush，其中会通过writePoint加1得到最新的seqId，并将其作为后缀放在hfile的文件名中(完整suffix:"_SeqId_" + seqNum + "_")；

在哪些地方使用

rpcHandler处理读请求的时候，会获取region的mvcc中最新的readpoint，以此过滤memstore和hfile中的数据；
logRoller创建新wal文件时，会对AbstractFSWAL中的walFile2Props与SequenceIdAccounting中的lowestUnflushedSequenceIds进行比较，如果某个wal文件中各region的数据都已经落盘，则将其转移到oldWALs目录；
log文件过多时，需要将最早那个log文件转移到oldWALs目录，此时也是对AbstractFSWAL中的walFile2Props与SequenceIdAccounting中的lowestUnflushedSequenceIds进行比较，找出存在未落盘数据的reigon进行flush；
rs挂掉后执行scp，需要splitlog，将不同reigon的log放到该reigon的recovered.edits目录下，用来在open时replay，此时splitworker会从master获取seqId来过滤掉确定已落盘的数据，获取到的seqId分为region级别的lastFlushedSequenceId和store级别的storeSequenceId，分别用于读取wal文件和写入recovered.edits目录时进行过滤；
openreigon的时候需要对recovered.edits目录下的数据进行replay，此时会再次根据store中各hfile的最大seqId进行过滤，这里再次过滤的原因是，splitlog时从master获取的seqId是rs定时上报的，存在一定的滞后；
另外，新引入的serial replication特性，也会使用seqId进行相关的协调控制；

相关实践学习

lindorm多模间数据无缝流转

展现了Lindorm多模融合能力——用kafka API写入，无缝流转在各引擎内进行数据存储和计算的实验。

云数据库HBase版使用教程

  相关的阿里云产品：云数据库 HBase 版面向大数据领域的一站式NoSQL服务，100%兼容开源HBase并深度扩展，支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力，是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库，是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。了解产品详情: https://cn.aliyun.com/product/hbase   ------------------------------------------------------------------------- 阿里云数据库体验：数据库上云实战开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引，您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。点击下方链接，领取免费ECS&RDS资源，30分钟完成数据库上云实战！https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl

HBase sequenceId知识点略记

在哪里生成

在哪些地方保存

在哪些地方使用

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

HBase sequenceId知识点略记

在哪里生成

在哪些地方保存

在哪些地方使用

热门文章

最新文章

相关课程

相关电子书

相关实验场景