Apache Doris tablet 副本修复的原理、流程及问题定位-阿里云开发者社区

Apache Doris tablet 副本修复的原理、流程及问题定位

2023-10-09 356

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

日志服务 SLS，月写入数据量 50GB 1个月

简介： Apache Doris tablet 副本修复的原理、流程及问题定位

Doris 一个 tablet 有多个副本，可能因为某些情况导致状态不一致。Doris 会尝试自动修复这些状态不一致的副本，让集群尽快从错误状态中恢复。每个副本的状态有以下几种

1.BAD : 即副本损坏。包括但不限于磁盘故障、BUG等引起的副本不可恢复的损毁状态
2.VERSION_MISSING : 版本缺失。Doris 中每一批次导入都对应一个数据版本。而一个副本的数据由多个连续的版本组成。而由于导入错误、延迟等原因，可能导致某些副本的数据版本不完整
3.HEALTHY : 健康副本。即数据正常的副本，并且副本所在的 BE 节点状态正常

Tablet 的状态是有所有副本状态来决定的，状态如下：

1.REPLICA_MISSING：副本缺失（即存活副本数小于期望副本数）
2.VERSION_INCOMPLETE：存活副本数大于等于期望副本数，但其中健康副本数小于期望副本数。
3.REPLICA_RELOCATING ：拥有等于 replication num 的版本完整的存活副本数，但是部分副本所在的 BE 节点处于 unavailable 状态
4.REPLICA_MISSING_IN_CLUSTER ：当使用多 cluster 方式时，健康副本数大于等于期望副本数，但在对应 cluster 内的副本数小于期望副本数
5.REDUNDANT：副本冗余
6.COLOCATE_MISMATCH：针对 Colocation 属性的表的分片状态。表示分片副本与 Colocation Group 的指定的分布不一致
7.COLOCATE_REDUNDANT：针对 Colocation 属性的表的分片状态。表示 Colocation 表的分片副本冗余。
8.FORCE_REDUNDANT：这是一个特殊状态。只会出现在当期望副本数大于等于可用节点数时，并且 Tablet 处于副本缺失状态时出现。这种情况下，需要先删除一个副本，以保证有可用节点用于创建新副本

下面这张图是 Doris 副本检查及副本恢复的整体流程图

微信图片_20231009170105.png

名词解释：

1.TabletChecker（TC）：TabletChecker 作为常驻的后台进程，会定期检查所有分片的状态。对于非健康状态的分片，将会交给 TabletScheduler 进行调度和修复。修复的实际操作，都由 BE 上的 clone 任务完成。FE 只负责生成这些 clone 任务。
2.TabletScheduler 每5秒进行一次调度
3.TabletScheduler 每次调度最多 50 个 tablet
4.最大等待调度任务数和运行中任务数为 2000。当超过 2000 后，TabletChecker 将不再产生新的调度任务给 TabletScheduler。
5.最大均衡任务数为 500。当超过 500 后，将不再产生新的均衡任务
6.每块磁盘用于均衡任务的 slot 数目为2。这个 slot 独立于用于副本修复的 slot
7.一个 clone 任务超时时间范围是 3min ~ 2hour。具体超时时间通过 tablet 的大小计算。计算公式为 (tablet size) / (5MB/s)。当一个 clone 任务运行失败 3 次后，该任务将终止。
8.TabletScheduler（TS）：是一个常驻的后台线程，用于处理由 TabletChecker 发来的需要修复的 Tablet。同时也会进行集群副本均衡的工作。

副本恢复流程

首先是 FE 的 tablet 检查进程，会定期的对所有分片进行检查，然后会不健康的分片，交给Tablet调度进程去完成调度和修复，下面我们主要介绍一下 FE 这边怎么生成调度及BE怎么完成Clone 和修复。

首先我们要找到一个目标BE，可以用来Clone 一个新的副本

1.这个目标 BE 要有可以使用执行 Clone 任务的 Solt
2.找到一个可以用来 Clone 副本的合适的路径，这里要考虑磁盘容量和使用百分比
3.目标是要找到一个负载（ClusterLoadStatistics（CLS））相对低的路径，这里TabletScheduler 会每隔 20s 更新一次 CLS
4.找到一个适合的副本源
5.这个副本应该是健康的
6.源副本所在的BE有可用的Clone solt
7.向目标 BE 发送克隆任务
8.目标 BE 提交 Clone task 任务
9.判断 tablet 副本都否存在，如果不存在开始 Clone 一个新的 tablet
10.向源 BE 发送一个创建Snapshot的请求，这里源 BE 之所以要创建Snapshot，是因为方式在 clone 修复的时候，这个时候有数据写导致Clone 失败，通过创建快照来避免这个问题。
11.源 BE 检查 tablet 状态及版本等是否正常
12.如果源 BE 的tablet 副本状态、版本等都是正常的，执行创建Snapshot，并返回
13.目标 BE 从源 BE 下载刚才创建的Snapshot到本地，完成副本恢复