使用 TiDB Lightning 恢复 Kubernetes 上的集群数据

简介: 本文介绍了如何使用 TiDB Lightning 快速恢复 Kubernetes 上的 TiDB 集群数据。TiDB Lightning 包含两个组件:tidb-lightning 和 tikv-importer。在 Kubernetes 上,tikv-importer 位于单独的 Helm chart 内,被部署为一个副本数为 1 (replicas=1) 的 StatefulSet;tidb-lightning 位于单独的 Helm chart 内,被部署为一个 Job。为了使用 TiDB Lightning 恢复数据,tikv-importer 和 tidb-lightning

本文介绍了如何使用 TiDB Lightning 快速恢复 Kubernetes 上的 TiDB 集群数据。

TiDB Lightning 包含两个组件:tidb-lightning 和 tikv-importer。在 Kubernetes 上,tikv-importer 位于单独的 Helm chart 内,被部署为一个副本数为 1 (replicas=1) 的 StatefulSet;tidb-lightning 位于单独的 Helm chart 内,被部署为一个 Job。

为了使用 TiDB Lightning 恢复数据,tikv-importer 和 tidb-lightning 都必须分别部署。

部署 tikv-importer
可以通过 tikv-importer Helm chart 来部署 tikv-importer,示例如下:

确保 PingCAP Helm 库是最新的:

helm repo update
helm search tikv-importer -l
获取默认的 values.yaml 文件以方便自定义:

helm inspect values pingcap/tikv-importer --version=${chart_version} > values.yaml
修改 values.yaml 文件以指定目标 TiDB 集群。示例如下:

clusterName: demo
image: pingcap/tidb-lightning:v3.0.8
imagePullPolicy: IfNotPresent
storageClassName: local-storage
storage: 20Gi
pushgatewayImage: prom/pushgateway:v0.3.1
pushgatewayImagePullPolicy: IfNotPresent
config: |
log-level = "info"
[metric]
job = "tikv-importer"
interval = "15s"
address = "localhost:9091"
clusterName 必须匹配目标 TiDB 集群。

部署 tikv-importer:

helm install pingcap/tikv-importer --name=${cluster_name} --namespace=${namespace} --version=${chart_version} -f values.yaml
注意:

tikv-importer 必须与目标 TiDB 集群安装在相同的命名空间中。

部署 tidb-lightning
配置 TiDB Lightning
使用如下命令获得 TiDB Lightning 的默认配置:

helm inspect values pingcap/tidb-lightning --version=${chart_version} > tidb-lightning-values.yaml
tidb-lightning Helm chart 支持恢复本地或远程的备份数据。

本地模式:

本地模式要求 Mydumper 备份数据位于其中一个 Kubernetes 节点上。要启用该模式,你需要将 dataSource.local.nodeName 设置为该节点名称,将 dataSource.local.hostPath 设置为 Mydumper 备份数据目录路径,该路径中需要包含名为 metadata 的文件。

远程模式:

与本地模式不同,远程模式需要使用 rclone 将 Mydumper 备份 tarball 文件从网络存储中下载到 PV 中。远程模式能在 rclone 支持的任何云存储下工作,目前已经有以下存储进行了相关测试:Google Cloud Storage (GCS)、Amazon S3 和 Ceph Object Storage。

使用远程模式恢复备份数据的步骤如下:

确保 values.yaml 中的 dataSource.local.nodeName 和 dataSource.local.hostPath 被注释掉。

新建一个包含 rclone 配置的 Secret。rclone 配置示例如下。一般只需要配置一种云存储。有关其他的云存储,请参考 rclone 官方文档。和使用 BR 和 Mydumper 进行数据恢复时一样,使用 Amazon S3 作为后端存储时,同样存在三种权限授予方式,参考使用 BR 工具备份 AWS 上的 TiDB 集群。在使用不同的权限授予方式时,需要使用不用的配置。

使用 Amazon S3 AccessKey 和 SecretKey 权限授予方式,或者使用 Ceph、GCS 作为存储后端时:

apiVersion: v1
kind: Secret
metadata:
name: cloud-storage-secret
type: Opaque
stringData:
rclone.conf: |
[s3]
type = s3
provider = AWS
env_auth = false
access_key_id = ${access_key}
secret_access_key = ${secret_key}
region = us-east-1
[ceph]
type = s3
provider = Ceph
env_auth = false
access_key_id = ${access_key}
secret_access_key = ${secret_key}
endpoint = ${endpoint}
region = :default-placement
[gcs]
type = google cloud storage
# 该服务账号必须被授予 Storage Object Viewer 角色。
# 该内容可以通过 cat ${service-account-file} | jq -c . 命令获取。
service_account_credentials = ${service_account_json_file_content}
使用 Amazon S3 IAM 绑定 Pod 的授权方式或者 Amazon S3 IAM 绑定 ServiceAccount 授权方式时,可以省略 s3.access_key_id 以及 `s3.secret_access_key:

apiVersion: v1
kind: Secret
metadata:
name: cloud-storage-secret
type: Opaque
stringData:
rclone.conf: |
[s3]
type = s3
provider = AWS
env_auth = true
access_key_id =
secret_access_key =
region = us-east-1
使用你的实际配置替换上述配置中的占位符,并将该文件存储为 secret.yaml。然后通过 kubectl apply -f secret.yaml -n ${namespace} 命令创建该 Secret。

将 dataSource.remote.storageClassName 设置为 Kubernetes 集群中现有的一个存储类型。

部署 TiDB Lightning
部署 TiDB Lightning 的方式根据不同的权限授予方式及存储方式,有不同的情况。

使用 Amazon S3 AccessKey 和 SecretKey 权限授予方式,或者使用 Ceph,GCS 作为存储后端时,运行以下命令部署 TiDB Lightning:

helm install pingcap/tidb-lightning --name=${release_name} --namespace=${namespace} --set failFast=true -f tidb-lightning-values.yaml --version=${chart_version}
使用 Amazon S3 IAM 绑定 Pod 的授权方式时,需要做以下步骤:

创建 IAM 角色:

可以参考 AWS 官方文档来为账号创建一个 IAM 角色,并且通过 AWS QQ靓号买号官方文档为 IAM 角色赋予需要的权限。由于 Lightning 需要访问 AWS 的 S3 存储,所以这里给 IAM 赋予了 AmazonS3FullAccess 的权限。

修改 tidb-lightning-values.yaml, 找到字段 annotations,增加 annotation iam.amazonaws.com/role: arn:aws:iam::123456789012:role/user。

部署 Tidb-Lightning:

helm install pingcap/tidb-lightning --name=${release_name} --namespace=${namespace} --set failFast=true -f tidb-lightning-values.yaml --version=${chart_version}
注意:

arn:aws:iam::123456789012:role/user 为步骤 1 中创建的 IAM 角色。

使用 Amazon S3 IAM 绑定 ServiceAccount 授权方式时:

在集群上为服务帐户启用 IAM 角色:

可以参考 AWS 官方文档 开启所在的 EKS 集群的 IAM 角色授权。

创建 IAM 角色:

可以参考 AWS 官方文档创建一个 IAM 角色,为角色赋予 AmazonS3FullAccess 的权限,并且编辑角色的 Trust relationships。

绑定 IAM 到 ServiceAccount 资源上:

kubectl annotate sa ${servieaccount} -n eks.amazonaws.com/role-arn=arn:aws:iam::123456789012:role/user
部署 Tidb-Lightning:

helm install pingcap/tidb-lightning --name=${release_name} --namespace=${namespace} --set-string failFast=true,serviceAccount=${servieaccount} -f tidb-lightning-values.yaml --version=${chart_version}
注意:

arn:aws:iam::123456789012:role/user 为步骤 1 中创建的 IAM 角色。 ${service-account} 为 tidb-lightning 使用的 ServiceAccount,默认为 default。

当 TiDB Lightning 未能成功恢复数据时,不能简单地直接重启进程,必须进行手动干预,否则将很容易出现错误。因此,tidb-lightning 的 Job 重启策略被设置为 Never。

如果 TiDB Lightning 未能成功恢复数据,需要采用以下步骤进行手动干预:

运行 kubectl delete job -n ${namespace} ${release_name}-tidb-lightning,删除 lightning Job。

运行 helm template pingcap/tidb-lightning --name ${release_name} --set failFast=false -f tidb-lightning-values.yaml | kubectl apply -n ${namespace} -f -,重新创建禁用 failFast 的 lightning Job。

当 lightning pod 重新运行时,在 lightning 容器中执行 kubectl exec -it -n ${namespace} ${pod_name} sh 命令。

运行 cat /proc/1/cmdline,获得启动脚本。

参考故障排除指南,对 lightning 进行诊断。

销毁 TiDB Lightning
目前,TiDB Lightning 只能在线下恢复数据。当恢复过程结束、TiDB 集群需要向外部应用提供服务时,可以销毁 TiDB Lightning 以节省开支。

删除 tikv-importer 的步骤:

运行 helm delete ${release_name} --purge。
删除 tidb-lightning 的方法:

运行 helm delete ${release_name} --purge。

相关实践学习
通过Ingress进行灰度发布
本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
目录
相关文章
|
1月前
|
缓存 容灾 网络协议
ACK One多集群网关:实现高效容灾方案
ACK One多集群网关可以帮助您快速构建同城跨AZ多活容灾系统、混合云同城跨AZ多活容灾系统,以及异地容灾系统。
|
2月前
|
Kubernetes Ubuntu 网络安全
ubuntu使用kubeadm搭建k8s集群
通过以上步骤,您可以在 Ubuntu 系统上使用 kubeadm 成功搭建一个 Kubernetes 集群。本文详细介绍了从环境准备、安装 Kubernetes 组件、初始化集群到管理和使用集群的完整过程,希望对您有所帮助。在实际应用中,您可以根据具体需求调整配置,进一步优化集群性能和安全性。
148 12
|
2月前
|
Prometheus Kubernetes 监控
OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性
聚焦近日OpenAI的大规模K8s集群故障,介绍阿里云容器服务与可观测团队在大规模K8s场景下我们的建设与沉淀。以及分享对类似故障问题的应对方案:包括在K8s和Prometheus的高可用架构设计方面、事前事后的稳定性保障体系方面。
|
2月前
|
Kubernetes 网络协议 应用服务中间件
Kubernetes Ingress:灵活的集群外部网络访问的利器
《Kubernetes Ingress:集群外部访问的利器-打造灵活的集群网络》介绍了如何通过Ingress实现Kubernetes集群的外部访问。前提条件是已拥有Kubernetes集群并安装了kubectl工具。文章详细讲解了Ingress的基本组成(Ingress Controller和资源对象),选择合适的版本,以及具体的安装步骤,如下载配置文件、部署Nginx Ingress Controller等。此外,还提供了常见问题的解决方案,例如镜像下载失败的应对措施。最后,通过部署示例应用展示了Ingress的实际使用方法。
87 2
|
2月前
|
存储 Kubernetes 关系型数据库
阿里云ACK备份中心,K8s集群业务应用数据的一站式灾备方案
本文源自2024云栖大会苏雅诗的演讲,探讨了K8s集群业务为何需要灾备及其重要性。文中强调了集群与业务高可用配置对稳定性的重要性,并指出人为误操作等风险,建议实施周期性和特定情况下的灾备措施。针对容器化业务,提出了灾备的新特性与需求,包括工作负载为核心、云资源信息的备份,以及有状态应用的数据保护。介绍了ACK推出的备份中心解决方案,支持命名空间、标签、资源类型等维度的备份,并具备存储卷数据保护功能,能够满足GitOps流程企业的特定需求。此外,还详细描述了备份中心的使用流程、控制台展示、灾备难点及解决方案等内容,展示了备份中心如何有效应对K8s集群资源和存储卷数据的灾备挑战。
|
3月前
|
Kubernetes 监控 Cloud Native
Kubernetes集群的高可用性与伸缩性实践
Kubernetes集群的高可用性与伸缩性实践
99 1
|
4月前
|
JSON Kubernetes 容灾
ACK One应用分发上线:高效管理多集群应用
ACK One应用分发上线,主要介绍了新能力的使用场景
|
4月前
|
Kubernetes 持续交付 开发工具
ACK One GitOps:ApplicationSet UI简化多集群GitOps应用管理
ACK One GitOps新发布了多集群应用控制台,支持管理Argo CD ApplicationSet,提升大规模应用和集群的多集群GitOps应用分发管理体验。
|
4月前
|
Kubernetes Ubuntu Linux
Centos7 搭建 kubernetes集群
本文介绍了如何搭建一个三节点的Kubernetes集群,包括一个主节点和两个工作节点。各节点运行CentOS 7系统,最低配置为2核CPU、2GB内存和15GB硬盘。详细步骤包括环境配置、安装Docker、关闭防火墙和SELinux、禁用交换分区、安装kubeadm、kubelet、kubectl,以及初始化Kubernetes集群和安装网络插件Calico或Flannel。
309 4
|
4月前
|
Kubernetes 应用服务中间件 nginx
搭建Kubernetes v1.31.1服务器集群,采用Calico网络技术
在阿里云服务器上部署k8s集群,一、3台k8s服务器,1个Master节点,2个工作节点,采用Calico网络技术。二、部署nginx服务到k8s集群,并验证nginx服务运行状态。
1444 1

热门文章

最新文章