带你读《企业级云原生白皮书项目实战》——5.1.6 数据备份恢复(2)

本文涉及的产品
对象存储 OSS,20GB 3个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
对象存储 OSS,内容安全 1000次 1年
简介: 带你读《企业级云原生白皮书项目实战》——5.1.6 数据备份恢复(2)

《企业级云原生白皮书项目实战》——第五章 大数据——5.1 检索分析服务 Elasticsearch版——5.1.6 数据备份恢复(1) https://developer.aliyun.com/article/1228732?spm=a2c6h.13148508.setting.29.78e74f0eMONppV


5.1.6.2 备份到本地OSS仓库

5.1.6.2.1 自动备份

自动备份到本地OSS仓库,在7.6及以上版本中可以通过SLM实现,创建SLM命令如下

PUT _slm/policy/auto-snapshots
{
 "schedule": "0 0 0/12 * * ?",
 "name": "<auto-snap-{now/d}>",
 "repository": "my_auto_backup",
 "config": {
 "indices": "*",
  "include_global_state": true
 },
 "retention": {
 "expire_after": "30d",
 "min_count": 5,
 "max_count": 50
 }
}

"schedule"为定时任务,类似Linux下的crontab命令,取值中的数字分别对应:秒、分钟、小时、天、月、星期、年(可选)。"name"为快照名称。"repository"为仓库名称。"confifig"为备份的配置,"indices"表示设置快照包含的索引。"include_-global_state"表示设置快照是否包含集群状态以及feature状态,true为包含,false为不包含。"retention"为配置快照的保留规则。以上配置示例表示将快照保留30天,保留的快照最少为5个,最多为50个。各参数说明如下:

其中expire_after为快照保留时间。min_count为最少保留多少个快照。即使超过保留时间也要满足最小要求。max_count为最多保留多少个快照。即使未达到保留时间也不能超过最大数。

然后还需执行创建的policy,执行完成后,阿里云Elasticsearch会每隔12小时创建一个快照。

POST _slm/policy/auto-snapshots/_execute

7.6以下版本,可以通过crontab定期执行curl命令,手动执行es备份命令,具体命令见下面手动备份章节。

5.1.6.2.2 手动备份

手动备份到本地OSS仓库,需要先开通对象存储服务OSS,并新建一个标准存储类型的Bucket,且Bucket的地域与Elasticsearch实例的地域保持一致。在手动备份与恢复数据前,请确保集群的状态正常,否则会影响备份任务。快照仅保存索引数据,不保存Elasticsearch实例自身的监控数据(例如以.monitoring和.security_audit为前缀的索引)、元数据、Translog、实例配置数据、Elasticsearch软件包、自带和自定义的插件、Elasticsearch日志等。

然后创建仓库,创建一个名称为test的仓库,具体命令如下,其中"endpoint"为OSS Bucket的内网访问域名。"access_key_id"为账号ak。"secret_access_key"为账号sk。"bucket"为OSS Bucket的名称。"compress"为是否打开快照文件的压缩功能,参数值为true和false。"chunk_size"的含义是当上传的数据非常大时,配置此参数可以限制快照过程中分块的大小。超过这个大小,数据将会被分块上传到OSS中。"base_path"是仓库的起始位置,默认为根目录。

PUT _snapshot/test/
{
 "type": "oss",
 "settings": {
 "endpoint": "http://oss-cn-hangzhou-internal.aliyuncs.com",
 "access_key_id": "xxxx",
 "secret_access_key": "xxxxxx",
 "bucket": "xxxxxx",
 "compress": true,
 "chunk_size": "500mb",
 "base_path": "snapshot/"
 }
}

然后进行快照的创建,为全部索引创建快照命令如下

PUT _snapshot/test/snapshot_1

以上命令会为所有打开的索引创建名称为snapshot_1的快照,并保存到test仓库中。该命令会立刻返回,并在后台执行备份任务。如果您希望任务执行完成后再返回可通过添加wait_for_completion实现。该参数会阻塞调用直到备份完成,如果是大型快照,需要很长时间才能返回。


PUT _snapshot/my_backup/snapshot_1?wait_for_completion=true

注意:一个仓库可以包含多个快照,每个快照中可以包含所有、部分或单个索引的备份数据。第一次创建快照时,系统会备份所有的数据,后续所有的快照仅备份已存快照和新快照之间的增量数据。随着快照的不断进行,备份也在增量的添加和删除。这意味着后续备份会相当快速,因为它们只传输很小的数据量。

系统默认会备份所有打开的索引,也可以为指定索引创建快照,具体命令如下,该命令只会备份名称为index_1和index_2的索引。

PUT _snapshot/my_backup/snapshot_2
{
 "indices": "index_1,index_2"
}


《企业级云原生白皮书项目实战》——第五章 大数据——5.1 检索分析服务 Elasticsearch版——5.1.6 数据备份恢复(3) https://developer.aliyun.com/article/1228730?groupCode=supportservice

相关实践学习
使用阿里云Elasticsearch体验信息检索加速
通过创建登录阿里云Elasticsearch集群,使用DataWorks将MySQL数据同步至Elasticsearch,体验多条件检索效果,简单展示数据同步和信息检索加速的过程和操作。
ElasticSearch 入门精讲
ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr(也是基于Lucene)。 ElasticSearch的实现原理主要分为以下几个步骤: 用户将数据提交到Elastic Search 数据库中 通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据 当用户搜索数据时候,再根据权重将结果排名、打分 将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。
相关文章
|
6月前
|
SQL JSON 大数据
ElasticSearch的简单介绍与使用【进阶检索】 实时搜索 | 分布式搜索 | 全文搜索 | 大数据处理 | 搜索过滤 | 搜索排序
这篇文章是Elasticsearch的进阶使用指南,涵盖了Search API的两种检索方式、Query DSL的基本语法和多种查询示例,包括全文检索、短语匹配、多字段匹配、复合查询、结果过滤、聚合操作以及Mapping的概念和操作,还讨论了Elasticsearch 7.x和8.x版本中type概念的变更和数据迁移的方法。
ElasticSearch的简单介绍与使用【进阶检索】 实时搜索 | 分布式搜索 | 全文搜索 | 大数据处理 | 搜索过滤 | 搜索排序
|
17天前
|
人工智能 自然语言处理 搜索推荐
云端问道12期实操教学-构建基于Elasticsearch的企业级AI搜索应用
本文介绍了构建基于Elasticsearch的企业级AI搜索应用,涵盖了从传统关键词匹配到对话式问答的搜索形态演变。阿里云的AI搜索产品依托自研和开源(如Elasticsearch)引擎,提供高性能检索服务,支持千亿级数据毫秒响应。文章重点描述了AI搜索的三个核心关键点:精准结果、语义理解、高性能引擎,并展示了架构升级和典型应用场景,包括智能问答、电商导购、多模态图书及商品搜索等。通过实验部分,详细演示了如何使用阿里云ES搭建AI语义搜索Demo,涵盖模型创建、Pipeline配置、数据写入与检索测试等步骤,同时介绍了相关的计费模式。
|
18天前
|
人工智能 算法 API
构建基于 Elasticsearch 的企业级 AI 搜索应用
本文介绍了基于Elasticsearch构建企业级AI搜索应用的方案,重点讲解了RAG(检索增强生成)架构的实现。通过阿里云上的Elasticsearch AI搜索平台,简化了知识库文档抽取、文本切片等复杂流程,并结合稠密和稀疏向量的混合搜索技术,提升了召回和排序的准确性。此外,还探讨了Elastic的向量数据库优化措施及推理API的应用,展示了如何在云端高效实现精准的搜索与推理服务。未来将拓展至多模态数据和知识图谱,进一步提升RAG效果。
|
6月前
|
存储 API 数据库
检索服务elasticsearch索引(Index)
【8月更文挑战第23天】
88 6
|
6月前
|
存储 负载均衡 监控
检索服务elasticsearch节点(Node)
【8月更文挑战第23天】
79 5
|
6月前
|
Cloud Native 安全 大数据
云原生与大数据
【8月更文挑战第27天】云原生与大数据
80 5
|
6月前
|
存储 监控 负载均衡
检索服务elasticsearch集群(Cluster)
【8月更文挑战第23天】
78 3
|
6月前
|
存储 监控 负载均衡
检索服务elasticsearch分布式结构
【8月更文挑战第22天】
60 3
|
2月前
|
弹性计算 运维 Serverless
超值选择:阿里云Elasticsearch Serverless在企业数据检索与分析中的高性能与灵活性
本文介绍了阿里云Elasticsearch Serverless服务的高性价比与高度弹性灵活性。
136 8
|
29天前
|
编解码 弹性计算 大数据
软硬结合助力倚天云原生算力再进化,加速大数据、视频转码上云步伐
本文介绍了云原生算力的进化,重点讨论了倚天710 CPU在大数据和视频转码场景中的应用与优势。倚天710采用ARM架构,通过物理核设计和CIPU加速卡优化,显著提升了高负载下的性能稳定性,并在实际应用中帮助客户实现了20%-40%的性能提升和成本降低。此外,文章还探讨了操作系统、编译器等底层软件的优化,以及如何通过龙蜥社区和阿里云平台支持更多应用场景,助力企业实现高效迁移和性能优化。

热门文章

最新文章