ES索引切分

2023-01-10 304

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 在生产项目中，由于ElasticSearch单个索引数据量大，索引中部分数据不常用，在搜索和写入文档时，效率较低。为了减小单个索引的数据量，提升搜索和文档写入效率，将大索引根据一定的规则拆分为小的索引。

提示：对于一些日志类的数据，我们常用到es作为存储，数据量过大时，可能会用到索引切分，这里可以参考

ES索引切分

前言

在生产项目中，由于ElasticSearch单个索引数据量大，索引中部分数据不常用，在搜索和写入文档时，效率较低。为了减小单个索引的数据量，提升搜索和文档写入效率，将大索引根据一定的规则拆分为小的索引。

直接上干货，不多bb（记得点赞，收藏，是我最大的动力）

方案一：ES索引切分验证（policy策略）

配置ilm策略（max_docs = 1 测试用）

Ilm策略和模板搭配使用，模板引用此策略

PUT _ilm/policy/das_v5_policy
{
  "policy":{
    "phases": {
      "hot": {
        "actions": {
          "set_priority": {
            "priority": 100
          },
          "rollover": {
            "max_age": "1d",
            "max_docs": 1,
            "max_size": "5gb"
          }
        }
      }
    }
  }
}

查询ilm策略

GET _ilm/policy

rollover检测索引策略默认10min - 配置为3s 测试

PUT _cluster/settings
{
  "transient": {
    "indices.lifecycle.poll_interval":"3s"
  }
}

创建索引模板

说明：创建索引模板，具体的_mapping根据审计日志确定
das_v5_policy 为指定策略名称
das_v5_index 滚动触发的别名

PUT _template/das_v5_template
{
  "index_patterns":["das_v5_*"],
  "settings":{
    "number_of_shards":2,
    "number_of_replicas":0,
    "index.lifecycle.name":"das_v5_policy",
    "index.lifecycle.rollover_alias":"das_v5_index "
  }, 
  "mappings": {
    "properties": {
      "name":{
      "type":"keyword"
    },
    "age":{
      "type":"long"
    }
    }
  }
}

创建索引，指定别名

说明：创建索引，指定别名，允许索引写入数据

PUT das_v5_20210121-000001
{
  "aliases": {
    "das_v5_index": {
      "is_write_index":true
    }
  }
}

使用别名插入数据

说明：每次put数据，会产生一个新的索引

POST das_v5_index/_doc
{
  "name":"yxd",
  "age":17
}

第一次put数据
在这里插入图片描述
策略配置3秒检测一次，所以3秒后再次put结果：
索引自动滚动，验证成功，由 03 变成 04

仔细研究，发现存在一个问题

使用策略进行维护管理索引，需要配置好模板- 模板和策略关联，必须使用别名
历史数据问题：
- Rollover控制索引滚动，写入数据使用别名写入，那么使用别名写入时，无法向历史索引写入数据
- 手动使用指定历史索引写入数据，不使用别名，那么索引无法自动进行切分，策略不会生效

在这里插入图片描述
如上图所示：

此时别名das_v5_index 已经滚动到das_v5_20200123_02索引上
Write通过别名无法向索引das_v5_20200122_02写入数据

解决方案

多模板多别名同策略模式

①　创建日期模板 YYYYMM 日期替换

PUT _template/das_v5_template_YYYYMM
{
  "index_patterns":["das_v5_YYYYMM*"],
  "settings":{
    "number_of_shards":2,
    "number_of_replicas":0,
    "index.lifecycle.name":"das_v5_policy",
    "index.lifecycle.rollover_alias":"das_v5_index_YYYYMM"
  }, 
  "mappings": {
    "properties": {
      "name":{
      "type":"keyword"
    },
    "age":{
      "type":"long"
    }
    }
  }
}

②　创建该日期符合索引模板的索引,并配置日期格式别名

PUT das_v5_YYYYMM-000001
{
  "aliases": {
    "das_v5_index_YYYYMM": {
      "is_write_index":true
    }
  }
}

③　使用别名插入当天数据

POST das_v5_index_YYYYMM/_doc
{
  "name":"yxd",
  "age":17
}

④　如果索引模板多了，可删除N天之前的模板

DELETE _Template/ das_v5_index_YYYYMM

备注：重复put索引，产生异常，可能导致策略无法维护索引，集群部署状态下，可能要考虑相关问题

方案二：多别名，rollover方式

该方案为：

创建一个独立公用的索引模板
使用日期滚动创建索引，并使用别名（一次可创建多个索引/别名，未来几天的）
```
   实现：可通过定时任务，每天凌晨执行，创建未来几天要用到的索引
```
代码每次提交写入es数据之后， Rollover 检测滚动一次

创建公共索引模板

代码如下（示例）：

在这里插入图片描述

创建索引

说明：定时任务，执行创建日期-索引并使用日期别名，查询也可使用日期别名
在这里插入图片描述

数据插入

说明：程序插入数据，只需要使用日期别名，插入数据到es即可，历史数据使用历史当天日期的别名插入
在这里插入图片描述

索引切分

第一种：
每次数据插入提交之后，可代码手动rollover一次

第二种：
定时任务管理rollover，查询最近几天的索引，定时检测切分，可每10分钟一次（一二种，可同时用）
在这里插入图片描述

总结

推荐使用方案二：
优点：

简单好用，不用担心集群部署等会出现的问题
查询也可使用别名
索引切分方式灵活，可靠
插入历史数据等，都可使用别名插入，不用做多余的开销维护

ES索引切分

前言

方案一：ES索引切分验证（policy策略）

配置ilm策略（max_docs = 1 测试用）

查询ilm策略

rollover检测索引策略默认10min - 配置为3s 测试

创建索引模板

创建索引，指定别名

使用别名插入数据

解决方案

多模板多别名同策略模式

方案二：多别名，rollover方式

创建公共索引模板

创建索引

数据插入

索引切分

总结

热门文章

最新文章

相关课程

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

ES索引切分

前言

方案一：ES索引切分验证（policy策略）

配置ilm策略 （max_docs = 1 测试用）

查询ilm策略

rollover检测索引策略默认10min - 配置为3s 测试

创建索引模板

创建索引，指定别名

使用别名插入数据

解决方案

多模板多别名同策略模式

方案二：多别名，rollover方式

创建公共索引模板

创建索引

数据插入

索引切分

总结

热门文章

最新文章

相关课程

相关电子书

配置ilm策略（max_docs = 1 测试用）