Elasticsearch索引映射Mapping-阿里云开发者社区

Elasticsearch索引映射Mapping

2021-12-27 999

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Elasticsearch索引映射（mapping）就像数据库中的 Schema ，描述了文档可能具有的字段或属性、每个字段的数据类型，比如 Text，Keyword，Integer 或 Date ，以及 Lucene 是如何索引和存储这些字段的。

映射（mapping）就像数据库中的 Schema ，描述了文档可能具有的字段或属性、每个字段的数据类型，比如 Text，Keyword，Integer 或 Date ，以及 Lucene是如何索引和存储这些字段的。

核心简单字段类型

Elasticsearch 支持如下简单字段类型：

字符串： text，keyword
整数：byte，short，integer，long
浮点数： float，double
布尔型： boolean
日期： date

更多的字段类型比如 geo_point，ip，nested 等可以在链接处查看：https://www.elastic.co/guide/en/elasticsearch/reference/current/mapping-types.html

当你索引一个包含新字段的文档之前，未曾出现 Elasticsearch 会使用动态映射，通过 JSON 中基本数据类型，尝试猜测字段类型，使用如下规则：

JSON 数据	字段类型
布尔型：true 或者 false	boolean
整数：123	long
浮点数：123.45	double
字符串，有效日期：2021-05-01	date
字符串：foo bar	text 和 keyword

注意：如果你通过引号 ( "123" ) 索引一个数字，它会被映射为字符串类型 text 和 keyword，而不是 long 。但如果这个字段已经映射为 long ，那么 Elasticsearch 会尝试将这个字符串转化为 long （在 coerce 设置为 true 的情况下），如果无法转化，则抛出一个异常。

查看映射

通过 /_mapping ，我们可以查看 Elasticsearch 在一个或多个索引中的映射。

Elasticsearch 文档写入示例：

PUTtwitter/_doc/1{
"user": "kimchy",
"post_date": "2009-11-15T13:12:00",
"message": "Trying out Elasticsearch, so far so good?"}
PUTtwitter/_doc/2{
"user": "kimchy",
"post_date": "2009-11-15T14:12:12",
"message": "Another tweet, will it be indexed?"}
PUTtwitter/_doc/3{
"user": "elastic",
"post_date": "2010-01-15T01:46:38",
"message": "Building the site, should be kewl"}

查看索引映射示例:

GETtwitter/_mapping

Elasticsearch 根据我们索引的文档，为字段动态生成的映射：

{
"twitter" : {
"mappings" : {
"properties" : {
"message" : {
"type" : "text",
"fields" : {
"keyword" : {
"type" : "keyword",
"ignore_above" : 256            }
          }
        },
"post_date" : {
"type" : "date"        },
"user" : {
"type" : "text",
"fields" : {
"keyword" : {
"type" : "keyword",
"ignore_above" : 256            }
          }
        }
      }
    }
  }
}

注意：错误的映射，例如将年龄字段映射为 text 类型，而不是 integer ，会导致查询出现令人困惑的结果。

检查一下，而不是假设你的映射是正确的。

自定义字段映射

尽管在很多情况下基本字段数据类型已经够用，但你经常需要为单独字段自定义映射，特别是字符串字段。自定义映射允许你执行下面的操作：

全文字符串字段和精确值字符串字段的区别
使用特定语言分析器
优化字段以适应部分匹配
指定自定义数据格式
还有更多

字段最重要的属性是 type 。

{
"number_of_clicks": {
"type": "integer"    }
}

字符串字段类型，包括全文字符串 text 和精确值字符串 keyword。

text 类型字段的最重要属性是分析器 analyzer，默认 Elasticsearch 使用 Standard 分析器，但你可以指定一个内置的分析器替代它，例如 whitespace 、 simple 、english、cjk：

{
"message": {
"type": "text",
"analyzer": "cjk"  }
}

创建/更新映射

当你首次创建一个索引的时候，可以指定类型的映射。你也可以使用 /_mapping 更新映射。

我们可以更新一个映射来添加一个新字段，但不能更新一个现有的 mapping 把它的字段类型从一个变为另外一个，比如从 text 变为 keyword。我

们可以在维持现有 mapping 的情况下，把一个字段变成一个 multi-field 字段。

为了描述指定映射的两种方式，我们先删除 twitter 索引：

DELETEtwitter

创建一个新索引，指定 message 字段使用 cjk 分析器：

PUTtwitter{
"settings": {
"number_of_shards": "5",
"number_of_replicas": "1"  },
"mappings": {
"properties": {
"user": {
"type": "keyword"      },
"post_date": {
"type": "date"      },
"message": {
"type": "text",
"analyzer": "cjk"      }
    }
  }
}

通过消息体中指定的 mappings 创建了索引映射，索引设置 settings 中通过 number_of_shards 指定分片数，number_of_replicas 指定副本数。

给映射增加一个新的名为 tag 的 keyword 类型字段，使用 _mapping ：

PUTtwitter/_mapping{
"properties": {
"tag": {
"type": "keyword"    }
  }
}

我们不需要再次列出所有已存在的字段，因为无论如何我们都无法改变它们，新字段已经被合并到存在的映射中。

测试映射

可以使用 analyze API 测试字符串字段的映射，比较下面两个请求的输出：

GET/twitter/_analyze{
"field": "message",
"text": "搜索引擎"}
GET/twitter/_analyze{
"field": "tag",
"text": "搜索引擎"}

消息体里面传入我们想要分析的文本。message 字段产生 3 个词条 ”搜索“、”索引” 和 ”引擎“， tag 字段产生单独的词条”搜索引擎“，换句话说，我们的映射正常工作。

Elasticsearch索引映射Mapping

核心简单字段类型

查看映射

自定义字段映射

创建/更新映射

测试映射

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Elasticsearch索引映射Mapping

核心简单字段类型

查看映射

自定义字段映射

创建/更新映射

测试映射

热门文章

最新文章

相关课程

相关电子书