Elaticsearch 6.8 算分介绍-阿里云开发者社区

Elaticsearch 6.8 算分介绍

2020-06-15 814

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： - 前段时间写多项式算分插件，发现 ES 的算分概念还是挺多的，主要有 Query, Weight, Scorer。本文简单介绍一下，不过还有一些细节看得也不清晰，如果有错，欢迎斧正 ### 查询流程概览 - 首先看下 ES 的查询流程 - HTTP 收到请求，按 Shard 分发到 Data - Data 按 shard 查询结束后，发往 http merge, 然后再发往

前段时间写多项式算分插件，发现 ES 的算分概念还是挺多的，主要有 Query, Weight, Scorer。本文简单介绍一下，不过还有一些细节看得也不清晰，如果有错，欢迎斧正

查询流程概览

首先看下 ES 的查询流程
- HTTP 收到请求，按 Shard 分发到 Data
- Data 按 shard 查询结束后，发往 http merge, 然后再发往 Data fetch
- 算分便是发生在 lucene:search (org.apache.lucene.search.IndexSearcher#search) 中

算分过程

算分整体分为四步
1. 从 Query 依次按层构建 Weight
2. 从 Weight 构建 BulkScorer
3. 从 BulkScorer 构建 Scorer
4. Collector 收集时用 Scorer 按文档打分，得到分数

从 Query Builder 到 Query

熟悉 ES 的同学可能都知道我们写的查询在 ES 内部都是 QueryBuilder，那么 Query 是什么呢？又怎么从 QueryBuilder 转换到 Query 的呢？
QueryBuilder 为 ES 内部对象，用于和用户(XContent)以及集群间传递(Stream)。QueryBuilder 均有两个方法 toQuery , ToFilter 。分别转为普通的 lucene Query 和不用算分的 lucene Query。不过 toFilter 目前基本无使用。大多 QueryBuilder 采用 AbstractQueryBuilder 实现，用户仅需实现自定义序列化反序列化及 doToQuery 即可
Query 为 lucene 内部对象, 用于 Lucene 中的查询，主要有两个核心方法, rewrite 和 createWeight
- rewrite 将高阶 query 改写为基础 query，比如 fuzzy,prefix,query_string,regexp,wildcard，改写成 bool query 或者 bitset , 在 es 中也可使用 _validate/query?rewrite=true 直接看到改写结果

createWeight 则是构造用于查询的 Weight，在其中可以指定要不要算分，当不要算分时，有些 query 会进行改写，比如 bool query 会将 must 移入 filter。另外也只有不要算分时，weight 才会进缓存。

Weight 是什么

ES 文档中是这样描述的

The purpose of Weight is to ensure searching does not modify a Query, so that a Query instance can be reused.

可见，Weight 最大的作用就是保存和 IndexSearcher 相关的状态，类似 Query 级的上下文，来保证 Query 的复用。（不过没看出有对 Query 的复用？）
Weight 主要有4个核心方法，1个辅助方法
- scorer 打分器
  - 传入一个 LeafReaderContext ，返回一个"打分器", 为什么加引号，详见下文介绍
- bulkScorer
  - 批量打分器，search 调用的入口方法，方便在批量场景下做优化，比如二阶段查询加速,倒排链合并，大多数场景采用 DefaultBulkScorer
- scorerSupplier
  - 可以在不够造 scorer 之前先判断一下 cost。不过默认的实现是先创建了个 scorer 然后取了其迭代器的 cost
- extractTerms
  - 获得 query 中的 term，term query a:b, 则会获得b . dfs 和高亮时会用到，如未实现，则无法高亮。如 terms 当 term 数大于16时，则会走 TermInSetQuery 的 weight, 其未实现此方法，因此无法高亮
- explain
  - 解释某篇 doc 命中/没命中及分数原因
- matches
  - 判断某个 doc 有没有命中，如果有二阶段，则先用二阶段粗略判断一次。返回一个MatchesIterator 仅测试中用到

不单纯的 Scorer

Scorer 虽名为打分器，但实际由两部分组成，score 和 iterator，score 为真实打分逻辑，iterator 为命中 doc 的迭代器，也就是在生成 scorer 时才去查询了哪些 doc 命中，也因此即使无需算分时，也需要有 scorer 对象，仅是 score 方法返回固定值。
那么 Scorer 和相似性算分 Similarity 又是什么关系呢？
- Similarity 的具体实现为 SimScorer, 其为 TermScorer 的一部分，在 termScorer 算分时会调用相似性算分

总结

所以，总结一下，要实现一个算分需要怎么样呢？首先 QueryBuilder 转换时要用 toQuery, 然后 needsScores 为 true, 然后 bulkScorer 中给 collector 设置了 scorer, 最后在 Collector 中调用 score 方可完成算分。

参考资料

文章标签：

缓存

Elaticsearch 6.8 算分介绍

查询流程概览

算分过程

从 Query Builder 到 Query

Weight 是什么

不单纯的 Scorer

总结

参考资料

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Elaticsearch 6.8 算分介绍

查询流程概览

算分过程

从 Query Builder 到 Query

Weight 是什么

不单纯的 Scorer

总结

参考资料

热门文章

最新文章

相关电子书