精准 Top K 检索-阿里云开发者社区

精准 Top K 检索

2025-12-12 11

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本文介绍搜索引擎中Top K检索的打分排序机制，重点解析TF-IDF与BM25算法。TF-IDF通过词频与逆文档频率衡量词语重要性，而BM25在此基础上引入非线性增长与文档长度归一化，提升排序准确性，是现代搜索系统的核心技术之一。（238字）

精准 Top K 检索：搜索结果是怎么进行打分排序的？
在搜索引擎的检索结果中，排在前面几页的检索结果往往质量更好，更符合我们的要求。一般来说，这些高质量检索结果的排名越靠前，这个搜索引擎的用户体验也就越好。可以说，检索结果的排序是否合理，往往决定了一个检索系统的质量。
所以，在搜索引擎这样的大规模检索系统中，排序是非常核心的一个环节。简单来说，排序就是搜索引擎对符合用户要求的检索结果进行打分，选出得分最高的 K 个检索结果的过程。这个过程也叫作 Top K 检索。
今天，我就和你仔细来聊一聊，搜索引擎在 Top K 检索中，是如何进行打分排序的。
经典的 TF-IDF 算法是什么？
在搜索引擎的应用场景中，检索结果文档和用户输入的查询词之间的相关性越强，网页排名就越靠前。所以，在搜索引擎对检索结果的打分中，查询词和结果文档的相关性是一个非常重要的判断因子。
那要计算相关性，就必须要提到经典的 TF-IDF 算法了，它能很好地表示一个词在一个文档中的权重。TF-IDF 算法的公式是：相关性 = TFIDF。其中，TF 是词频（Term Frequency），IDF 是逆文档频率（Inverse Document Frequency）。
在利用 TF-IDF 算法计算相关性之前，我们还要理解几个重要概念，分别是词频、文档频率和逆文档频率。
词频定义的就是一个词项在文档中出现的次数。换一句话说就是，如果一个词项出现了越多次，那这个词在文档中就越重要。
文档频率（Document Frequency），指的是这个词项出现在了多少个文档中。你也可以理解为，如果一个词出现在越多的文档中，那这个词就越普遍，越没有区分度。一个极端的例子，比如“的”字，它基本上在每个文档中都会出现，所以它的区分度就非常低。
那为了方便理解和计算相关性，我们又引入了一个逆文档频率的概念。逆文档频率是对文档频率取倒数，它的值越大，这个词的的区分度就越大。
因此， TFIDF 表示了我们综合考虑了一个词项的重要性和区分度，结合这两个维度，我们就计算出了一个词项和文档的相关性。不过，在计算的过程中，我们会对 TF 和 IDF 的值都使用对数函数进行平滑处理。处理过程如下图所示：
使用相关性 = TF*IDF ，我们可以计算一个词项在一个文档中的权重。但是，很多情况下，一个查询中会有多个词项。不过，这也不用担心，处理起来也很简单。我们直接把每个词项和文档的相关性累加起来，就能计算出查询词和文档的总相关性了。
这么说可能比较抽象，我列举了一些具体的数字，我们一起动手来计算一下相关性。假设查询词是「极客时间」，它被分成了两个词项「极客」和「时间」。现在有两个文档都包含了「极客」和「时间」，在文档 1 中，「极客」出现了 10 次，「时间」出现了 10 次。而在文档 2 中，「极客」出现了 1 次，「时间」出现了 100 次。
计算 TF-IDF 需要的数据如下表所示：
那两个文档的最终相关性得分如下：
你会发现，尽管「时间」这个词项在文档 2 中出现了非常多次，但是，由于「时间」这个词项的 IDF 值比较低，因此，文档 2 的打分并没有文档 1 高。
如何使用概率模型中的 BM25 算法进行打分？
不过，在实际使用中，我们往往不会直接使用 TF-IDF 来计算相关性，而是会以 TF-IDF 为基础，使用向量模型或者概率模型等更复杂的算法来打分。比如说，概率模型中的 BM25（Best Matching 25）算法，这个经典算法就可以看作是 TF-IDF 算法的一种升级。接下来，我们就一起来看看，BM25 算法是怎么打分的。
BM25 算法的一个重要的设计思想是，它认为词频和相关性的关系并不是线性的。也就是说，随着词频的增加，相关性的增加会越来越不明显，并且还会有一个阈值上限。当词频达到阈值以后，那相关性就不会再增长了。
因此，BM25 对于 TF 的使用，设立了一个公式，公式如下：
在这个公式中，随着 tf 的值逐步变大，权重会趋向于 k1 + 1 这个固定的阈值上限（将公式的分子分母同时除以 tf，就能看出这个上限）。其中，k1 是可以人工调整的参数。k1 越大，权重上限越大，收敛速度越慢，表示 tf 越重要。在极端情况下，也就是当 k1 = 0 时，就表示 tf 不重要。比如，在下图中，当 k1 = 3 就比 k1 = 1.2 时的权重上限要高很多。那按照经验来说，我们会把 k1 设为 1.2。
除了考虑词频，BM25 算法还考虑了文档长度的影响，也就是同样一个词项，如果在两篇文档中出现了相同的次数，但一篇文档比较长，而另一篇文档比较短，那一般来说，短文档中这个词项会更重要。这个时候，我们需要在上面的公式中，加入文档长度相关的因子。那么，整个公式就会被改造成如下的样子：
你会看到，分母中的 k1 部分被乘上了文档长度的权重。其中，l 表示当前文档的长度，而 L 表示全部文档的平均长度。l 越长，分母中的 k1 就会越大，整体的相关性权重就会越小。
这个公式中除了 k1，还有一个可以人工调整的参数 b。它的取值范围是 0 到 1，它代表了文档长度的重要性。当 b 取 0 时，我们可以完全不考虑文档长度的影响；而当 b 取 1 时，k1 的重要性要按照文档长度进行等比例缩放。按照经验，我们会把 b 设置为 0.75，这样的计算效果会比较好。
除此以外，如果查询词比较复杂，比如说一个词项会重复出现，那我们也可以把它看作是一个短文档，用类似的方法计算词项在查询词中的权重。举个例子，如果我们的查询词是「极客们的极客时间课程」，那么「极客」这个词项，其实在查询词中就出现了两次，它的权重应该比「时间」「课程」这些只出现一次的词项更重要。因此，BM25 对词项在查询词中的权重计算公式如下：

精准 Top K 检索

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

精准 Top K 检索

热门文章

最新文章

相关电子书