倒排索引:如何从海量数据中查询同时带有「极」和「客」的唐诗?

简介: 本文介绍倒排索引技术,通过将内容作为关键词建立索引,实现高效检索。对比正排索引的O(n)遍历查询,倒排索引可在O(1)时间内定位含指定字的唐诗,并通过归并有序链表快速求交集,解决“同时含‘极’和‘客’”等多条件查询问题,广泛应用于搜索引擎、数据库全文检索等场景。

05 | 倒排索引:如何从海量数据中查询同时带有「极」和「客」的唐诗?
试想这样一个场景:假设你已经熟读唐诗 300 首了。这个时候,如果我给你一首诗的题目,你可以马上背出这首诗的内容吗?相信你一定可以的。但是如果我问你,有哪些诗中同时包含了「极」字和「客」字?你就不见得能立刻回答出来了。你需要在头脑中一首诗一首诗地回忆,并判断每一首诗的内容是否同时包含了极字和客字。很显然,第二个问题的难度比第一个问题大得多。
那从程序设计的角度来看,这两个问题对应的检索过程又有什么不同呢?今天,我们就一起来聊一聊,两个非常常见又非常重要的检索技术:正排索引和倒排索引。
什么是倒排索引?
我们先来看比较简单的那个问题:给出一首诗的题目,马上背出内容。这其实就是一个典型的 键值查询场景。针对这个场景,我们可以给每首诗一个唯一的编号作为 ID,然后使用哈希表将诗的 ID 作为键(Key),把诗的内容作为键对应的值(Value)。这样,我们就能在 O(1) 的时间代价内,完成对指定 key 的检索。这样一个以对象的唯一 ID 为 key 的哈希索引结构,叫作 正排索引(Forward Index)。
哈希表存储所有诗
一般来说,我们会遍历哈希表,遍历的时间代价是 O(n)。在遍历过程中,对于遇到的每一个元素也就是每一首诗,我们需要遍历这首诗中的每一个字符,才能判断是否包含极字和客字。假设每首诗的平均长度是 k,那遍历一首诗的时间代价就是 O(k)。从这个分析中我们可以发现,这个检索过程全部都是遍历,因此时间代价非常高。对此,有什么优化方法吗?
我们先来分析一下这两个场景。我们会发现,「根据题目查找内容」和「根据关键字查找题目」,这两个问题其实是完全相反的。既然完全相反,那我们能否「反着」建立一个哈希表来帮助我们查找呢?也就是说,如果我们以关键字作为 key 建立哈希表,是不是问题就解决了呢?接下来,我们就试着操作一下。
我们将每个关键字当作 key,将包含了这个关键字的诗的列表当作存储的内容。这样,我们就建立了一个哈希表,根据关键字来查询这个哈希表,在 O(1) 的时间内,我们就能得到包含该关键字的文档列表。这种根据具体内容或属性反过来索引文档标题的结构,我们就叫它 倒排索引(Inverted Index)。在倒排索引中,key 的集合叫作 字典(Dictionary),一个 key 后面对应的记录集合叫作 记录列表(Posting List)。
倒排索引
如何创建倒排索索引?
前面我们介绍了倒排索引的概念,那创建一个倒排索引的过程究竟是怎样的呢?我把这个过程总结成了以下步骤。
给每个文档编号,作为其唯一的标识,并且排好序,然后开始遍历文档(为什么要先排序,然后再遍历文档呢?你可以先想一下,后面我们会解释)。
解析当前文档中的每个关键字,生成 < 关键字,文档 ID,关键字位置 > 这样的数据对。为什么要记录关键字位置这个信息呢?因为在许多检索场景中,都需要显示关键字前后的内容,比如,在组合查询时,我们要判断多个关键字之间是否足够近。所以我们需要记录位置信息,以方便提取相应关键字的位置。
将关键字作为 key 插入哈希表。如果哈希表中已经有这个 key 了,我们就在对应的 posting list 后面追加节点,记录该文档 ID(关键字的位置信息如果需要,也可以一并记录在节点中);如果哈希表中还没有这个 key,我们就直接插入该 key,并创建 posting list 和对应节点。
重复第 2 步和第 3 步,处理完所有文档,完成倒排索引的创建。
将一个文档解析并加入倒排索引
如何查询同时含有「极」字和「客」字两个 key 的文档?
如果只是查询包含「极」或者「客」这样单个字的文档,我们直接以查询的字作为 key 去倒排索引表中检索,得到的 posting list 就是结果了。但是,如果我们的目的是要查询同时包含极和客这两个字的文档,那我们该如何操作呢?
我们可以先分别用两个 key 去倒排索引中检索,这样会得到两个不同的 posting list:A 和 B。A 中的文档都包含了极字,B 中文档都包含了客字。那么,如果一个文档既出现在 A 中,又出现在 B 中,它是不是就同时包含了这两个字呢?按照这个思路,我们 只需查找出 A 和 B 的公共元素 即可。
那么问题来了,我们该如何在 A 和 B 这两个链表中查找出公共元素呢?如果 A 和 B 都是无序链表,那我们只能将 A 链表和 B 链表中的每个元素分别比对一次,这个时间代价是 O(m*n)。但是,如果两个链表都是有序的,我们就可以用 归并排序 的方法来遍历 A 和 B 两个链表,时间代价会降低为 O(m + n),其中 m 是链表 A 的长度,n 是链表 B 的长度。
我把链表归并的过程总结成了 3 个步骤,你可以结合我在图片中给出的例子来理解。
第 1 步,使用指针 p1 和 p2 分别指向有序链表 A 和 B 的第一个元素。
第 2 步,对比 p1 和 p2 指向的节点是否相同,这时会出现 3 种情况:
两者的 id 相同,说明该节点为公共元素,直接将该节点加入归并结果。然后,p1 和 p2 要同时后移,指向下一个元素;
p1 元素的 id 小于 p2 元素的 id,p1 后移,指向 A 链表中下一个元素;
p1 元素的 id 大于 p2 元素的 id,p2 后移,指向 B 链表中下一个元素。
第 3 步,重复第 2 步,直到 p1 或 p2 移动到链表尾为止。
链表归并提取公共元素例子
那对于 两个 key 的联合查询来说,除了有「同时存在」这样的场景以外,其实还有很多联合查询的实际例子。比如说,我们可以查询包含「极」或「客」字的诗,也可以查询包含「极」且不包含「客」的诗。这些场景分别对应着集合合并中的 交集、并集和差集 问题。它们的具体实现方法和「同时存在」的实现方法差不多,也是通过遍历链表对比的方式来完成的。如果感兴趣的话,你可以自己来实现看看,这里我就不再多做阐述了。
此外,在实际应用中,我们可能还需要对 多个 key 进行联合查询。比如说,要查询同时包含「极」「客」「时」「间」四个字的诗。这个时候,我们利用多路归并的方法,同时遍历这四个关键词对应的 posting list 即可。实现过程如下图所示。
多路归并
重点回顾
好了,今天的内容就先讲到这里。你会发现,倒排索引的核心其实并不复杂,它的具体实现其实是哈希表,只是它不是将文档 ID 或者题目作为 key,而是反过来,通过将内容或者属性作为 key 来存储对应的文档列表,使得我们能在 O(1) 的时间代价内完成查询。
尽管原理并不复杂,但是倒排索引是许多检索引擎的核心。比如说,数据库的全文索引功能、搜索引擎的索引、广告引擎和推荐引擎,都使用了倒排索引技术来实现检索功能。因此,这一讲的内容我也希望你能好好理解消化,打好扎实的基础。

相关文章
|
1天前
|
存储 算法 搜索推荐
线性结构检索:从数组和链表的原理初窥检索本质
本节深入解析数组与链表的存储特性及其对检索效率的影响。数组支持随机访问,适合二分查找,检索效率为O(log n);链表虽检索较慢,但插入删除高效,适用于频繁动态调整场景。通过改造链表结构,如结合数组提升检索性能,揭示了数据组织方式对检索的核心作用,帮助理解“快速缩小查询范围”这一检索本质。
|
1天前
|
存储 Java 索引
单/双链表代码实现
本文详解单/双链表的代码实现,涵盖增删查改操作。重点解析三大技巧:1)同时持有头尾节点引用以优化插入删除效率;2)使用虚拟头尾节点简化边界处理;3)避免内存泄漏的良好编程习惯。适合掌握链表基础后深入学习。
|
1天前
|
存储 算法 Java
链表(链式存储)基本原理
链表是一种通过指针串联节点的线性结构,无需连续内存,支持高效增删。单链表仅有next指针,双链表增加prev指针以支持双向遍历。相比数组,链表插入删除灵活,无扩容负担,但不支持随机访问,查找需从头遍历。实际开发中常用双链表,配合虚拟头结点简化操作。
|
1天前
|
存储 数据采集 搜索推荐
状态检索:如何快速判断一个用户是否存在?
本文探讨如何高效判断用户是否存在,对比有序数组、二分查找树和哈希表后,引出更优方案:位图与布隆过滤器。位图以bit为单位存储,大幅节省空间;布隆过滤器通过多哈希函数降低冲突概率,虽有一定误判率,但查询效率达O(1),适用于注册去重、爬虫去重等场景,是提升系统性能的关键技术。
|
1天前
|
存储 Java API
数组(顺序存储)基本原理
本章讲解数组的底层原理,区分静态数组与动态数组。静态数组是连续内存空间,支持O(1)随机访问,但增删效率低,需搬移数据;通过手动实现动态数组,理解其扩容、插入、删除等操作的实现逻辑与时间复杂度,为后续数据结构打下基础。
|
1天前
|
SQL 算法 关系型数据库
熔断限流:业务如何实现自我保护?
本讲介绍RPC框架中业务的自我保护机制。面对高并发,服务端通过限流(如令牌桶、滑动窗口)防止过载,支持应用级、IP级配置,并可结合注册中心动态调整阈值;调用端则通过熔断机制避免因下游故障引发雪崩,熔断器在动态代理层拦截请求,实现快速失败与恢复,保障系统稳定性。
|
1天前
|
负载均衡 算法 网络协议
负载均衡:节点负载差距这么大,为什么收到的流量还一样?
本文探讨RPC框架中的自适应负载均衡机制。针对传统权重调节滞后问题,提出通过实时采集节点CPU、内存、请求耗时等指标,结合权重算法动态打分,自动调整节点最终权重,实现流量智能分配,提升系统稳定性与响应效率。
|
1天前
|
存储 缓存 搜索推荐
特别加餐丨倒排检索加速(二):如何对联合查询进行加速?
本文深入探讨联合查询的加速方法,针对倒排索引中复杂查询场景,系统介绍四种工业级优化技术:调整次序法通过优化求交/并集顺序降低计算代价;快速多路归并法利用跳表提升多列表合并效率;预先组合法提前计算高频查询结果;缓存法则借助LRU机制动态存储热点组合,显著提升检索性能。
|
1天前
|
存储 搜索推荐 算法
特别加餐 | 倒排检索加速(一):工业界如何利用跳表、哈希表、位图进行加速?
本文深入解析工业界如何利用跳表、哈希表和位图加速倒排索引的交集运算。通过跳表实现快速跳跃查找,哈希表提升小集合匹配效率,位图及Roaring Bitmap优化存储与计算,结合实际场景分析各类技术的适用条件与性能权衡,揭示搜索引擎背后的高效检索原理。(238字)
|
1天前
|
存储 算法 Java
哈希检索:如何根据用户 ID 快速查询用户信息?
本节讲解哈希检索原理,通过哈希函数将用户ID映射为数组下标,实现O(1)级查询。重点介绍哈希冲突的两种解决方案:开放寻址法(如线性探查、二次探查)和链表法,并结合红黑树优化长链表。同时分析哈希表的优缺点,强调其高效查询依赖均匀分布与足够空间,适合精确查找但不支持范围查询。