工业界如何更新内存中的索引?

简介: 工业界常用Double Buffer(双缓冲)机制更新内存索引:维护两份索引,读取时指向旧版本,后台更新新版本,通过原子操作切换指针,实现无锁读写。更新时批量处理,避免频繁切换。但该方案内存占用翻倍,仅适用于中小规模索引,大规模系统需结合磁盘存储与其他策略。

我们先来看这么一个问题:如果现在有一个小规模的倒排索引,它能完全加载在内存中。当有新文章进入内存的时候,倒排索引该如何更新呢?这个问题看似简单,但是实现起来却非常复杂。

我们能想到最直接的解决思路是,只要解析新文章有哪些关键词,然后将文章 ID 加入倒排表中关键词对应的文档列表即可。没错,在没有其他用户使用的情况下,这样的方法是可行的。但如果你有过一定的工程经验,你就会知道,在实际应用中,必然会有多个用户同时访问这个索引。

这个时候,如果我们直接更新倒排索引,就可能造成用户访问错误,甚至会引发程序崩溃。因此,一般来说,我们会对倒排表加上「读写锁」,然后再更新。但是,加上「锁」之后会带来频繁的读写锁切换,整个系统的检索效率会比无锁状态有所下降。

因此,为了使得系统有更好的性能,在工业界的实现中,我们会使用一种叫做 Double Buffer(双缓冲)机制 的解决方案,使得我们可以在无锁状态下对索引完成更新。

所谓 Double Buffer ,就是在内存中同时保存两份一样的索引,一个是索引 A,一个是索引 B。我们会使用一个指针 p 指向索引 A,表示索引 A 是当前可访问的索引。那么用户在访问时就会通过指针 p 去访问索引 A。这个时候,如果我们要更新,只更新索引 B。这样,索引 A 和索引 B 之间就不存在读写竞争的问题了。因此,在这个过程中,索引 A 和索引 B 都可以保持无锁的状态。

那更新完索引 B 之后,我们该如何告知用户应该来访问索引 B 呢?这时候,我们可以将指针 p 通过 原子操作(即无法被打断的最细粒度操作,在 Java 和 C++11 等语言中都有相应实现)从 A 直接切换到 B 上。接着,我们就把索引 B 当作只读索引,然后更新索引 A。

通过这样的机制,我们就能同时维护两个倒排索引,保持一个读、一个写,并且来回切换,最终完成高性能的索引更新。不过,为了避免切换太频繁,我们并不是每来一条新数据就更新,而是积累一批新数据以后再批量更新。这就是工业界常用的 Double Buffer 机制。

笔者没有明白的是:B 有了新增的文档 30 ,切换到 B 了,那么 A 里面并没有文档 30 ,如何同步数据呢?

用 Double Buffer 机制更新索引是一个高效的方案,追求检索性能的应用场景常常会使用这种方案。但是对于索引到了一定量级的应用而言,使用 Double Buffer 会带来翻倍的内存资源开销。比如说,像搜索引擎这样万亿级网页的索引规模,数据大部分存储在磁盘上,更是无法直接使用 Double Buffer 机制进行更新的。因此,我们还是需要寻找其他的解决方案。

相关文章
|
1天前
|
数据采集 人工智能 安全
|
11天前
|
云安全 监控 安全
|
2天前
|
自然语言处理 API
万相 Wan2.6 全新升级发布!人人都能当导演的时代来了
通义万相2.6全新升级,支持文生图、图生视频、文生视频,打造电影级创作体验。智能分镜、角色扮演、音画同步,让创意一键成片,大众也能轻松制作高质量短视频。
938 150
|
2天前
|
编解码 人工智能 机器人
通义万相2.6,模型使用指南
智能分镜 | 多镜头叙事 | 支持15秒视频生成 | 高品质声音生成 | 多人稳定对话
|
16天前
|
机器学习/深度学习 人工智能 自然语言处理
Z-Image:冲击体验上限的下一代图像生成模型
通义实验室推出全新文生图模型Z-Image,以6B参数实现“快、稳、轻、准”突破。Turbo版本仅需8步亚秒级生成,支持16GB显存设备,中英双语理解与文字渲染尤为出色,真实感和美学表现媲美国际顶尖模型,被誉为“最值得关注的开源生图模型之一”。
1662 8
|
7天前
|
人工智能 自然语言处理 API
一句话生成拓扑图!AI+Draw.io 封神开源组合,工具让你的效率爆炸
一句话生成拓扑图!next-ai-draw-io 结合 AI 与 Draw.io,通过自然语言秒出架构图,支持私有部署、免费大模型接口,彻底解放生产力,绘图效率直接爆炸。
617 152
|
9天前
|
人工智能 安全 前端开发
AgentScope Java v1.0 发布,让 Java 开发者轻松构建企业级 Agentic 应用
AgentScope 重磅发布 Java 版本,拥抱企业开发主流技术栈。
587 15
|
9天前
|
人工智能 自然语言处理 API
Next AI Draw.io:当AI遇见Draw.io图表绘制
Next AI Draw.io 是一款融合AI与图表绘制的开源工具,基于Next.js实现,支持自然语言生成架构图、流程图等专业图表。集成多款主流大模型,提供智能绘图、图像识别优化、版本管理等功能,部署简单,安全可控,助力技术文档与系统设计高效创作。
672 151