索引

首页 标签 索引
# 索引 #
关注
66561内容
13 | 空间检索(上):如何用 Geohash 实现「查找附近的人」功能?
本文介绍了如何高效实现“查找附近的人”功能,针对大规模系统提出基于区域划分与Geohash编码的检索方案。通过将二维空间划分为带编号的区域,并利用一维编码(如Geohash)建立索引,可大幅提升查询效率。支持非精准与精准两种模式:前者直接查所在区域,后者结合邻近8区域扩大候选集以保证准确性。Geohash将经纬度转为字符串编码,便于存储与比较,广泛应用于Redis等系统。适用于社交、餐饮、出行等LBS场景。
09 | 索引更新:刚发布的文章就能被搜到,这是怎么做到的
本文介绍了工业界倒排索引的高效更新机制。针对小规模内存索引,采用Double Buffer实现无锁读写;对于大规模索引,则使用“全量+增量”索引方案,结合删除列表处理删改操作,并通过完全重建、再合并或滚动合并等策略管理增量数据,提升检索效率与系统稳定性。
12 | 非精准 Top K 检索:如何给检索结果的排序过程装上加速器
本文介绍了非精准 Top K 检索的优化思路与三种实现方法:基于静态质量得分排序截断、胜者表利用词频打分、分层索引两阶段检索。核心思想是将复杂计算移至离线,在线快速截断,降低打分开销。结合精准检索的两阶段架构,可显著提升检索效率,广泛应用于搜索与推荐系统中。
15 | 最近邻检索(上):如何用局部敏感哈希快速过滤相似文章?
在搜索引擎与推荐系统中,相似文章去重至关重要。通过向量空间模型将文档转化为高维向量,利用SimHash等局部敏感哈希技术生成紧凑指纹,结合海明距离与抽屉原理分段索引,可高效检索近似重复内容,在百亿网页中快速过滤雷同结果,提升用户体验。该方法适用于文本、图像等多种对象的相似性检测。
05 | 倒排索引:如何从海量数据中查询同时带有「极」和「客」的唐诗?
本文通过唐诗检索的类比,深入浅出地讲解了正排索引与倒排索引的核心原理。正排索引以文档ID为键,适用于精确查找;而倒排索引则以关键词为键,指向包含该词的文档列表,极大提升了多关键词联合查询效率。文章详细介绍了倒排索引的构建过程、链表归并求交集的查询优化方法,并拓展到作者维度检索等实际应用场景,揭示其在搜索引擎、数据库全文检索等系统中的核心地位。
|
5天前
|
特别加餐 | 倒排检索加速(一):工业界如何利用跳表、哈希表、位图进行加速?
本文深入解析倒排索引在工业界如何通过跳表、哈希表和位图加速求交集操作,并介绍Roaring Bitmap如何融合三种基础数据结构优势,在存储与性能间取得平衡,是基础算法在实际系统中综合应用的典范。
|
5天前
|
测一测丨检索算法基础,你掌握了多少?
本文解析了多种数据结构的查询效率与适用场景,涵盖无序/有序数组、链表、二叉检索树、跳表、哈希表、位图及布隆过滤器等。重点比较了它们在插入、查找、遍历等操作的时间空间代价,并探讨了倒排索引的设计原理与应用,如搜索引擎中的高效检索策略。同时指出各类结构的优缺点:如哈希表查询快但空间开销大,有序数组紧凑但插入慢,二叉搜索树性能依赖平衡性等。还澄清了常见误区,例如二分查找不适用于链表,开放寻址法中不能用二分查找解决冲突等。最后通过布隆过滤器和倒排索引的实际案例,说明如何根据业务需求选择合适的数据结构以优化系统性能。
|
5天前
|
06丨数据库检索:如何使用 B+ 树对海量磁盘数据建立索引?
本节深入探讨磁盘环境下大规模数据检索的挑战与解决方案,重点讲解B+树如何通过索引与数据分离、多阶平衡树结构及双向链表优化,实现高效磁盘I/O和范围查询,广泛应用于数据库等工业级系统。
|
5天前
|
特别加餐丨倒排检索加速(二):如何对联合查询进行加速?
本文介绍工业界联合查询的四种加速方法:调整次序法利用集合大小差异优化求交顺序;快速多路归并法借助跳表提升多列表归并效率;预先组合法对高频查询提前计算结果;缓存法则通过LRU机制缓存热点查询,避免重复计算,全面提升检索性能。
|
5天前
|
05 | 倒排索引:如何从海量数据中查询同时带有「极」和「客」的唐诗?
本文通过唐诗检索的场景,对比正排索引与倒排索引的差异。正排索引以文档ID为键,适合精确查找;而倒排索引以关键词为键,记录包含该词的文档列表,支持高效的关键字搜索。文中详解了倒排索引的构建过程:分词、生成关键字-文档对、插入哈希表,并介绍如何通过归并有序链表实现多关键词联合查询(如交集、并集)。倒排索引广泛应用于搜索引擎、数据库全文检索等系统,是信息检索的核心技术之一。
免费试用