索引

首页 标签 索引
# 索引 #
关注
66550内容
17 | 存储系统:从检索技术角度剖析 LevelDB 的架构设计思想
LevelDB是Google开源的高性能键值存储系统,基于LSM树优化,采用跳表、读写分离、SSTable分层与Compaction等技术,结合BloomFilter、索引分离及LRU缓存,显著提升读写效率,广泛应用于工业级系统。
20 | 推荐引擎:没有搜索词,「头条」怎么找到你感兴趣的文章?
每天下拉刷新,资讯App就能推荐你感兴趣的头条,这背后依赖的是推荐引擎的检索技术。与搜索不同,推荐系统通过用户行为构建画像,结合内容标签与协同过滤算法,实现个性化召回。基于内容的推荐匹配兴趣,协同过滤则挖掘用户或物品相似性,再经多层排序筛选出最优结果。混合策略让推荐更精准高效。
特别加餐 | 高性能检索系统中的设计漫谈
本文系统梳理了高性能检索系统中的四大核心设计思想:索引与数据分离、减少磁盘IO、读写分离和分层处理。通过案例解析与对比分析,深入探讨其本质与适用场景,并总结通用实践经验,帮助开发者在实际系统设计中提升性能与可维护性,构建高效稳定的高并发系统。
特别加餐丨倒排检索加速(二):如何对联合查询进行加速?
本文深入探讨工业界倒排索引中联合查询的四大加速方法:调整次序法通过优化计算顺序提升效率;快速多路归并法利用跳表加速多集合交集运算;预先组合法对高频查询提前计算结果;缓存法则通过LRU机制缓存热点查询,减少重复计算。四种方法从数学、算法与工程角度协同优化复杂检索,显著提升系统性能。
06丨数据库检索:如何使用 B+ 树对海量磁盘数据建立索引?
本节探讨磁盘环境下大规模数据检索的挑战与解决方案,重点解析B+树如何通过索引与数据分离、多阶平衡结构及双向链表优化,实现高效的磁盘I/O利用和范围查询,广泛应用于数据库等工业级系统。
测一测丨检索算法基础,你掌握了多少?
本文介绍了多种数据结构的查询、插入及冲突处理机制。对比了无序与有序数据结构的查询效率,分析了二叉检索树、跳表、哈希表、位图、布隆过滤器和倒排索引的特性与适用场景,涵盖时间空间复杂度、平衡性、遍历性能及实际应用设计原则。(238字)
13 | 空间检索(上):如何用 Geohash 实现「查找附近的人」功能?
本文介绍了如何高效实现“查找附近的人”功能,提出基于Geohash的区域编码与索引方案。通过将二维坐标转为一维编码,结合非精准与精准检索策略,利用跳表、二叉树等数据结构提升查询效率,适用于大规模地理位置服务场景。
08 | 索引构建:搜索引擎如何为万亿级别网站生成索引?
针对超大规模数据,如搜索引擎需处理万亿级网页,倒排索引远超内存容量。为此,工业界采用分治与多路归并思想:先将文档集拆分为小块,在内存中为每块构建倒排索引并写入磁盘临时文件;随后通过多路归并合并临时文件,生成全局有序的最终倒排文件。该过程类似MapReduce框架,支持分布式加速。检索时,优先将词典加载至内存,用哈希表或B+树快速定位关键词,再从磁盘读取对应posting list。对过长的posting list,则采用分层索引(如跳表)或缓存机制(如LRU),仅加载必要数据块,减少IO开销,提升效率。
12 | 非精准 Top K 检索:如何给检索结果的排序过程装上加速器?
本文介绍了非精准Top K检索的优化思路与实现方法,通过简化打分机制提升检索效率。重点讲解了三种加速技术:基于静态质量得分排序截断、胜者表利用词频打分、以及分层索引的两层检索策略。这些方法将计算前置至离线阶段,在线仅做快速截断,大幅降低开销。结合精准排序的两阶段架构,广泛应用于搜索与推荐系统,实现高效召回与精度平衡。
18 | 搜索引擎:输入搜索词以后,搜索引擎是怎么工作的?
搜索引擎通过爬虫抓取网页,经索引系统处理生成倒排索引,并在检索系统中结合分词、纠错、推荐等技术,利用位置信息和最小窗口排序,精准返回用户所需结果,实现高效搜索。
免费试用