索引

首页 标签 索引
# 索引 #
关注
66561内容
|
6天前
|
特别加餐 | 高性能检索系统中的设计漫谈
本文系统梳理了高性能检索系统中的四大核心设计思想:索引与数据分离、减少磁盘IO、读写分离和分层处理。通过典型案例对比与深入分析,揭示其本质原理与通用经验,帮助开发者在实际场景中合理应用,提升系统性能与可维护性。
|
6天前
|
13 | 空间检索(上):如何用 Geohash 实现「查找附近的人」功能?
本文介绍了如何高效实现“查找附近的人”功能,提出基于Geohash的区域划分与编码方法,通过非精准与精准检索结合,提升大规模系统下地理位置查询性能。
|
6天前
|
16 | 最近邻检索(下):如何用乘积量化实现「拍照识花」功能?
本文深入浅出地讲解了AI时代图片检索的核心技术:从特征提取、聚类算法(如K-Means)与局部敏感哈希的对比,到乘积量化压缩向量、结合倒排索引提升效率。重点剖析了如何通过聚类划分空间、用乘积量化大幅降低存储开销,并实现高效近似最近邻搜索。这些技术广泛应用于以图搜图、拍照识物、推荐系统等场景,是现代高维向量检索的基石。
|
6天前
|
15 | 最近邻检索(上):如何用局部敏感哈希快速过滤相似文章?
在搜索引擎与推荐系统中,相似文章去重至关重要。通过向量空间模型将文档表示为高维向量,利用SimHash等局部敏感哈希技术,可高效实现近似最近邻检索。SimHash保留关键词权重,生成紧凑哈希值,结合抽屉原理分段建立倒排索引,显著提升海明距离内的相似文档检索效率,广泛应用于网页去重、图像识别等场景。
|
6天前
|
18 | 搜索引擎:输入搜索词以后,搜索引擎是怎么工作的?
本文介绍了搜索引擎的核心架构与工作原理,重点解析了爬虫、索引和检索三大系统。通过分词、纠错、推荐和位置索引等技术,搜索引擎能精准理解用户意图并高效召回结果,是文本检索领域的关键技术参考。
|
6天前
|
20 | 推荐引擎:没有搜索词,「头条」怎么找到你感兴趣的文章?
本文深入解析了资讯类App推荐引擎的检索技术。通过“下拉刷新”背后的个性化召回机制,介绍了推荐系统如何在无搜索词情况下,基于用户行为数据构建用户与文章画像,并运用基于内容和协同过滤(用户/物品)的召回算法实现精准推荐,最后通过多路混合与分层排序优化性能。
|
6天前
|
17 | 存储系统:从检索技术角度剖析 LevelDB 的架构设计思想
LevelDB是Google开源的高性能键值存储系统,基于LSM树优化,采用跳表、读写分离、SSTable分层与Compaction等技术,结合BloomFilter、缓存机制与二分查找,大幅提升读写效率,广泛应用于工业级系统。
|
6天前
|
09 | 索引更新:刚发布的文章就能被搜到,这是怎么做到的?
本文介绍了工业界倒排索引的高效更新机制。针对小规模内存索引,采用Double Buffer实现无锁读写;对于大规模数据,则使用“全量+增量”索引结合方案,并通过删除列表处理删改。为避免频繁重建开销,提出滚动合并法,逐层整合天级、周级至全量索引,兼顾性能与资源。核心思想是读写分离,提升系统并发与稳定性。(238字)
|
6天前
|
19 | 广告系统:广告引擎如何做到在 0.1s 内返回广告信息?
广告系统是互联网核心营收支柱,支撑Google、Facebook等巨头超80%收入。本文解析其高性能架构:通过标签与向量检索结合、树形分片、倒排索引及非精准打分预筛,实现每秒百万级请求下0.1秒内精准响应,揭秘高并发低延迟背后的工程智慧。
|
6天前
|
12 | 非精准 Top K 检索:如何给检索结果的排序过程装上加速器?
本文介绍了非精准 Top K 检索的优化思路及三种实现方法:基于静态质量得分排序截断、胜者表利用词频打分、分层索引两阶段检索。核心思想是将复杂计算前置到离线阶段,在线时快速截断,降低打分开销。该方法广泛应用于搜索与推荐系统,通过召回+排序两阶段架构,在保证结果质量的前提下显著提升检索效率。
免费试用