游客7drugl3kyg7h6_个人页

游客7drugl3kyg7h6

文章

问答

视频

个人介绍

暂无个人介绍

擅长的技术

获得更多能力

通用技术能力：

暂时未有相关通用技术能力~

云产品技术能力：

暂时未有相关云产品技术能力~

阿里云技能认证

详细说明

高分内容

最新动态

文章
问答
视频

暂无更多信息

2025年12月

12.17 21:04:10

发表了文章 2025-12-17 21:04:10

精准 Top K 检索：搜索结果是怎么进行打分排序的？

搜索引擎排序直接影响用户体验，核心是Top K检索。本文介绍三种打分算法：经典TF-IDF衡量词项权重；BM25在此基础上优化，引入文档长度、词频饱和等因子；机器学习则融合数百特征自动学习权重，提升排序精度。最后通过堆排序高效实现Top K结果返回，兼顾性能与效果。（239字）
12.17 21:03:20

发表了文章 2025-12-17 21:03:20

索引拆分：大规模检索系统如何使用分布式技术加速检索？

本文介绍了分布式技术在大规模检索系统中的应用，重点探讨了如何通过索引拆分提升检索效率。常见的拆分方式有基于业务、文档（水平拆分）和关键词（垂直拆分）。其中，基于文档的拆分更易维护：新增文档仅影响一个分片，且负载更均衡，支持副本扩容应对热点查询，系统可扩展性强，是工业界主流方案。（238字）
12.17 21:01:40

发表了文章 2025-12-17 21:01:40

索引更新：刚发布的文章就能被搜到，这是怎么做到的？

本文介绍了工业界倒排索引的高效更新机制。针对小规模索引，采用Double Buffer实现无锁读写；对于大规模索引，则使用“全量+增量”索引方案，结合删除列表处理删改操作，并通过完全重建、再合并或滚动合并等方式管理增量数据，提升系统性能与稳定性。
12.17 21:00:41

发表了文章 2025-12-17 21:00:41

索引构建：搜索引擎如何为万亿级别网站生成索引？

针对超大规模数据，可通过分治与多路归并生成内存外倒排索引：先将文档分批在内存建索引，再写入有序临时文件，最后归并为全局有序的磁盘索引。检索时结合内存词典（哈希表或B+树）与磁盘倒排表，辅以分层加载、缓存优化，实现高效查询。
12.17 20:59:39

发表了文章 2025-12-17 20:59:39

NoSQL 检索：为什么日志系统主要用 LSM 树而非 B+ 树？

B+树适用于关系型数据库，但面对高频写入的日志、监控等大数据场景，随机写入性能差。LSM树通过将数据先写入内存C0树，再批量合并到磁盘C1树，实现高效写入。结合WAL保障数据恢复，利用清空块与填充块进行滚动归并，提升磁盘读写效率。检索时优先查内存，支持近期数据快速访问，并通过删除标记延迟清理过期数据，是高频写入场景下的理想选择。
12.17 20:58:37

发表了文章 2025-12-17 20:58:37

数据库检索：如何使用 B+ 树对海量磁盘数据建立索引？

本讲探讨磁盘环境下大规模数据检索的挑战与解决方案。由于内存有限，数据需存储于磁盘，而磁盘随机访问效率远低于内存。为减少磁盘I/O，采用索引与数据分离的设计，典型代表是B+树。B+树通过将节点大小对齐磁盘块、区分内部与叶子节点、支持顺序访问等机制，实现高效的磁盘数据索引，广泛应用于数据库系统如MySQL、Oracle中，是工业界处理海量数据检索的核心技术之一。
12.17 20:57:28

发表了文章 2025-12-17 20:57:28

倒排索引：如何从海量数据中查询同时带有「极」和「客」的唐诗？

本文通过唐诗检索的场景，对比讲解正排索引与倒排索引的原理与应用。正排索引以文档ID为键，适合精确查找；而倒排索引以关键词为键，记录包含该词的文档列表，显著提升多关键字联合查询效率。文章详细介绍了倒排索引的构建步骤、查询过程中的归并优化，并拓展到作者维度查询等实际应用场景，是搜索引擎、数据库全文检索的核心技术基础。
12.17 20:56:20

发表了文章 2025-12-17 20:56:20

状态检索：如何快速判断一个用户是否存在？

本文探讨高效判断对象是否存在的技术方案，对比有序数组、二叉搜索树和哈希表后，重点介绍位图与布隆过滤器。位图利用bit级存储，大幅节省空间；布隆过滤器通过多个哈希函数进一步压缩数组长度，实现O(1)查询，适用于允许误判的场景，如注册去重、爬虫去重等。虽不支持直接删除，但可通过引用计数或重建优化。二者在时间与空间效率上优于传统结构，广泛应用于大型系统中。
12.17 20:55:18

发表了文章 2025-12-17 20:55:18

哈希检索：如何根据用户 ID 快速查询用户信息？

本文介绍了哈希表的原理与实现。通过哈希函数将键转为数组下标，利用数组随机访问特性实现O(1)查询。针对哈希冲突，讲解了开放寻址法（线性探查、二次探查、双散列）和链表法，并分析其优劣。最后指出哈希表需足够空间以减少冲突，且不支持有序操作，适用场景有限。
12.17 20:54:27

发表了文章 2025-12-17 20:54:27

非线性结构检索：数据频繁变化的情况下，如何高效检索？

本文探讨如何通过非线性结构提升数据检索效率。类比文件系统的树状结构，引出二叉检索树与跳表，二者均通过有序组织和二分查找思想实现O(log n)查询。二叉检索树需平衡控制（如AVL、红黑树）以防退化；跳表则以随机层数简化平衡维护，兼具高效查询与灵活插入，适用于频繁更新场景。
12.17 20:52:58

发表了文章 2025-12-17 20:52:58

线性结构检索：从数组和链表的原理初窥检索本质

本文探讨数组与链表的存储特性及其对检索效率的影响。数组连续存储，支持随机访问，适合二分查找，检索效率为O(log n)；链表非连续存储，不支持随机访问，检索效率为O(n)，但插入删除更高效。通过合理组织数据结构，如结合两者优势改进链表，可提升检索性能，体现“减少查询范围”的核心思想。

发表了文章 2025-12-18

2.映射关系(1-1 1-n n-n)
发表了文章 2025-12-18

1-MongoDB相关概念
发表了文章 2025-12-18

3-MongoDB单机部署
发表了文章 2025-12-18

Thread.sleep(0) 到底有什么用(读完就懂)
发表了文章 2025-12-18

JVM
发表了文章 2025-12-18

Java泛型类型擦除以及类型擦除带来的问题
发表了文章 2025-12-18

零拷贝
发表了文章 2025-12-18

线程池
发表了文章 2025-12-18

生产环境缺陷管理
发表了文章 2025-12-18

如何做好SQL质量监控
发表了文章 2025-12-18

One Trick Per Day
发表了文章 2025-12-18

ArrayList扩容机制
发表了文章 2025-12-18

系统时序图
发表了文章 2025-12-18

需求开发人日评估
发表了文章 2025-12-18

为什么要单元测试
发表了文章 2025-12-18

生产环境发布管理
发表了文章 2025-12-18

如何在没有接口的情况下进行 RPC 调用？
发表了文章 2025-12-18

特别放送 | 谈谈我所经历过的 RPC
发表了文章 2025-12-18

如何在线上环境里兼容多种 RPC 协议？
发表了文章 2025-12-18

动态分组：超高效实现秒级扩缩容

正在加载, 请稍后...

滑动查看更多

正在加载, 请稍后...

暂无更多信息

正在加载, 请稍后...

暂无更多信息

探索云世界

热门

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

游客7drugl3kyg7h6_个人页

个人介绍

擅长的技术

2.映射关系(1-1 1-n n-n)

1-MongoDB相关概念

3-MongoDB单机部署

Thread.sleep(0) 到底有什么用(读完就懂)

JVM

Java泛型类型擦除以及类型擦除带来的问题

零拷贝

线程池

生产环境缺陷管理

如何做好SQL质量监控

One Trick Per Day

ArrayList扩容机制

系统时序图

需求开发人日评估

为什么要单元测试

生产环境发布管理

如何在没有接口的情况下进行 RPC 调用？

特别放送 | 谈谈我所经历过的 RPC

如何在线上环境里兼容多种 RPC 协议？

动态分组：超高效实现秒级扩缩容