算法

首页 标签 算法
# 算法 #
关注
124208内容
15 | 最近邻检索(上):如何用局部敏感哈希快速过滤相似文章?
在搜索引擎与推荐系统中,相似文章去重至关重要。通过向量空间模型将文档转化为高维向量,利用SimHash等局部敏感哈希技术生成紧凑指纹,结合海明距离与抽屉原理分段索引,可高效检索近似重复内容,在百亿网页中快速过滤雷同结果,提升用户体验。该方法适用于文本、图像等多种对象的相似性检测。
二叉树的递归/层序遍历
本文详解二叉树的两种遍历方式:DFS(递归遍历)和BFS(层序遍历)。DFS通过递归按“左→右”顺序遍历,前/中/后序取决于代码位置;BFS借助队列实现逐层遍历,常用于求最短路径。三种BFS写法逐步进阶,适用于不同场景。DFS适合找所有路径,BFS更优解最短路径问题。
|
5天前
|
特别加餐 | 倒排检索加速(一):工业界如何利用跳表、哈希表、位图进行加速?
本文深入解析倒排索引在工业界如何通过跳表、哈希表和位图加速求交集操作,并介绍Roaring Bitmap如何融合三种基础数据结构优势,在存储与性能间取得平衡,是基础算法在实际系统中综合应用的典范。
|
5天前
|
测一测丨检索算法基础,你掌握了多少?
本文解析了多种数据结构的查询效率与适用场景,涵盖无序/有序数组、链表、二叉检索树、跳表、哈希表、位图及布隆过滤器等。重点比较了它们在插入、查找、遍历等操作的时间空间代价,并探讨了倒排索引的设计原理与应用,如搜索引擎中的高效检索策略。同时指出各类结构的优缺点:如哈希表查询快但空间开销大,有序数组紧凑但插入慢,二叉搜索树性能依赖平衡性等。还澄清了常见误区,例如二分查找不适用于链表,开放寻址法中不能用二分查找解决冲突等。最后通过布隆过滤器和倒排索引的实际案例,说明如何根据业务需求选择合适的数据结构以优化系统性能。
|
5天前
|
06丨数据库检索:如何使用 B+ 树对海量磁盘数据建立索引?
本节深入探讨磁盘环境下大规模数据检索的挑战与解决方案,重点讲解B+树如何通过索引与数据分离、多阶平衡树结构及双向链表优化,实现高效磁盘I/O和范围查询,广泛应用于数据库等工业级系统。
|
5天前
|
02 | 非线性结构检索:数据频繁变化的情况下,如何高效检索?
通过树状结构与跳表,将无序数据组织为可高效检索的非线性结构。二叉检索树利用有序性和二分查找提升效率,跳表则通过多层指针实现快速访问,二者均在动态数据场景下优于有序数组,兼顾查询与更新性能。
|
5天前
|
特别加餐丨倒排检索加速(二):如何对联合查询进行加速?
本文介绍工业界联合查询的四种加速方法:调整次序法利用集合大小差异优化求交顺序;快速多路归并法借助跳表提升多列表归并效率;预先组合法对高频查询提前计算结果;缓存法则通过LRU机制缓存热点查询,避免重复计算,全面提升检索性能。
|
5天前
|
01 | 线性结构检索:从数组和链表的原理初窥检索本质
本文探讨数组与链表的检索原理,揭示数据存储方式对检索效率的影响。数组支持随机访问,适合二分查找,实现O(log n)高效检索;链表虽检索较慢,但动态调整更灵活。通过理解二者特点,掌握“减少查询范围”的核心思想,为构建高效数据结构打下基础。
|
5天前
| |
来自: 弹性计算
后台数据的“毒警”:指标噪声和空洞指标不治理,你的监控就永远是个“聋子”
后台数据的“毒警”:指标噪声和空洞指标不治理,你的监控就永远是个“聋子”
2025年中国数字人企业排名与新推荐榜及新技术指南
AI数字人正重塑人机交互,具备情感共鸣、多语言沟通、全天候服务、个性化定制与持续学习五大优势,广泛应用于教育、医疗、客服等领域。它们不仅是高效工具,更成为有温度的智慧伙伴,推动科技向人性化迈进,开启“人人拥有数字分身”的未来新图景。
免费试用