数据采集的搜索结果_第3页-阿里云开发者社区

游客fmnrqz7kdmyom

|

3天前

|

博文

测一测丨检索算法基础，你掌握了多少？

本文介绍了多种数据结构的查询、插入及冲突处理机制。对比了无序与有序数据结构的查询效率，分析了二叉检索树、跳表、哈希表、位图、布隆过滤器和倒排索引的特性与适用场景，涵盖时间空间复杂度、平衡性、遍历性能及实际应用设计原则。（238字）

# 数据采集 # 算法 # 索引

游客fmnrqz7kdmyom

|

3天前

|

博文

18 | 搜索引擎：输入搜索词以后，搜索引擎是怎么工作的？

搜索引擎通过爬虫抓取网页，经索引系统处理生成倒排索引，并在检索系统中结合分词、纠错、推荐等技术，利用位置信息和最小窗口排序，精准返回用户所需结果，实现高效搜索。

# 机器学习/深度学习 # 数据采集 # 自然语言处理 # 搜索推荐 # 索引

游客fmnrqz7kdmyom

|

3天前

|

博文

04 | 状态检索：如何快速判断一个用户是否存在？

本文探讨如何高效判断对象是否存在，对比有序数组、二叉树、哈希表的查询性能，引出位图与布隆过滤器。位图利用数组按位存储，空间效率高；布隆过滤器通过多哈希函数映射到位数组，实现O(1)查询，虽存在误判但省空间，适用于注册去重、爬虫判重等场景。删除问题可通过引用计数或重建解决。

# 存储 # 数据采集 # 搜索推荐 # C++ # 容器

游客yle2jjpljoxhe

|

3天前

|

博文

领域·模型图

数据架构核心输出为ER图，包含实体、关系与属性。通过四色原型法进行领域建模：红色MI表时序事件，绿色PPT为业务对象，黄色Role是参与角色，蓝色DESC提供描述信息。以风控系统为例，从业务流程提炼MI，构建PPT实体，补充Role与DESC，最终提取含约束关系的ER图，指导数据模型设计。（238字）

# 数据采集 # 领域建模 # 数据库

nick1153007561

|

3天前

|

博文

18 | 搜索引擎：输入搜索词以后，搜索引擎是怎么工作的？

本文介绍了搜索引擎的核心架构与工作原理，重点解析了爬虫、索引和检索三大系统。通过分词、纠错、推荐等查询分析技术，结合倒排索引与位置信息索引法，搜索引擎能精准理解用户意图并高效返回相关结果。特别地，以“极客时间”为例，深入讲解了短语检索中最小窗口排序与多关键词相关性判断机制，揭示了搜索背后的技术逻辑。（238字）

# 机器学习/深度学习 # 数据采集 # 自然语言处理 # 搜索推荐 # 索引

游客3wlkklvxbishq

|

3天前

|

博文

04 | 状态检索：如何快速判断一个用户是否存在？

本文探讨高效判断对象是否存在的技术方案，对比有序数组、二叉树、哈希表的查询性能，引出位图与布隆过滤器。位图利用bit级存储，节省空间；布隆过滤器通过多哈希函数压缩数组长度，实现O(1)查询，适用于允许误判的场景，如用户注册、网页抓取去重。二者在时间与空间效率上优于传统结构，广泛应用于缓存、搜索引擎等系统中。

# 存储 # 数据采集 # 缓存 # 搜索推荐 # C++

游客3wlkklvxbishq

|

3天前

|

博文

18 | 搜索引擎：输入搜索词以后，搜索引擎是怎么工作的？

搜索引擎通过爬虫、索引与检索三大系统，实现从万亿网页中快速精准查找信息。本文详解其工作原理，包括分词、纠错、短语检索及位置索引等核心技术，揭示搜索背后的智能机制。（239字）

# 机器学习/深度学习 # 数据采集 # 自然语言处理 # 搜索推荐 # 索引

nick1153007561

|

3天前

|

博文

04 | 状态检索：如何快速判断一个用户是否存在？

本文探讨了高效判断对象是否存在的技术方案，对比有序数组、二叉搜索树和哈希表后，重点介绍位图与布隆过滤器。位图利用bit节省空间，实现O(1)查询；布隆过滤器通过多哈希函数进一步压缩空间，适用于允许误判的快速存在性检测场景，广泛用于缓存、爬虫等系统中。

# 存储 # 数据采集 # 缓存 # 搜索推荐 # C++

nick1153007561

|

3天前

|

博文

测一测丨检索算法基础，你掌握了多少？

本文解析了多种数据结构的查询效率与适用场景，涵盖无序/有序数组、链表、二叉检索树、跳表、哈希表、位图及布隆过滤器等。重点比较了它们在插入、查找、遍历等操作的时间空间代价，并探讨了倒排索引的设计原理与应用，如搜索引擎中的高效检索策略。同时指出各类结构的优缺点：如哈希表查询快但空间开销大，有序数组紧凑但插入慢，二叉搜索树性能依赖平衡性等。还澄清了常见误区，例如二分查找不适用于链表，开放寻址法中不能用二分查找解决冲突等。最后通过布隆过滤器和倒排索引的实际案例，说明如何根据业务需求选择合适的数据结构以优化系统性能。

# 数据采集 # 算法 # 搜索推荐 # 索引

Echo_Wish

|

4天前

|

博文

|

来自：大数据与机器学习

别再把数据管道当“体力活”了：从单体任务到事件驱动的升级之路

# 数据采集 # 分布式计算 # 监控 # 流计算 # Spark

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

数据采集