自然语言处理的搜索结果_文章_第11页-阿里云开发者社区

游客avzk6fvsxes3o

|

5天前

|

博文

认识AI

本文介绍了AI发展及大模型核心原理，重点解析Transformer神经网络如何通过注意力机制实现自然语言处理突破。以GPT等大模型为例，揭示其基于上下文持续生成文本的推理机制，帮助理解AI为何能生成连贯内容。

# 机器学习/深度学习 # 人工智能 # 自然语言处理

游客trfiyaadwxj2c

|

5天前

|

博文

最近邻检索（上

在搜索引擎与推荐系统中，相似文章去重至关重要。本文介绍基于向量空间模型的近邻检索方法，将文档表示为TF-IDF加权的高维向量，通过计算向量间相似度识别重复内容。为提升检索效率，引入局部敏感哈希（LSH）技术，快速筛选潜在相似文章，有效优化用户体验。

# 自然语言处理 # 搜索推荐 # UED

游客trfiyaadwxj2c

|

5天前

|

博文

索引构建

搜索引擎如何为万亿网页构建索引？通过分治与多路归并，将文档拆分为小集合，在内存中生成倒排索引后写入磁盘，再合并多个有序临时文件，最终生成全局倒排文件。词典可加载至内存或用B+树管理，实现高效检索。该过程类似MapReduce，支持分布式扩展。

# 存储 # 自然语言处理 # 分布式计算 # 搜索推荐 # 索引

nick1153007561

|

5天前

|

博文

Chap01. 认识AI

本文介绍了AI核心概念与大模型开发原理，涵盖人工智能发展历程及Transformer神经网络的关键作用。详解其注意力机制如何提升信息处理智能，并解析大语言模型（LLM）如何通过持续生成实现连贯文本输出，帮助理解GPT等模型的工作机制。（238字）

# 机器学习/深度学习 # 人工智能 # 自然语言处理

游客fmnrqz7kdmyom

|

5天前

|

博文

05 | 倒排索引：如何从海量数据中查询同时带有「极」和「客」的唐诗？

本文通过唐诗检索的类比，深入浅出地讲解了正排索引与倒排索引的核心原理。正排索引以文档ID为键，适合精确查找；而倒排索引以关键词为键，指向包含该词的文档列表，极大提升了多关键词联合查询的效率。文章详细介绍了倒排索引的构建步骤：文档编号、关键词解析、哈希表插入及链表归并查询，并解释了如何通过有序链表的归并实现高效交集运算。此外，还探讨了多字段索引（如作者）、敏感词检测、内存优化等实际应用问题，揭示了倒排索引在搜索引擎、推荐系统等大规模检索场景中的核心地位。

# 存储 # 机器学习/深度学习 # 自然语言处理 # 搜索推荐 # 索引

游客avzk6fvsxes3o

|

5天前

|

博文

AI时代代码开发

AI时代重塑软件开发，本课程聚焦DeepSeek+Cursor+Devbox+Sealos工具链，打造零基础全栈开发新范式。无需编程经验，3小时掌握从需求分析、数据库设计到云部署的AI全流程开发，助力开发者高效构建并上线项目，抢占智能化转型先机。（238字）

# 人工智能 # 自然语言处理 # Cloud Native # 数据库 # 开发者

游客zhy2kifcuf2sa

|

5天前

|

博文

|

来自：数据库

MySql总结

图示展示了人工智能发展的三个阶段：感知智能、认知智能与生成智能。从语音识别、图像识别，到自然语言理解、知识推理，再到内容生成、创作辅助，AI正逐步深入人类生产与生活各领域，推动技术革新与产业变革。

# 人工智能 # 自然语言处理 # 关系型数据库 # MySQL # 语音技术

nick1153007561

|

5天前

|

博文

10 | 索引拆分：大规模检索系统如何使用分布式技术加速检索？

在大规模检索系统中，分布式技术通过拆分倒排索引提升性能。基于文档的水平拆分将数据随机分布到多台服务器，实现并行检索与负载均衡；基于关键词的垂直拆分则按词典划分，减少请求复制但易引发热点问题。前者扩展性好、运维简单，后者适用于特定高性能场景。合理选择拆分策略是提升系统吞吐与响应速度的关键。

# 自然语言处理 # 运维 # 负载均衡 # 搜索推荐 # 索引

nick1153007561

|

5天前

|

博文

08 | 索引构建：搜索引擎如何为万亿级别网站生成索引？

针对超大规模数据，可通过分治与多路归并生成内存外倒排索引。先将文档分批在内存建索引，再写入有序临时文件，最后归并为全局索引。检索时结合内存哈希、B+树及分层加载技术，提升效率。

# 存储 # 自然语言处理 # 分布式计算 # 搜索推荐 # 索引

nick1153007561

|

5天前

|

博文

09 | 索引更新：刚发布的文章就能被搜到，这是怎么做到的？

本文介绍了工业界倒排索引的高效更新机制。针对小规模内存索引，采用Double Buffer实现无锁读写；对于大规模数据，则使用“全量+增量”索引结合方案，并通过删除列表处理文档删除问题。为避免频繁合并带来的性能开销，进一步引入滚动合并法，逐层整合天级、周级至全量索引，减少冗余IO。核心思想是读写分离，在保障检索性能的同时实现近实时更新。（238字）

# 存储 # 自然语言处理 # 搜索推荐 # Java # 索引

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

自然语言处理