备案控制台

开发者社区阿里云开发者学堂文章正文

中文分词概述 | 学习笔记

2022-11-09 85

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 快速学习中文分词概述

开发者学堂课程【ElasticSearch 入门精讲：中文分词概述】学习笔记，与课程紧密连接，让用户快速学习知识。

课程地址：https://developer.aliyun.com/learning/course/631/detail/10010

中文分词概述

上面的执行过程中看到了，查询中文基本查询不出数据，那是因为 ES 都是需要对每一句话进行分词，拆分后才能够进行查询解析。

因为底层依赖 lucene ，所以中文分词效果不佳，如果是中文的话，默认的就是一个汉字格式，但是有比较好的分词插件，比较好的中文分词有IK，庖丁解牛中文分词等等。

比如说要查一个词语，“中文分词必要性详解”，这个词语如果我们不安装分词插件，使用它默认的分词插件的话，“中”可以查出这句话，“文”也可以查出这句话，但是“中文”就查不出来，因为西方人认为“中文”一个字是一个词，所以我们要安装专门的分词插件。

下面我们从中文分词必要性详解和中文分词插件安装演示以及安装完毕之后效果演示来讲解。

文章标签：

自然语言处理

开发者

带你读小助手

目录

相关文章

Freedom123

|

6月前

|

存储机器学习/深度学习人工智能

【LangChain系列】第八篇：文档问答简介及实践

【5月更文挑战第22天】本文探讨了如何使用大型语言模型（LLM）进行文档问答，通过结合LLM与外部数据源提高灵活性。 LangChain库被介绍为简化这一过程的工具，它涵盖了嵌入、向量存储和不同类型的检索问答链，如Stuff、Map-reduce、Refine和Map-rerank。文章通过示例展示了如何使用LLM从CSV文件中提取信息并以Markdown格式展示

Freedom123

282 2 2

Freedom123

|

6月前

|

测试技术 API 数据库

【LangChain系列】第二篇：文档拆分简介及实践

【5月更文挑战第15天】本文介绍了LangChain中文档拆分的重要性及工作原理。文档拆分有助于保持语义内容的完整性，对于依赖上下文的任务尤其关键。LangChain提供了多种拆分器，如CharacterTextSplitter、RecursiveCharacterTextSplitter和TokenTextSplitter，分别适用于不同场景。MarkdownHeaderTextSplitter则能根据Markdown标题结构进行拆分，保留文档结构。通过实例展示了如何使用这些拆分器，强调了选择合适拆分器对提升下游任务性能和准确性的影响。

Freedom123

572 0 0

征途黯然。

|

机器学习/深度学习数据采集自然语言处理

【英文文本分类实战】之一——实战项目总览

【英文文本分类实战】之一——实战项目总览

征途黯然。

145 0 1

【英文文本分类实战】之一——实战项目总览

游客ig3oyhuxp5p5q

|

自然语言处理前端开发 Java

十.全文检索ElasticSearch经典入门-自动补全功能

十.全文检索ElasticSearch经典入门-自动补全功能

游客ig3oyhuxp5p5q

228 0 0

寒树大叔

|

自然语言处理算法 Java

NLP快速入门：手把手教你用HanLP做中文分词

NLP快速入门：手把手教你用HanLP做中文分词

寒树大叔

1083 0 0

NLP快速入门：手把手教你用HanLP做中文分词

峡谷电光马仔

|

数据采集自然语言处理算法

java应用集成HanLP进行中文自然语言分词详细完整案例以及demo源码

java应用集成HanLP进行中文自然语言分词详细完整案例以及demo源码

峡谷电光马仔

50714 1 1

java应用集成HanLP进行中文自然语言分词详细完整案例以及demo源码

我是廖志伟

|

SQL JSON 自然语言处理

全文检索工具elasticsearch：第一章：理论知识

全文检索工具elasticsearch：第一章：理论知识

我是廖志伟

268 0 0

训练营小助手

|

机器学习/深度学习自然语言处理搜索推荐

文本挖掘概述上｜学习笔记

快速学习文本挖掘概述上

训练营小助手

184 0 0

训练营小助手

|

自然语言处理监控搜索推荐

文本挖掘概述下｜学习笔记

快速学习文本挖掘概述下

训练营小助手

280 0 0

我是廖志伟

|

存储自然语言处理分布式计算

全文检索工具solr：第一章：理论知识

全文检索工具solr：第一章：理论知识

我是廖志伟

129 0 0

阿里云开发者学堂

热门文章

最新文章

常见浏览器User-Agent大全

未来已来！阿里小蜜AI技术揭秘

Flink: 实时规则引擎助力新零售发展

Apache Flink 进阶（三）：Checkpoint 原理解析与应用实践

weex-html5 组件进阶

群智能算法：灰狼优化算法（GWO）的详细解读

Amazon 的IoT之路

hp M1530一体机无法在OEM系统下安装驱动

NumPy Cookbook 带注释源码十、Scikit 中的乐趣

潮流设计：15个创意的 3D 字体版式作品欣赏

springboot配置hosts文件

maven项目的pom.xml文件常用标签使用介绍

天气预报-腾讯天气-7天-地址查询版免费API接口

第四届人文，智慧教育与服务管理国际学术会议（HWESM 2025） 2025 4th International Conference on Humanities, Wisdom Education and Service Management

2025电气自动化与电机系统国际学术会议（EAMS 2025） 2025 International Conference on Electrical Automation and Motor System

大厂面试高频：什么是自旋锁？Java 实现自旋锁的原理？

C++ 之 perf+火焰图分析与调试

面试高频：Synchronized 原理，建议收藏备用！

SQL 中，通配符

鸿蒙next版开发：相机开发-适配不同折叠状态的摄像头变更(ArkTS)

相关课程

更多

特征工程简介

Python基础快速入门实战教程

ElasticSearch 最新快速入门教程

相关电子书

更多

《Elasticsearch 八大经典应用》828

Elasticsearch 八大经典应用

阿里云视觉计算开发者系列手册-目标检测入门必读指南

相关实验场景

更多

实验手册指导文档

下一篇

无影云桌面