中文分词概述 | 学习笔记

简介: 快速学习中文分词概述

开发者学堂课程【ElasticSearch 入门精讲中文分词概述学习笔记,与课程紧密连接,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/631/detail/10010


中文分词概述


上面的执行过程中看到了,查询中文基本查询不出数据,那是因为 ES 都是需要对每一句话进行分词,拆分后才能够进行查询解析。

因为底层依赖 lucene ,所以中文分词效果不佳,如果是中文的话,默认的就是一个汉字格式,但是有比较好的分词插件,比较好的中文分词有IK,庖丁解牛中文分词等等。

比如说要查一个词语,“中文分词必要性详解”,这个词语如果我们不安装分词插件,使用它默认的分词插件的话,“中”可以查出这句话,“文”也可以查出这句话,但是“中文”就查不出来,因为西方人认为“中文”一个字是一个词,所以我们要安装专门的分词插件。

下面我们从中文分词必要性详解和中文分词插件安装演示以及安装完毕之后效果演示来讲解。

相关文章
|
6月前
|
存储 机器学习/深度学习 人工智能
【LangChain系列】第八篇:文档问答简介及实践
【5月更文挑战第22天】本文探讨了如何使用大型语言模型(LLM)进行文档问答,通过结合LLM与外部数据源提高灵活性。 LangChain库被介绍为简化这一过程的工具,它涵盖了嵌入、向量存储和不同类型的检索问答链,如Stuff、Map-reduce、Refine和Map-rerank。文章通过示例展示了如何使用LLM从CSV文件中提取信息并以Markdown格式展示
282 2
|
6月前
|
测试技术 API 数据库
【LangChain系列】第二篇:文档拆分简介及实践
【5月更文挑战第15天】 本文介绍了LangChain中文档拆分的重要性及工作原理。文档拆分有助于保持语义内容的完整性,对于依赖上下文的任务尤其关键。LangChain提供了多种拆分器,如CharacterTextSplitter、RecursiveCharacterTextSplitter和TokenTextSplitter,分别适用于不同场景。MarkdownHeaderTextSplitter则能根据Markdown标题结构进行拆分,保留文档结构。通过实例展示了如何使用这些拆分器,强调了选择合适拆分器对提升下游任务性能和准确性的影响。
572 0
|
机器学习/深度学习 数据采集 自然语言处理
【英文文本分类实战】之一——实战项目总览
【英文文本分类实战】之一——实战项目总览
145 0
【英文文本分类实战】之一——实战项目总览
|
自然语言处理 前端开发 Java
十.全文检索ElasticSearch经典入门-自动补全功能
十.全文检索ElasticSearch经典入门-自动补全功能
|
自然语言处理 算法 Java
NLP快速入门:手把手教你用HanLP做中文分词
NLP快速入门:手把手教你用HanLP做中文分词
1083 0
NLP快速入门:手把手教你用HanLP做中文分词
|
数据采集 自然语言处理 算法
java应用集成HanLP进行中文自然语言分词详细完整案例以及demo源码
java应用集成HanLP进行中文自然语言分词详细完整案例以及demo源码
50714 1
java应用集成HanLP进行中文自然语言分词详细完整案例以及demo源码
|
SQL JSON 自然语言处理
全文检索工具elasticsearch:第一章:理论知识
全文检索工具elasticsearch:第一章:理论知识
268 0
|
机器学习/深度学习 自然语言处理 搜索推荐
文本挖掘概述 上|学习笔记
快速学习文本挖掘概述 上
文本挖掘概述 上|学习笔记
|
自然语言处理 监控 搜索推荐
文本挖掘概述 下|学习笔记
快速学习文本挖掘概述 下
文本挖掘概述 下|学习笔记
|
存储 自然语言处理 分布式计算
全文检索工具solr:第一章:理论知识
全文检索工具solr:第一章:理论知识
129 0

相关实验场景

更多
下一篇
无影云桌面