中文分词概述 | 学习笔记

简介: 快速学习中文分词概述

开发者学堂课程【ElasticSearch 入门精讲中文分词概述学习笔记,与课程紧密连接,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/631/detail/10010


中文分词概述


上面的执行过程中看到了,查询中文基本查询不出数据,那是因为 ES 都是需要对每一句话进行分词,拆分后才能够进行查询解析。

因为底层依赖 lucene ,所以中文分词效果不佳,如果是中文的话,默认的就是一个汉字格式,但是有比较好的分词插件,比较好的中文分词有IK,庖丁解牛中文分词等等。

比如说要查一个词语,“中文分词必要性详解”,这个词语如果我们不安装分词插件,使用它默认的分词插件的话,“中”可以查出这句话,“文”也可以查出这句话,但是“中文”就查不出来,因为西方人认为“中文”一个字是一个词,所以我们要安装专门的分词插件。

下面我们从中文分词必要性详解和中文分词插件安装演示以及安装完毕之后效果演示来讲解。

相关文章
|
JavaScript
Vue响应式数据的判断
Vue响应式数据的判断
|
数据挖掘 UED
ChatGPT数据分析——探索性分析
ChatGPT数据分析——探索性分析
185 1
|
安全 Java 开发工具
Java基础19-一文搞懂Java集合类框架,以及常见面试题(一)
Java基础19-一文搞懂Java集合类框架,以及常见面试题(一)
167 6
|
机器学习/深度学习 数据采集 数据可视化
深入浅出:Python在数据分析中的应用
本文将探讨Python语言在数据分析领域的广泛应用及其背后的原理。不同于传统的技术文章摘要,我们将通过一个实际案例——分析全球气候变化数据——来展示Python如何成为数据科学家和分析师的强大工具。文章首先介绍Python及其在数据分析中的优势,随后通过实际代码示例,指导读者如何使用Pandas库进行数据处理,Matplotlib和Seaborn库进行数据可视化,最后探讨Python在更复杂的数据分析任务中的应用,如机器学习模型的构建。本文旨在为初学者提供一个清晰、实用的Python数据分析入门指南,同时也为经验丰富的开发者提供一些高级技巧和最佳实践。
|
Linux
CentOS7下修改默认网卡名为eth0的方法
CentOS7下修改默认网卡名为eth0的方法
439 0
|
传感器 Linux 编译器
不同平台下的点灯代码,你在点灯的哪个段位?
不同平台下的点灯代码,你在点灯的哪个段位?
|
编译器 C语言 C++
模拟C语言库函数strlen的实现
模拟C语言库函数strlen的实现
170 0
|
网络虚拟化 网络架构
思科的综合实战练习
思科的综合实战练习
198 0
通过代码加解析的方式带领大家分析 :数组与指针的关系
通过代码加解析的方式带领大家分析 :数组与指针的关系
157 0
通过代码加解析的方式带领大家分析 :数组与指针的关系
|
消息中间件 canal 数据采集
浅谈数据同步
数据同步在后端是非常常见的场景,数据同步的稳定性和实时性对业务有非常重要的影响。数据同步的方式主要有全量同步和增量同步两种,本文主要介绍上述两种方式的差异,以及常用的解决方案。
1072 0
浅谈数据同步