开发者学堂课程【ElasticSearch 入门精讲:中文分词概述】学习笔记,与课程紧密连接,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/631/detail/10010
中文分词概述
上面的执行过程中看到了,查询中文基本查询不出数据,那是因为 ES 都是需要对每一句话进行分词,拆分后才能够进行查询解析。
因为底层依赖 lucene ,所以中文分词效果不佳,如果是中文的话,默认的就是一个汉字格式,但是有比较好的分词插件,比较好的中文分词有IK,庖丁解牛中文分词等等。
比如说要查一个词语,“中文分词必要性详解”,这个词语如果我们不安装分词插件,使用它默认的分词插件的话,“中”可以查出这句话,“文”也可以查出这句话,但是“中文”就查不出来,因为西方人认为“中文”一个字是一个词,所以我们要安装专门的分词插件。
下面我们从中文分词必要性详解和中文分词插件安装演示以及安装完毕之后效果演示来讲解。