自定义词库|学习笔记

简介: 快速学习自定义词库。

开发者学堂课程【ElasticSearch 最新快速入门教程自定义词库】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/642/detail/10668


自定义词库

 

内容简介:

1. 中文分词Ik分词器,自定义词库

2. ES Rest_通过 REST 概述

3.ES REST 通过 REST 请求 URI 以及 ES Rest 通过 REST 的一个请求体

 

自定义词库,在 plugins config 目录下有一个 page 文件叫作:IKAnalyzer.cuff.xml

可以确认一下位置:

image.png

cd~/es/plugins 下面有一个 analysis-ik,这里有个 cd config,config 目录下就一个  IKAnalyzer.cuff.xml

image.png

IK Analyzer 这里面配置自定义的一个扩展,用户也可以在这里面配置自己的一个扩展或者停止置顶,可以在里面配置一个远程的扩展置顶前置的一个词典

exstopword.dic,可以修改一下这里可以一个指定,

比如 custom/mydict.dic 或者 single_word_low_freq.exit 

exit 可以指定一下打开 custom 文件夹然后编辑文件“不明觉厉”,然后再重新启动 es,重新打开文档下列搜索可以查询结果

演示一下,查询一下“不明觉厉”

下面也尝试一下:

su-l root 123然后下面 cd/opt ,home/jerry/es/plugins

cd analysis-ik/

进来之后 cd config,然后后面有一个 custom/mydict.dic.

这里面有个 customer/mydic.dic

dicry/es/plugins

cd anylysis-ikIKAnalyzer.cig.xml,ik

扩展或者扩展自定义的一个字典,可以尝试一下 :

这里面是一个 custom 下面有个 mydict.dic ,完了之后编辑一下,比如说查询一下“不明觉厉”能不能查询出来,没有改之前不明觉厉”能不能去查询出来。

比如说: 

analyzer 后面写一下 ik smart “text” 不明觉厉,提交请求,并没有识别出“不明觉厉”是个一个词

image.png

有“如痴如醉”再往下看一次识别方法

可以mkdir 有个 customer ,

cd ,mv/customer/customer

然后在这个 customer,

cd customer

vim mydic.dic  

不明觉厉

完了之后进行重启:

先 pf,jps 一下

customer 跨节点考核一下,scp-r 先停止把 es 继续停止 pkill-f 有一个 Elasticsearch 然后查询一下,jps,跨节点拷贝然后查询一下,jps

跨节点拷贝

scp-r 有一个 config/ root 把它拷贝到 janson02opt home/jerry/es/plugins/

后面有个 analysis-ik再拷贝到03上,

这里看下 cd/root/jerry,home/jerry/es/plugins cd ik ,cd config

加一个customer

有了之后再次 su-l jerry,然后 es/bin/elasticsearch -d 现在 jps  一下,进来之后再慢慢尝试一下,看看不明觉厉现在能不能查询得到请求可以刷新一下点击F5刷新,看一下在 jps 查询一下,显示存在,继续F5一下,红色的,黄色的

image.png

完全启动慢慢的起来了,再查询一下“不明觉厉”,显示请求,请求中…,有一个“不明”,“觉”,“厉”,“天”,“团”,“昨”,“在”,“昨在”,“露天”,“3人”,“演唱会”,“让”,“听得”,“如痴如醉”比如说这里有个 IK smart 下面可以选一种方案叫做  ik_max_word,出现的是“如痴如醉”,下面自定义的“不明觉厉”就进去了,

点击提交请求就进去了,定义的时候要注意把这个参数根据官方的说明需要一定的配置,自己定义汇报出来扩展的词典,

需要在 opt,es 下面有个 config,config 下面 analysis-ik 然后在这里面还需要配一下 customer mydic

mydiction,说明需要配置一下,然后在 IK,除了这里面要定义下

还有 plug-in

这两点需要注意后就可以了,此外还需要把 IK elastic 设计服务停了,停了之后定义完成的,这里暂时定义了一个自己的

如果使用了远程的方式 location remote_ext_stopwords ,其中 location 是一个 url,比如 http://yoursite.com/getCustomDict,该请求只能满足以下两点即可完成分词热更新。

这里是IK自定义的一个中文分词插件,中文分词词库。

需要注意

两个地方都需要配置,一个是 jerry,一个是 plugins 这个目录下,此外在外面 config 这个目录下,也得配置,customers 下也得配置才有用。

就会有这个效果,就是“不明觉厉”提交申请,自定义词典的内容综上所

相关文章
|
Linux Shell Windows
Linux如何检查文件夹的大小?
在Linux中查看文件夹大小,可使用`du`(如`du -sh *`)、`df`(如`df -h /home`)查看磁盘使用情况,`ncdu`提供交互式浏览,`ls -lh`显示当前目录文件大小,`find`与`du`结合找大文件夹,`tree --du -h`展示目录结构及大小,或用`awk`与`du`组合按大小排序。不同场景下,这些命令各有优势。
917 1
Linux如何检查文件夹的大小?
|
存储 人工智能 OLAP
LangChain+通义千问+AnalyticDB向量引擎保姆级教程
本文以构建AIGC落地应用ChatBot和构建AI Agent为例,从代码级别详细分享AI框架LangChain、阿里云通义大模型和AnalyticDB向量引擎的开发经验和最佳实践,给大家快速落地AIGC应用提供参考。
132027 94
|
Java Apache Maven
Sentinel Apache Httpclient 适配器介绍
Sentinel 为 OkHttp 客户端提供集成以启用 Web 请求的流量控制。
|
数据采集 XML API
淘宝商品评论数据采集教程丨淘宝商品评论数据接口(Taobao.item_review)
**摘要:** 本教程指导如何使用淘宝(Taobao.item_review)接口采集商品评论。步骤包括注册开发者账号,创建应用获取API密钥,发送请求(如num_iid, page, size参数),解析JSON或XML返回数据,并遵循使用规则与安全注意事项。接口允许获取商品评论列表,含评论内容、评论者信息等,适用于数据分析和市场研究。务必保护API密钥并遵守使用政策。
1219 1
|
7月前
|
物联网
(手把手)在华为云、阿里云搭建自己的物联网MQTT消息服务器,免费IOT平台
本文介绍如何在阿里云搭建自己的物联网MQTT消息服务器,并使用 “MQTT客户端调试工具”模拟MQTT设备,接入平台进行消息收发。
2626 42
|
9月前
|
安全 API 算法框架/工具
大模型文件Docker镜像化部署技术详解
大模型文件Docker镜像化部署技术详解
1387 2
|
算法 搜索推荐
如何用CRDT算法颠覆文档协作模式?
在局域网环境下,高效文档协同编辑面临版本冲突等核心技术挑战,影响协作效率和成果质量。为解决此问题,可采用基于CRDT的算法,允许多用户无冲突实时编辑;或将协同操作模块化,通过任务看板优化协作流程,减少冲突,提高团队效率。未来,局域网协同编辑将更加场景化与个性化,深入探索组织协作文化。
|
数据采集 文字识别 数据安全/隐私保护
轻松抓取:用 requests 库处理企业招聘信息中的联系方式
本文详细介绍如何利用Python的`requests`库结合代理IP技术,突破Boss直聘的登录验证与反爬虫机制,抓取企业招聘信息中的联系方式。文章首先阐述了Boss直聘数据抓取面临的挑战,随后介绍了代理IP轮换、登录会话保持及请求头伪装等关键技术。通过一个完整的示例代码,展示了从配置代理、模拟登录到解析HTML获取联系方式的具体步骤。此方法不仅适用于Boss直聘,还可扩展至其他需登录权限的网站抓取任务。
1408 0
轻松抓取:用 requests 库处理企业招聘信息中的联系方式
|
JSON API 数据安全/隐私保护
【蓝桥杯Web】2022年第十三届蓝桥杯Web大学组国赛真题解析
【蓝桥杯Web】2022年第十三届蓝桥杯Web大学组国赛真题解析
|
并行计算 Ubuntu
ubuntu彻底卸载Nvidia显卡驱动
ubuntu彻底卸载Nvidia显卡驱动
2600 4