SimpleAnlyzer|学习笔记

简介: 快速学习 SimpleAnlyzer

开发者学堂课程【Lucene 知识精讲与实战(上) SimpleAnlyzer】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/700/detail/12341


SimpleAnlyzer


SimpleAnlyzer 翻译过来是简单的分词器的意思,它的特点是:

把除字母以外的符号全部清除,对于字母,会把所有的字母变为小写,并且还会把数字去除,同样也不支持中文。

1.测试

在测试方法中对它进行测试。将测试代码进行复制,粘贴到测试类里面。

(1)请看以下代码:

/**

*简单分词器:不支持中文,将除了字母之外的所有符号全部去除,所有大写字母转换成小写字母,对于数字也会去除

*@throws Exception

*/

@Test

public void TestwhitespaceAnalyzer throws Exception{

//1.创建分词器,分析文档,对文档进行分词

Analyzer analyzer new WhitespaceAnalyzer ();

//2.创建 Directory 对象,声明索引库的位置

Directory directory = FSDirectory.open(Paths.get("E:\\dir"));

//3、创建 IndexwriteConfig 对象,写入索引需要的配置

IndexwriterConfig config = new IndexwriterConfig(analyzer);

//4.创建 Indexwriter 写入对象

Indexwriter indexwriter = new Indexwriter(directory,config);

/5.写入到索引库,通过 Indexwriter 添加文档对象 document

Document doc = new Document

doc.add(new TextField("name","vivo X238GB+128GB 幻夜蓝",Field.Store.YEs));

indexwriter.addDocument (doc);

//6.释放资源

indexwriter.close();

}

(2)把 look 小工具关闭,否则会占用磁盘,导致写入失败。

(3)把索引库中之前的数据清除,如图:

image.png

(4)执行测试代码,如图:

image.png

关于它的测试代码,和之前的是一样的,变化的只有使用的分词器。

(5)执行成功后打开 look 小工具,查看它的分词效果。如图:

image.png

可以看到,分成了四个词:幻夜蓝、x、vivo 和 gb 。在这里面没有出现数字并且也没有出现标点符号。

Document doc = new Document();

Doc.add(new TextField(“name”,”vivo,x23。 8GB=128GB; 幻夜蓝”,Field.Store.YES));

indexWriter.addDocument(doc);

对比分词前的原文:

①原文有加号,逗号等标点符号,而在分词后这些都被去掉了。

②它不支持中文,对中文没有进行切分词,中文全部是连成一块的。

③所有的大写字母都转换成了小写字母。

以上就是简单分词器的效果,接下来继续学习其他分词器。

相关文章
|
人工智能 监控 算法
AI计算机视觉笔记二十 八:基于YOLOv8实例分割的DeepSORT多目标跟踪
本文介绍了YOLOv8实例分割与DeepSORT视觉跟踪算法的结合应用,通过YOLOv8进行目标检测分割,并利用DeepSORT实现特征跟踪,在复杂环境中保持目标跟踪的准确性与稳定性。该技术广泛应用于安全监控、无人驾驶等领域。文章提供了环境搭建、代码下载及测试步骤,并附有详细代码示例。
1583 1
|
编译器 C语言 C++
C语言第三十二弹---自定义类型:联合和枚举
C语言第三十二弹---自定义类型:联合和枚举
|
存储 JSON 数据挖掘
Python科学计算:Pandas
Python科学计算:Pandas
202 0
|
Web App开发 安全 大数据
阿里云acp认证报名方法 阿里云acp认证考试相关答疑
云服务已经成为当前互联网技术的重点发展方向,在我国以阿里云为代表的云服务产业每年都在快速增长。这不仅提供了大量的就业岗位,也为从业人员打造了良好的职业发展道路。阿里云相对于其他厂商有更良好的生态圈,其上下游产业对于专业人员的需求量更大,因此持有阿里云认证的从业人员在就业上更具优势。今天就介绍阿里云acp认证报名方法,并回答一些考生关注的问题。
564 0
阿里云acp认证报名方法 阿里云acp认证考试相关答疑
|
移动开发 小程序 算法
友盟+冯成蹊:如何通过数据智能玩转私域流量新生态
流量三分天下的局面,催生了私域流量的诞生。从第三方数据流量监测角度观察,2020年,以及在未来几年内,在私域流量方面会出现什么样的趋势和新机会?友盟+统计分析产品总监冯成蹊,就“如何通过数据智能玩转私域流量新生态”进行了分享。
友盟+冯成蹊:如何通过数据智能玩转私域流量新生态
《我和PIC单片机:基于PIC18》——第3章 仿真 3.1 MPLAB SIM软件模拟器
本节书摘来自华章计算机《我和PIC单片机:基于PIC18》一书中的第3章,第3.1节,作者 高显生,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
2688 0
|
Oracle 网络协议 关系型数据库
|
2天前
|
数据采集 人工智能 安全