Python大数据:jieba分词,词频统计
实验目的
学习如何读取一个文件
学习如何使用DataFrame
学习jieba中文分词组件及停用词处理原理
了解Jupyter Notebook
概念
中文分词
在自然语言处理过程中,为了能更好地处理句子,往往需要把句子拆开分成一个一个的词语,这样能更好的分析句子的特性,这个过程叫就叫做分词。
中文分词工具比较
五款中文分词工具的比较,尝试的有jieba,SnowNLP,thulac(清华大学自然语言处理与社会人文计算实验室),StanfordCoreNLP,pyltp(哈工大语言云),环境是Win10,anaconda3.
如何用 ANTLR 4 实现自己的脚本语言?
ANTLR 是一个 Java 实现的词法/语法分析生成程序,目前最新版本为 4.5.2,支持 Java,C#,JavaScript 等语言,这里我们用 ANTLR 4.5.2 来实现一个自己的脚本语言。
HanLP Analysis for Elasticsearch
基于 HanLP 的 Elasticsearch 中文分词插件,核心功能:
兼容 ES 5.x-7.x;
内置词典,无需额外配置即可使用;
支持用户自定义词典;
支持远程词典热更新(待开发);
内置多种分词模式,适合不同场景;
拼音过滤器(待开发);
简繁体转换过滤器(待开发)。
日志服务索引设置
日志服务提供通过关键字全文查询功能,通过合理的设置,可以更高效进行日志内容检索