**中文分词(Chinese Word Segmentation) **指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。
目录
常见的分词系统介绍
- ICTCLAS(NLPIR)
- MMSEG4J
- IK Analyzer
- LTP-cloud
- paoding
常见的分词系统简介
ICTCLAS
简介
ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),又称NLPIR,是中国科学院计算技术研究所研制的汉语分词系统。
主要功能包括:
- 中文分词;
- 词性标注;
- 命名实体识别;
- 用户词典功能;
支持GBK编码、UTF8编码、BIG5编码;
支持Windows,Linux,Android等操作系统;
支持Java/C++/C#/C等开发。
在线演示
中文分词
实体抽取
词频统计
MMSEG4J
**mmseg4j core ** 使用 Chih-Hao Tsai 的 MMSeg 算法实现的中文分词器。
实现了 **Lucene **的 analyzer 和 **Solr **的 TokenizerFactory 以方便在Lucene和Solr中使用。
MMSeg 算法有两种分词方法:Simple和Complex,都是基于正向最大匹配。Complex 加了四个规则过滤。
官方说:词语的正确识别率达到了 98.41%。mmseg4j 已经实现了这两种分词算法。
Lucene简介
*Lucene是一个非常优秀的开源的全文搜索引擎; 我们可以在它的上面开发出各种全文搜索的应用来。Lucene在国外有很高的知名度; 现在已经是Apache的顶级项目 *
Sorl简介
Solr is the popular, blazing-fast, open source enterprise search platform built on Apache Lucene™
Solr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器。同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面,是一款非常优秀的全文搜索引擎。
参考链接:
mmseg4j-core from Github
中文分词器 mmseg4j
IK Analyzer
IK Analyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包。
从2006年12月推出1.0版开始, IKAnalyzer已经推出了4个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。从3.0版本开始,IK发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现,并且支持solr6.x版本。在2012版本中,IK实现了简单的分词歧义排除算法,标志着IK分词器从单纯的词典分词向模拟语义分词衍化。
IK Analyzer 2012特性:
采用了特有的“正向迭代最细粒度切分算法“,支持细粒度和智能分词两种切分模式;
在系统环境:Core2 i7 3.4G双核,4G内存,window 7 64位, Sun JDK 1.6_29 64位 普通pc环境测试,IK2012具有160万字/秒(3000KB/S)的高速处理能力。
2012版本的智能分词模式支持简单的分词排歧义处理和数量词合并输出。
采用了多子处理器分析模式,支持:英文字母、数字、中文词汇等分词处理,兼容韩文、日文字符
优化的词典存储,更小的内存占用。支持用户词典扩展定义。特别的,在2012版本,词典支持中文,英文,数字混合词语。
LTP cloud(语言云)
语言云是哈工大和科大讯飞联合研发的云端中文自然语言处理服务平台,提供分词、词性标注、命名实体识别、依存句法分析、语义角色标注等自然语言处理服务。
在线演示
样例:他叫汤姆去拿外衣。
他点头表示同意我的意见。
我们即将以昂扬的斗志迎来新的一年。
国内专家学者40余人参加研讨会。
句子视图
篇章视图
paoding(庖丁解牛分词器)
庖丁中文分词器是一个使用Java开发的,可结合到Lucene应用中的,为互联网、企业内部网使用的中文搜索引擎分词组件。Paoding填补了国内中文分词方面开源组件的空白,致力于此并希翼成为互联网网站首选的中文分词开源组件。 Paoding中文分词追求分词的高效率和用户良好体验。
Paoding's Knives 中文分词具有极 高效率 和 高扩展性 。引入隐喻,采用完全的面向对象设计,构思先进。
高效率:在PIII 1G内存个人机器上,1秒 可准确分词 100万 汉字。
采用基于 不限制个数 的词典文件对文章进行有效切分,使能够将对词汇分类定义。
能够对未知的词汇进行合理解析
参考链接:
中文分词库 Paoding