利用HanLP计算中文词语语义相似度

简介:

HanLP官方GitHub地址
HanLP

在java项目中配置HanLP
推荐使用Maven方法
在poem.xml中加入以下代码

<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.3.3</version>


但是在AndroidStudio中,没有Maven,所以在build.gradle的dependencies中加入如下代码

compile "com.hankcs:hanlp:portable-1.3.3"
还可以下载jar包和data包,使用hanlp.properties进行手动配置
在 IntelliJ IDEA中进入file -> project structure,在Libraries中添加jar包

更改hanlp.properties中的首行,指向data包所在的位置

将hanlp.properties放在out -> production -> name目录下

调用HanLP
import com.hankcs.hanlp.dictionary.CoreSynonymDictionary;
只需要以上语句便可以使用HanLP

//使用hanlp计算语义距离
double[] numarray = new double[title_list.size()];

for (int i = 0; i < results.size(); i++) {
    for (int j = 0; j < title_list.size(); j++) {
        numarray[j] += CoreSynonymDictionary.similarity(results.get(i).name().toString(), title_list.get(j).toString());
    }
}

文章来源于citySouth的博客

相关文章
|
8月前
|
自然语言处理 Python
【Python自然语言处理】文本向量化的六种常见模型讲解(独热编码、词袋模型、词频-逆文档频率模型、N元模型、单词-向量模型、文档-向量模型)
【Python自然语言处理】文本向量化的六种常见模型讲解(独热编码、词袋模型、词频-逆文档频率模型、N元模型、单词-向量模型、文档-向量模型)
1429 0
|
8月前
|
机器学习/深度学习 移动开发 自然语言处理
基于BiLSTM-CRF模型的分词、词性标注、信息抽取任务的详解,侧重模型推导细化以及LAC分词实践
基于BiLSTM-CRF模型的分词、词性标注、信息抽取任务的详解,侧重模型推导细化以及LAC分词实践
基于BiLSTM-CRF模型的分词、词性标注、信息抽取任务的详解,侧重模型推导细化以及LAC分词实践
|
机器学习/深度学习 数据采集 存储
【英文文本分类实战】之四——词典提取与词向量提取
【英文文本分类实战】之四——词典提取与词向量提取
272 0
【英文文本分类实战】之四——词典提取与词向量提取
|
存储 BI C#
一个词语总结2022,你的是什么? | 2022 年度总结
2022马上即将过去。近期各种软件,各大平台也都发布自己专属的年度回忆录,我也抓住22年的最后一天的小尾巴,写一篇年终总结,向2022说再见吧~
194 0
一个词语总结2022,你的是什么? | 2022 年度总结
|
Java Maven Android开发
给定一个汉字句子,可以输出句子的读音。借鉴第三方库:pinyin4j 。
给定一个汉字句子,可以输出句子的读音。借鉴第三方库:pinyin4j 。
给定一个汉字句子,可以输出句子的读音。借鉴第三方库:pinyin4j 。
|
Python
Python编程:使用gensim对中文文本进行相似度计算
Python编程:使用gensim对中文文本进行相似度计算
181 0
|
机器学习/深度学习 自然语言处理 算法
NLP(2) | 中文分词分词的概念分词方法分类CRFHMM分词
NLP(2) | 中文分词分词的概念分词方法分类CRFHMM分词
180 0
NLP(2) | 中文分词分词的概念分词方法分类CRFHMM分词
|
Java C语言
文本和关键词相似度计算(切词、余弦相似度)JAVA实现
问题描述: 文本分类计算:假设文章类别分为多个类别,每个类别都有自己的关键词信息。如何给新的文本归类?如何修正每个类别的文章信息? 解决思路: 1、文本切词(IKAnalyzer开源):借助于开源切词工具对文本做切词(注:如果项目用到了ES,需要排包,否则,有lucene的jar包冲突)。 <dependency> <groupId>com.janeluo
2312 0
|
自然语言处理 算法 Java
基于CRF序列标注的中文依存句法分析器的Java实现
这是一个基于CRF的中文依存句法分析器,内部CRF模型的特征函数采用 双数组Trie树(DoubleArrayTrie)储存,解码采用特化的维特比后向算法。相较于《最大熵依存句法分析器的实现》,分析速度翻了一倍,达到了1262.8655 sent/s
3789 0
|
自然语言处理 算法 Java
HanLP 关键词提取算法分析详解
给定若干个句子,提取关键词。而TextRank算法是 graphbased ranking model,因此需要构造一个图,要想构造图,就需要确定图中的顶点如何构造,于是就把句子进行分词,将分得的每个词作为图中的顶点。
1618 0