备案控制台

开发者社区开发与运维文章正文

利用HanLP计算中文词语语义相似度

2018-11-03 3366

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

HanLP官方GitHub地址
HanLP

在java项目中配置HanLP
推荐使用Maven方法
在poem.xml中加入以下代码

<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.3.3</version>

但是在AndroidStudio中，没有Maven，所以在build.gradle的dependencies中加入如下代码

compile "com.hankcs:hanlp:portable-1.3.3"
还可以下载jar包和data包，使用hanlp.properties进行手动配置
在 IntelliJ IDEA中进入file -> project structure，在Libraries中添加jar包

更改hanlp.properties中的首行，指向data包所在的位置

将hanlp.properties放在out -> production -> name目录下

调用HanLP
import com.hankcs.hanlp.dictionary.CoreSynonymDictionary;
只需要以上语句便可以使用HanLP

//使用hanlp计算语义距离
double[] numarray = new double[title_list.size()];

for (int i = 0; i < results.size(); i++) {
    for (int j = 0; j < title_list.size(); j++) {
        numarray[j] += CoreSynonymDictionary.similarity(results.get(i).name().toString(), title_list.get(j).toString());
    }
}

文章来源于citySouth的博客

文章标签：

Java

Python

Maven

蓝天白芸朵

目录

相关文章

热烈的马

|

8月前

|

自然语言处理 Python

【Python自然语言处理】文本向量化的六种常见模型讲解（独热编码、词袋模型、词频-逆文档频率模型、N元模型、单词-向量模型、文档-向量模型）

【Python自然语言处理】文本向量化的六种常见模型讲解（独热编码、词袋模型、词频-逆文档频率模型、N元模型、单词-向量模型、文档-向量模型）

热烈的马

1429 0 0

汀丶人工智能

|

8月前

|

机器学习/深度学习移动开发自然语言处理

基于BiLSTM-CRF模型的分词、词性标注、信息抽取任务的详解，侧重模型推导细化以及LAC分词实践

基于BiLSTM-CRF模型的分词、词性标注、信息抽取任务的详解，侧重模型推导细化以及LAC分词实践

汀丶人工智能

115 0 0

基于BiLSTM-CRF模型的分词、词性标注、信息抽取任务的详解，侧重模型推导细化以及LAC分词实践

征途黯然。

|

机器学习/深度学习数据采集存储

【英文文本分类实战】之四——词典提取与词向量提取

【英文文本分类实战】之四——词典提取与词向量提取

征途黯然。

272 0 0

【英文文本分类实战】之四——词典提取与词向量提取

陈言必行

|

存储 BI C#

一个词语总结2022，你的是什么？ | 2022 年度总结

2022马上即将过去。近期各种软件，各大平台也都发布自己专属的年度回忆录，我也抓住22年的最后一天的小尾巴，写一篇年终总结，向2022说再见吧~

陈言必行

194 0 0

一个词语总结2022，你的是什么？ | 2022 年度总结

游客kqqcexmiur45e

|

Java Maven Android开发

给定一个汉字句子，可以输出句子的读音。借鉴第三方库：pinyin4j 。

给定一个汉字句子，可以输出句子的读音。借鉴第三方库：pinyin4j 。

游客kqqcexmiur45e

198 0 0

给定一个汉字句子，可以输出句子的读音。借鉴第三方库：pinyin4j 。

码农技术君

|

Python

Python编程：使用gensim对中文文本进行相似度计算

Python编程：使用gensim对中文文本进行相似度计算

码农技术君

181 0 0

DrugAI

|

机器学习/深度学习自然语言处理算法

NLP(2) | 中文分词分词的概念分词方法分类CRFHMM分词

NLP(2) | 中文分词分词的概念分词方法分类CRFHMM分词

DrugAI

180 0 0

NLP(2) | 中文分词分词的概念分词方法分类CRFHMM分词

sk_zard

|

Java C语言

文本和关键词相似度计算（切词、余弦相似度）JAVA实现

问题描述：文本分类计算：假设文章类别分为多个类别，每个类别都有自己的关键词信息。如何给新的文本归类？如何修正每个类别的文章信息？解决思路： 1、文本切词（IKAnalyzer开源）：借助于开源切词工具对文本做切词（注：如果项目用到了ES，需要排包，否则，有lucene的jar包冲突）。 <dependency> <groupId>com.janeluo

sk_zard

2312 0 0

大数据资讯

|

自然语言处理算法 Java

基于CRF序列标注的中文依存句法分析器的Java实现

这是一个基于CRF的中文依存句法分析器，内部CRF模型的特征函数采用双数组Trie树(DoubleArrayTrie)储存，解码采用特化的维特比后向算法。相较于《最大熵依存句法分析器的实现》，分析速度翻了一倍，达到了1262.8655 sent/s

大数据资讯

3789 0 0

大数据资讯

|

自然语言处理算法 Java

HanLP 关键词提取算法分析详解

给定若干个句子，提取关键词。而TextRank算法是 graphbased ranking model，因此需要构造一个图，要想构造图，就需要确定图中的顶点如何构造，于是就把句子进行分词，将分得的每个词作为图中的顶点。

大数据资讯

1618 0 0

热门文章

最新文章

securecrt克隆会话与sshd 的 MaxSessions

阿里云学生服务器优惠购买入口

GitHub 宣布正式收购 npm | 云原生生态周报 Vol. 42

“2016首届北森用户生态大会”携你探寻人才管理的新生态

贵州邮政：IMO班聊让内部沟通信息跳涨10万+

Android的界面设计工具 DroidDraw

使用Android Studio创建第一个Hello World应用程序

C# 结构（很少能用到）

[BoUML]生成代码

Tsung: A open-source, multi-protocol, distributed load testing tool

《探寻开源AI项目的资金密码：可持续运营之路》

《开源数据：点燃人工智能在自然语言处理与计算机视觉领域的突破引擎》

《开源算法：人工智能领域的双刃剑》

《深度剖析：开源与闭源模型，AI舞台上的不同角色》

《解锁数据新动能：数据标注工具与AI模型训练平台的无缝对接热潮》

为了提升运维工程师及开发者

吴恩达2024 AI总结 | AI大咖说

招行面试：高并发写，为什么不推荐关系数据？

基于QLearning强化学习的较大规模栅格地图机器人路径规划matlab仿真

《docker基础篇：6.本地镜像发布到私有库》包括本地镜像发布到私有库流程、docker regisry是什么、将本地镜像推送到私有库

相关课程

更多

【医学搜索Query相关性判断】赛题及baseline解读

相关电子书

更多

《Proxima：多模态向量检索引擎》

低代码开发师（初级）实战教程

阿里巴巴DevOps 最佳实践手册

下一篇

DataWorks智能交互式数据开发与分析之旅