汉语言处理包 HanLP v1.3.5,新功能、优化与维护

简介:

HanLP v1.3.5 更新内容:

大幅优化CRF分词和二阶HMM分词,重构CharacterBasedGenerativeModelSegment

自定义词典支持热更新:#563 ,ngram模型支持热加载:#580

新增一个提高用户词典优先级的开关:#633

支持98年人民日报的复合词语料格式,如"[中央/n 人民/n 广播/vn 电台/n]nt"

开放TextRank关键词提取中的最大迭代次数参数:#577

为Term添加equal方法

TextRankKeyword 提取窗口相近词的强化

文本摘要方法支持自定义句子分隔符

提高AC自动机健壮性,添加hasKeyword接口

修复BinTrie.remove不存在的key时导致的问题:#540

解决mini模型下同时打开所有命名实体识别和数词识别时触发的问题:#542

CharTable.txt 添加上下标字符的对应关系

将“t”等不可打印的字符视作分隔符:#584

中文数词与阿拉伯数词切分开

修正全角年份识别中字符串长度错误,修正数字识别工具的错误,增加测试代码。支持读取包含BOM的文本文件。

校对CoreNatureDictionary.txt,删除以分号开头的错误词语:#221 (comment)

修复CoNLLWord中toString方法的bug

微调人名识别模型:#562 删除人名识别模型中的高频动词D标签,降低误命中率,音译人名识别取消外国地名触发

修复Nature.fromString和IOUtil.loadDictionary:#626

修正“还款”的拼音:#565 修正简繁一多对应校验表/梁→梁樑(樑為梁的異體字,由簡體轉為繁體時僅需採用梁即可):#606

数据包依然兼容data-for-1.3.3.zip: 国内网盘 或 海外連結 md5=71f6fbbcde4ad70b5b97d4a01ca03c3c
获取最新版的数据包,请fork一份并git clone https://github.com/YourName/HanLP.git

Portable版同步升级到v1.3.5

    <dependency>
        <groupId>com.hankcs</groupId>
        <artifactId>hanlp</artifactId>
        <version>portable-1.3.5</version>
    </dependency>

HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

在提供丰富功能的同时,HanLP内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布,使用非常方便,同时自带一些语料处理工具,帮助用户训练自己的模型。

文章来源于网络

相关文章
|
8月前
|
搜索推荐 Go 开发者
Go模块与依赖管理:构建稳定、可维护的项目生态
【2月更文挑战第9天】Go模块是Go语言从1.11版本开始引入的一个新的依赖管理工具,它改变了以往通过GOPATH管理项目依赖的方式,为Go开发者带来了更加灵活、高效的依赖管理方式。本文将深入探讨Go模块与依赖管理的概念、使用方法和最佳实践,帮助读者更好地理解和应用Go模块,构建稳定、可维护的项目生态。
|
前端开发 JavaScript 搜索推荐
Vite多环境配置:让项目拥有更高定制化能力
业务背景 近些年来,随着前端工程架构发展,使得前端项目中也能拥有如后端工程的模块能力。今天我们就来聊下如何在`Vite`中实现一套拓展能力强的多环境适配方案。
Vite多环境配置:让项目拥有更高定制化能力
|
5天前
|
存储 数据库 对象存储
新版本发布:查询更快,兼容更强,TDengine 3.3.4.3 功能解析
经过 TDengine 研发团队的精心打磨,TDengine 3.3.4.3 版本正式发布。作为时序数据库领域的领先产品,TDengine 一直致力于为用户提供高效、稳定、易用的解决方案。本次版本更新延续了一贯的高标准,为用户带来了多项实用的新特性,并对系统性能进行了深度优化。
16 3
|
5月前
|
人工智能 自然语言处理 前端开发
LangChain 构建问题之MetaGPT 和 ChatDev 的支持功能差异如何解决
LangChain 构建问题之MetaGPT 和 ChatDev 的支持功能差异如何解决
99 0
【阅读3.8w,收藏2000次】97页《Python自动化办公文档》,让您的 “办公效率” 提高100倍,拿走即用!
【阅读3.8w,收藏2000次】97页《Python自动化办公文档》,让您的 “办公效率” 提高100倍,拿走即用!
【阅读3.8w,收藏2000次】97页《Python自动化办公文档》,让您的 “办公效率” 提高100倍,拿走即用!
|
人工智能 自然语言处理 数据可视化
版本动态 | SolidUI 0.2.0 版本发布
版本动态 | SolidUI 0.2.0 版本发布 一句话生成任何图形
106 0
版本动态 | SolidUI 0.2.0 版本发布
|
自然语言处理 Kubernetes 数据可视化
版本动态 | SolidUI 0.3.0 版本发布
版本动态 | SolidUI 0.3.0 版本发布
73 0
|
开发工具 数据安全/隐私保护 git
团队开发注意事项
团队开发注意事项
|
SQL 前端开发 测试技术
版本动态 | SolidUI 0.1.0 版本发布
项目地址:https://github.com/CloudOrc/SolidUI
123 0
|
算法 JavaScript PHP
技术文档 | OpenSCA技术原理之composer依赖解析
本文主要介绍基于composer包管理器的组件成分解析原理。
129 0
技术文档 | OpenSCA技术原理之composer依赖解析

热门文章

最新文章