基于新标注模式的实体和关系联合抽取方法 | 每周一起读

简介:

Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme


实体和关系的联合抽取问题作为信息抽取的关键任务,其实现方法可以简单分为两类:一类是串联抽取方法。另一类是联合抽取方法。


串联抽取方法将该问题分解为两个串联的子任务,即先采用实体识别模型抽取实体,再采用关系抽取模型得到实体对之间的关系,其优势是便于单独优化实体识别任务和关系抽取任务,但缺点是它们以获取三元组的中间产物(实体或者关系类型)为目标,而实体识别的结果会进一步影响关系抽取的结果,导致误差累积。


不同于串联抽取方法,联合抽取方法使用一个模型同时抽取实体及其关系,能够更好的整合实体及其关系之间的信息。但现有的联合抽取方法也存在诸多问题,比如:大部分的联合抽取模型需要人工参与构建特征;基于 end to end 的联合抽取模型,因在模型实现过程中分开抽取实体及其关系而导致信息冗余等问题。


本文提出了一个新的模型框架来解决此类问题,并在公开数据集 NYT 上取得了很好的效果。


* 本文已被评为 ACL2017 Outstanding Paper


详细报道:

基于新标注模式的实体和关系联合抽取方法 | 论文访谈间 #07


阅读笔记精选




lizhili


为了解决目前关系抽取模型中的不足:1. 联合抽取实体以及关系的方法在进行特征抽取依赖 NLP 预处理工具可能带来的误差 2. 联合抽取模型抽取实体以及关系时虽然共享参数,实则还是采用简单模型各自进行抽取,实体识别工作会为关系抽取带来一定误差。


本文提出了一种端到端的基于序列标注的的方法进行关系抽取。本文主要贡献之处在于:1. 将联合抽取实体与关系抽取问题转换为序列标注问题 2. 采用端到端模型来解决序列标注问题 3. 使用了一个带有偏置损失函数(就是后文提到的目标函数)的端到端模型,用来增强相关的实体之间的联系。


在模型的具体实现部分


标注策略:1. 与抽取无关的词语采用“O” 2. 标注分为三个部分:单词在实体中起始终止位置、关系类型、关系角色。其中,用“BIES”(Begin, Inside, End, Single)表示位置;“1”“2”表示词语属于第几个实体;另外,在这篇文章中仅考虑某一实体属于一个三元组的可能;对于在同一句子中出现的几个三元组中出现关系类型相同的情况,采用了就近处理的策略。


端到端模型:encodeing:输入词向量,Bi-LSTM,输出特征表示。decoding:输入:从 encoding 部分得到的每个词语的特征表示,前项的预测标注,前项的隐含层的向量表示。


实验部分:采用远程监督 CoType 的数据集;和 pipeline、端到端模型以及不同序列标注模型(LSTM-CRF\LSTM-LSTM)进行对比;并且测试了文章提出的 loss function 对于抽取结果的影响。文章将端到端的联合抽取方法转换为序列标注问题确实是一个很新颖的思路,并且模型还可抽取出实体类型未知的三元组;但是对于抽取出来的未知的三元组认为是抽取错误,还是值得改进的地方。



rogerafh


相对于传统的 piplined 训练模型,本文采用了联合学习的方式,将实体发现和关系抽取两个任务联合在一起,并通过将该任务转换为标签标注任务(个人理解)。 结合我之前在知识表示学习的学习上来看,相对于远程监督方法,piplined 学习方法来说,联合学习可以减少前备任务(如关系抽取前的实体发现,融合文本的知识表示学习前的文本语义建模)所带来的训练误差和错误率,是现在融合多任务(多模型)的一个有效方法。



hanqichen


本文通过设计一套合理的标记模式,将信息抽取问题转化为一个序列标注问题。利用端到端的 encoder-decoder 框架,将实体抽取和关系抽取进行联合建模,一方面避免了 pipeline 方法带来的错误叠加,另一方面减少设计特征的人力工作。未来的工作主要在于目前只考虑一个实体属于一个三元组的情况,文中给出的解决方案是将输出层的 softmax 函数替换为一个多分类器。



Hinse


1. 本文提出一个端对端模型将实体发现任务和关系抽取任务转化为一个标注任务;


2. 设计 1 套标签并同时表示 2 个任务;


3. 模型 encoder + decoder ,输出层使用 softmax;


4. 目标函数区分 Other 和非 Other 分别计算 ML,通过预设权重让模型更注重非 Other 标签的准确率;


5. 我理解模型好处是两个任务共享了参数,可以得到有用信息。也减少了分开训练的错误积累;


6. 作者提到将来一个改进方向是把最后的 softmax 改成多分类器以实现多标签。 这样就可以实现一个实体的多关系抽取。



karis


本文提出了一种基于端到端序列标注的实体关系联合抽取方法。在 encoder-decoder 框架下,采用 bi-lstm 作为 encoder,lstm 作为 decoder,对每个词标注上 BIEM+关系类型+实体的序号。


语料和测试语料采用另外一个远程监督实体关系联合抽取的标注数据,关系类型有 24个,训练集有 353k 个三元组,测试集有 3880 三元组。最后比较了 3 组 9 个模型的结果,总得来说,联合抽取比 pipelind 的方法好,然后序列标注联合抽取要比其他联合抽取方法好(然而目前实体关系抽取任务的 F1 值仍然不到 0.5)。



LeoZhao


本文使用(sequence tagging 任务的 4 个记号)x(所有的 relation_type,这是 predefined 的,非自然语言的)构成分类标签集合。文章使用的目标函数中,位置(用于标记实体)和关系类型对错误的影响是一致的。这个需要再看看具体的例子, 直觉上实体判断错误的代价要比关系类型判断错误的代价要大。通过 bi-lstm 来编码句子信息,通过 LSTM 来生成分类结果。目前需要观察的是,该结构在位置和关系类型上的判断的错误率是否有较大差异。可以期待可解释性的提高。



qichenglin


本文的方法处理步骤: 


1. 提出一种新的标记模式将联合抽取任务转化成一个标记任务。 


2. 基于标记模式学习不同的端到端模型来直接抽取命名实体和关系,不需要分开识别命名实体和关系。


本文的方法并非开放域的关系抽取,关系词是从预定义的关系集里抽取的。传统的方法是 pipelined manner:先抽取实体,然后再识别它们的关系。这种方法忽略了这两个子任务之间的关系,实体识别的结果影响着关系抽取的性能。传统的 pipelined manner 的缺点就是会导致错误累加。



kaharjan


In this paper propose novel tagging scheme that jointly extract entities and relations. In this way extraction problem transformed into tagging task. In this method there would be no error propagation problem and could model triplet directly so that there would be no redundant information. However, this method could not handle triplet overlapping problem.



nancy


提出了一种新的标签格式能够将联合抽取工作转向成一个标签问题。基于新的标签格式,使用 LSTM-LSTM-Bias 模型来直接抽取实体和它们的关系,而不用分开辨别哪些是实体哪些是关系。在文中,只考虑了一对实体属于一种关系。另,针对同一句子中出现多个相同类型关系的实体们,采用相邻原则来标注实体。



veraLzz


贡献:提出了新的标注模式去联合抽取实体和关系。


优点:1. 联合抽取可以减轻错误传播:实体抽取的错误影响到关系抽取。2. 也避免了分开抽取造成的信息冗余。 


Future work:处理一个句子有多个 tuple,和一个实体在多个关系中出现的一对多的问题。


来源:paperweekly


原文链接

相关文章
|
存储 编解码 数据可视化
【Matplotlib】figure方法之图形的保存
【Matplotlib】figure方法之图形的保存
818 1
|
JavaScript 前端开发 Android开发
转换 ES6 代码时需要注意哪些兼容性问题
在转换ES6代码时,需关注兼容性问题,如箭头函数、模板字符串、let/const等语法在旧浏览器中的支持情况,以及模块化、类、Promise等特性是否需要polyfill。使用Babel等工具可有效解决大部分兼容性问题。
快递鸟/菜鸟电子面单接口的申请方法
电子面单是一种通过热敏纸打印输出纸质物流面单的物流服务。通过热感应显示文字,打印速度比传统针式打印速度提升4~6倍。电子面单以接口形式嵌入到自己的系统、网站上,可以在自己的平台操作打印电子面单。 一.电子面单接口类型及定义 快递电子面单接口:快递公司自己开发的电子面单服务, 商家使用必须快递公司上门做系统对接,使用一家快递则需要对接一次,比较麻烦,而且后期对接成本也较高。
|
分布式计算 Java 大数据
【大数据技术Hadoop+Spark】HDFS Shell常用命令及HDFS Java API详解及实战(超详细 附源码)
【大数据技术Hadoop+Spark】HDFS Shell常用命令及HDFS Java API详解及实战(超详细 附源码)
1259 0
|
存储 JSON 自然语言处理
数据标注工具 doccano | 命名实体识别(Named Entity Recognition,简称NER)
标注数据保存在同一个文本文件中,每条样例占一行且存储为json格式,其包含以下字段 • id: 样本在数据集中的唯一标识ID。 • text: 原始文本数据。 • entities: 数据中包含的Span标签,每个Span标签包含四个字段: • id: Span在数据集中的唯一标识ID。 • start_offset: Span的起始token在文本中的下标。 • end_offset: Span的结束token在文本中下标的下一个位置。 • label: Span类型。 • relations: 数据中包含的Relation标签,每个Relation标签包含四个字段: • id: (Span
828 0
|
开发工具 git 开发者
git rebase的使用
通过这些思维导图和分析说明表,您可以更直观地理解Git rebase的概念、用法和应用场景。希望本文能帮助您更高效地使用Git rebase,提高代码管理的效率和质量。
1194 17
|
监控 PHP Apache
优化 PHP-FPM 参数配置:实现服务器性能提升
优化PHP-FPM的参数配置可以显著提高服务器的性能和稳定性。通过合理设置 `pm.max_children`、`pm.start_servers`、`pm.min_spare_servers`、`pm.max_spare_servers`和 `pm.max_requests`等参数,并结合监控和调优措施,可以有效应对高并发和负载波动,确保Web应用程序的高效运行。希望本文提供的优化建议和配置示例能够帮助您实现服务器性能的提升。
716 3
|
JavaScript 前端开发 API
Vue 3+TypeScript项目实战:解锁vue-next-admin中的全局挂载对象接口,让跨组件共享变得高效而优雅!
【8月更文挑战第3天】在构建Vue 3与TypeScript及vue-next-admin框架的应用时,为提高多组件间共享数据或方法的效率和可维护性,全局挂载对象接口成为关键。本文通过问答形式介绍其必要性和实现方法:首先定义全局接口及其实现,如日期格式化工具;接着在`main.ts`中通过`app.config.globalProperties`将其挂载;最后在组件内通过Composition API的`getCurrentInstance`访问。这种方式简化了跨组件通信,增强了代码复用性和维护性。
242 0
|
存储 安全 数据安全/隐私保护
数据传输中遇到问题要怎么解决
在数据传输中遇到问题时,可采取多种解决方案:使用可靠协议(如HTTPS、SFTP)、创建冗余备份、数据压缩与加密、错误检测与纠错、优化网络性能、解决数据丢失、降低延迟、提高安全性及解决带宽瓶颈。这些措施有助于确保数据传输的稳定、安全与高效。
pyqt6 制作一个颜色调节器 02
本文介绍了如何使用PyQt6实现一个颜色调节器。首先创建了一个显示RGB颜色值变化的标签,然后通过三个旋钮(QDial)分别控制红、绿、蓝三种颜色的值,并在旋钮下方显示当前值。通过嵌套布局实现了旋钮和标签的排列,最终实现了颜色值的变化和显示。完整代码也一并提供。
281 0