ACL2022-HiCLRE: A Hierarchical Contrastive Learning Framework for Distantly Supervised Relation Extraction
论文:https://aclanthology.org/2022.findings-acl.202.pdf
代码:https://github.com/MatNLP/HiCLRE
期刊/会议:ACL 2022
摘要
远程监督假设任何包含相同实体对的句子都反映了相同的关系。先前的远程监督关系抽取(DSRE)任务通常独立地关注sentence-level或bag-level去噪技术,忽略了跨级别的显式交互。在本文中,我们提出了一种用于远程监督关系抽取的分层对比学习框架(HiCLRE),以减少有噪声的句子,该框架集成了全局结构信息和局部细粒度交互。具体而言,我们提出了一个三级分层学习框架来与跨级别交互,通过调整现有的多头自注意来生成去噪上下文感知表示,称为Multi-Granularity Recontextualization。同时,还通过基于动态梯度的数据增强策略,即动态梯度对抗性扰动,在特定级别提供伪正样本用于对比学习。实验表明,在各种主流DSRE数据集中,HiCLRE显著优于强基线。
1、简介
远监督关系抽取(DSRE)通过自动生成训练文本样例来解决数据标注开销、稀疏的问题。但是DSRE会引来噪声数据,可能会损失模型的性能。为此多实例学习(MIL)被提出,用于分配”至少一个“正确的关系三元组的bag。
先前的DSRE主要分为:sentence-level和bag-level。sentence-level和bag-level在实体级别上提供了大量的语义信息,如图1所示。不同的bag-level存在语义信息具有很大的差距。
为了克服上述挑战,我们提出了一种用于远程监督关系抽取(HiCLRE)的分层对比学习框架,该框架有助于在特定级别和跨级别内进行语义交互:
(1)Multi-Granularity Recontextualization:为了捕获跨级别的结构信息,我们将多头自注意机制调整为三级粒度,包括entity-level、sentence-level和bag-level。我们将每一层的上下文内容特征分别与注意力机制的输入对齐。通过由其他两个级别聚合的注意力得分,为相应级别挑选作为重新文本化交互语义的精细表示。
(2) 动态梯度对抗性扰动:为了获得更准确的特定水平表示,我们使用基于梯度的对比学习(Hadsell et al,2006;van den Oord et al,2018)来抽取构建的伪正样本的信息,并推送负样本的差异。具体地,我们从两个方面计算了动态扰动,包括任务损失的归一化梯度和上一个和当前轮次之间的时间加权记忆相似性。
本文的主要贡献:
- 我们提出了一种用于DSRE任务的分层对比学习框架(HiCLRE),该框架充分利用了特定级别和跨级别内的语义交互,减少了噪声数据的影响。
- 提出了Multi-Granularity Recontextualization来增强跨级别交互,并且动态梯度对抗性扰动在三个特定级别内学习更好的表示。
- 大量实验表明,我们的模型优于DSRE数据集的强基线,详细分析表明这些模块也是有效的。
2、相关工作
2.1 远监督的关系抽取
可以分为两个类别:人工设计的特征、神经网络表示。
2.2 对比学习
损失函数:NCE,通过概率密度函数区分干净样本和噪声样本。InfoNCE,在NCE的基础上加入手工特征,最大化相似和最小化区别。
数据增强:简单文本处理的数据增强,EDA(同义词替换,随即插入,随即删除),CIL(使用TF-IDF去插入/替换实例中不重要的词,构建正样本)。嵌入处理的数据增强,ConSBRT,SimCSE。外部知识的数据增强,ERICA。
这些数据增强方法都是在数据层面,忽略了模型训练过程中的影响。本文提出的模型能捕捉全局结构信息,在不同层级内进行交互微调。
3、方法
3.1 模型总览
模型的整体结构如图2所示,HiCLRE主要包含两个部分:Multi-Granularity Recontextualization旨在整合跨级别的重要性,以确定在目标级别中应该抽取哪些有价值的表示。Dynamic Gradient Adversarial Perturbation针对特定级别,提出了通过构造伪正样本来增强内部语义的方法。
3.2 分层学习建模
3.2.2 bag表示
3.3 Multi-Granularity Recontextualization
上述分层学习过程忽略了跨级别的显式交互,以细化更好级别的表示。因此,在更新了PLM生成的隐藏表示之后,我们的HiCLRE模型试图对每个级别的增强表示进行重新文本化。这是使用修改的Transformer层(Vaswani et al,2017)实现的,该层在目标层级和其他两个层级的表示之间用多头注意力代替多头自注意力。
多头注意力机制被定义为:
3.4 动态梯度对抗性扰动
3.4.1 梯度扰动
持续的梯度扰动p t a d v 将从被具有任务损失参数V 的梯度g 计算。
3.5 训练目标
总的训练目标将遵循:
4、实验
6、总结
在本文中,我们提出了HiCLRE,一种用于远程监督关系抽取的分层对比学习框架。HiCLRE的Multi-Granularity Recontextualization模块利用多头自注意机制,在三个层次上传输信息。动态梯度对抗性扰动模块将梯度扰动与惯性记忆信息相结合,为对比学习构建更好的伪正样本。实验表明,在各种DSRE数据集中,HiCLRE对强基线模型的有效性。