RCEE: Event Extraction as Machine Reading Comprehension 论文解读

简介: 事件提取(Event extraction, EE)是一项重要的信息提取任务,旨在提取文本中的事件信息。以前的EE方法通常将其建模为分类任务,这些任务需要大量数据,并且存在数据稀缺问题。在本文中,我们提出了一种新的EE学习范式,将其明确地转换为机器阅读理解问题(MRC)。

RCEE: Event Extraction as Machine Reading Comprehension



论文:Event Extraction as Machine Reading Comprehension (aclanthology.org)


代码:jianliu-ml/EEasMRC (github.com)


期刊/会议:EMNLP 2020


摘要


事件提取(Event extraction, EE)是一项重要的信息提取任务,旨在提取文本中的事件信息。以前的EE方法通常将其建模为分类任务,这些任务需要大量数据,并且存在数据稀缺问题。在本文中,我们提出了一种新的EE学习范式,将其明确地转换为机器阅读理解问题(MRC)。我们的方法包括一个无监督的问题生成过程,它可以将事件模式转换为一组自然问题,然后是一个基于BERT的问题回答过程,以检索作为EE结果的答案。这种学习范式使我们能够通过在MRC中引入复杂的模型来加强EE的推理过程,并通过在MRC中引入大规模的数据集来缓解数据稀缺问题。实证结果表明:i)我们的方法比以前的方法获得了最先进的性能。ii)我们的模型在数据稀缺的情况下表现出色,例如,在只有1%的数据提取事件论元得到49.8%F1,而之前的方法为2.2%的F1。iii)我们的模型也适用于零样本场景,在不使用任何EE训练数据的情况下,在两个数据集上实现了37.0%和16%的F1。


1、简介


事件提取(Event extraction, EE)是一项重要的信息提取任务,旨在提取文本中的事件信息。例如,在句子S1中(如图1 (a)所示),EE系统应该识别攻击(Attack)事件,该事件由一个事件触发词 stabbed 表示,该事件触发词带有四个事件论元——Sunday (Role=Time)、一个 protester(Role=Attacker)、一个officer(Role=Target)和一个paper cutter(Role=Instrument)。EE被证明有利于广泛的应用,包括知识库增强,文档摘要、问题回答(Berant et al, 2014)等。


ffb916792a7e47829f060ebc837e26ee.png


在目前的研究中,EE主要被表述为一个分类问题,旨在定位和分类每个事件触发词/论元(Ahn, 2006;Li等,2013;Chen等,2015;Nguyen等人,2016)。尽管有很多进步,但基于分类的方法是数据饥饿的,需要大量的训练数据来确保良好的性能(Chen et al, 2017;Li等,2013;Liu等,2018a)。此外,这种方法通常不能处理训练期间从未遇到的新事件类型(Huang et al, 2018)。


在本研究中,我们引入了一种新的EE学习范式,为同时解决上述问题提供了思路。我们的主要动机是,从本质上讲,EE可以被视为机器阅读理解(MRC)问题(Hermann等人,2015;Chen et al, 2016)涉及文本理解和匹配,旨在发现文本中特定事件的信息。例如,在S1中,对Instrument角色填充符的提取在语义上等价于以下问答过程(如图1 (b)所示):


Q1:What Instrument did the protester use to stab the officer? A1: a paper cutter.


这意味着解决EE的新方法,这有两个主要优势:首先,通过将EE作为MRC,我们可以利用MRC的最新进展(例如,BERT (Devlin et al, 2019))来增强EE任务,这可能会极大地加强模型中的推理过程。其次,我们可以直接利用丰富的MRC数据集来提高EE,这可能会缓解数据稀缺问题(这被称为跨域数据增强)。第二个优势也为零样本EE打开了一扇门:对于不可见的事件类型,我们可以列出定义其模式的问题,并使用MRC模型来检索作为EE结果的答案,而不是预先为它们获取训练数据。


为了连接MRC和EE,关键的挑战在于生成描述事件方案的相关问题(例如,为Instrument生成Q1)。请注意,我们不能采用有监督的问题生成方法(Duan等人,2017;袁等,2017;Elsahar等人,2018),因为缺乏对齐的问题-事件对。以往连接MRC和其他任务的工作通常采用人工设计的模板(Levy et al, 2017;FitzGerald et al, 2018;Li et al, 2019b,a;Gao等,2019;Wu等人,2019)。例如,在QA-SRL (FitzGerald et al, 2018)中,谓词pbulish的问题始终是“Who published something?”,不管上下文如何。这样的问题可能不足以指示MRC模型找到答案。


我们通过提出一个无监督的问题生成过程来克服上述挑战,该过程可以生成既相关又依赖于上下文的问题。具体来说,在我们的方法中,我们假设每个问题可以分解为两个部分,分别反映查询主题和上下文相关的信息。例如,Q1可以分解为“What instrument”和“did the protester use to stab the officer?”为了生成查询主题表达式,我们设计了一种基于模板的生成方法,结合角色分类和疑问词实现。为了生成更具挑战性的上下文依赖表达式,我们将其制定为无监督翻译任务(Lample等人,2018b)(或风格转移(Prabhumoye等人,2018)),它基于领域内去噪自动编码(Vincent等人,2008)和跨域反向翻译(Sennrich等人,2016)将描述性语句转换为问题风格表达式。请注意,训练过程只需要大量的描述性陈述和未对齐的问题式陈述。最后,在生成问题后,我们构建一个基于BERT的MRC模型(Devlin et al, 2019)来回答每个问题,并将所有答案综合为EE的结果。


为了评估我们的方法,我们在基准EE数据集上进行了大量的实验,实验结果证明了我们方法的有效性。具体来说,1)在标准评估中,我们的方法达到了最先进的性能,并优于之前的EE方法(§4.2)。2)在低数据的情况下,我们的方法展示了有希望的结果,例如,在使用1%的训练数据实现了49.8%的F1,而之前的EE方法仅为2.2%F1(§4.3)。3)我们的方法也适用于零样本场景,在不使用任何EE训练数据的情况下,在两个数据集上实现了37.0%和16.6%的F1(§4.4)。


我们的贡献如下:


  • 我们研究了EE的一个新范式,通过明确地将其框定为MRC问题。我们表明,这种新的范式可以通过利用MRC领域的模型和数据来提高情感表达。我们的工作可能会鼓励更多研究MRC迁移学习的工作,以促进信息提取。


  • 我们提出了一种无监督的问题生成方法来连接MRC和EE。与以往使用模板生成问题的工作相比,我们的方法可以生成既与主题相关又与上下文相关的问题,从而更好地指导MRC模型进行问题回答。


  • 我们报告基准EE数据集的最新性能。我们的方法在处理低数据和零样本场景时也显示了有希望的结果。


2、相关工作


事件抽取:EE是一项重要的IE任务,旨在从文本中提取事件信息,已引起了研究者的广泛关注。传统的EE方法采用手工设计的特征,如句法特征(Ahn, 2006)、文档级特征(Ji和griishman, 2008)、实体级特征(Hong等人,2011)和其他特征(Liao和griishman, 2010;Li et al, 2013)。最近的EE方法采用神经模型,如卷积神经网络(Chen等人,2015),循环神经网络(Nguyen等人,2016;Sha等人,2018),图卷积神经网络(Liu等人,2018b, 2019b),以及其他高级架构(Yang和Mitchell, 2016;刘等,2018a, 2019a;Nguyen and Nguyen, 2019;Zhang等,2019)。尽管有很多进步,如简介中提到的,以前的大多数方法将EE作为一个分类问题来表述,通常会遇到数据稀缺的问题,通常无法处理训练时从未见过的新事件类型。


其他任务的MRC。我们的工作还涉及连接MRC和其他任务的工作,例如关系提取(Levy等人,2017;Li等人,2019b),语义角色标注(FitzGerald等人,2018),命名实体识别(Li等人,2019a),以及其他(Wu等人,2019;Gao等人,2019)。特别是,Du和Cardie(2020)采用了类似的想法将EE框定为MRC。但与我们的工作不同的是,上述大多数方法(Levy et al, 2017;Li et al, 2019b;菲茨杰拉德等人,2018;Du和Cardie, 2020)采用人为设计的、与上下文无关的问题,这些问题可能无法为问题回答提供足够的上下文证据。有些作品确实不采用提问式查询(Li et al, 2019a;Gao等人,2019)。例如,Li等人(2019a)使用“Find organization in the text”作为查询命令查找Organization实体。这种非自然的“查询”和MRC数据集中的自然问题之间的差异可能会阻碍从MRC到任务的有效迁移学习。相比之下,我们的工作旨在通过无监督问题生成方法生成相关和上下文相关的问题。


3、我们的方法


我们的方法由RCEE(Reading Comprehension for Event Extraction)表示,如图2所示。具体来说,给定一个句子S 1, RCEE在接收到一个特殊查询“[Event]”时,首先确定一个事件触发词“stabbed”及其事件类型“Attack”。其次,RCEE为攻击事件模式对应的每个语义角色生成一个问题。第三,RCEE建立MRC模型,作为事件论元提取来回答每个问题。最后,RCEE将所有答案综合为EE的最终结果。


d451a05a1ba346c8a2e6afed8a3f2698.png


RCEE的技术细节如下。在图中,我们将一个句子表示为c = { c 1 , … , c n } ,并将图构造为事件触发词提取、无监督问题生成、事件论元提取和RCEE的训练过程。


3.1 事件触发词抽取


要提取事件触发词,我们使用“[event]”作为特殊的查询命令,表示查找texts中的所有事件触发词。原因是事件触发词通常是动词,很难为它们设计问题。还要注意,这个特殊的查询命令启用事件触发词和论元提取共享相同的编码模型。


接下来,我们采用基于分类(而不是基于span的方法)的触发词提取,考虑到大多数触发词(ACE中超过95%)是单个单词,基于span的答案生成可能过于繁重。具体来说,我们首先将“[EVENT]”与句子c cc联合编码,以计算一个编码的表示(详情请参阅§3.3)。然后,对于c 中的每个词c i ,我们将其编码表示作为逻辑回归模型的输入,并计算一个包含不同事件类型概率的向量o c i  。最后,c i的第l个事件类型的概率为p ( l ∣ c i ) = image.png ,这是o c i 的第l 个元素。


3.2 无监督的问句生成


触发词提取后,RCEE根据预测的事件类型生成一组问题。在这里,我们假设每个问题可以组合为:1)查询主题,它反映了问题的相关性;2)问题风格的事件语句,它编码了上下文相关的信息。


8e9ea7fd7b54486380ac83c011b03105.png


主题问题的生成。我们设计了基于模板的查询主题生成方法。注意,为了使疑问句足够自然,我们应该考虑不同的疑问句对应不同的语义角色。例如,语义角色Time的查询主题可能是“When […],而对于Attacker则可能是“Who[…]”。基于上述动机,我们首先将语义角色分成不同的类别,然后为每个类别设计不同的模板。表1显示了ACE 2005事件本体的分类(即与时间相关、与地点相关、与人员相关和一般角色)和模板。从表中可以看出,为Victim生成的查询主题是“Who is the Victim”。


image.png


q s x 与预先生成的查询主题连接以生成最终的问题。


3.3 事件论元抽取


然后,RCEE使用基于BERT的MRC模型执行事件论元提取作为问题回答。设问题q = { q 1 , … , q m } 。


学习输入的表征。我们首先将q 和c联合编码以学习输入表示,通过构造一个序列“[CLS] q [SEP] c”作为BERT的输入。为了进一步增强表示,我们设计了一种新的嵌入,单词共享嵌入,作为BERT的输入,动机是q 和c的共享单词更容易传达事件信息。具体来说,单词w i (在q 或c中)的共享词嵌入为:


image.png


其中W s t a r t , W e n d ∈ R 2 d 4 × 1 为模型参数。然后,我们将特殊token“[SEP]”作为“无答案”指标,只使用概率高于“[SEP]”的开始/结束位置来构造候选答案。我们采用i)开始/结束索引的相对位置、长度约束和似然阈值δ等几种启发式方法来过滤非法答案。新的算法可以为一个问题生成0个或多个答案。此外,当实体信息已知时(许多方法都采用此设置(Chen et al, 2015;Nguyen et al, 2016)),我们进一步采用黄金实体强化(golden entity refinement),它强制要求答案与标注实体具有相同的边界。


a85b473af44b47fab550611e12049e25.png


3.4 训练


为了训练RCEE,我们采用预训练后微调的策略,可以使用MRC和EE的数据集联合训练一个模型。


预训练阶段。在预训练阶段,我们在MRC数据集上训练RCEE,损失如下:


image.png


<c,q,a>指的是由上下文c 、查询q和答案a组成的MRC示例;P ( a ∣ c , q ) 表示给定c 和q 的ground-truth答案的可能性,定义为:


image.png


微调阶段。在微调阶段,我们在EE数据集上训练RCEE,损失如下:


image.png


其中e 在每个事件实例上;w e 表示的触发词e ;g e 为e的事件类型;A r g ( e ) 指定g e 的角色集;r在每个规则上的范围。我们采用Adam (Kingma and Ba, 2014)来更新RCEE的参数。


4、实验


4.1 实验设置


数据集和评估指标:ACE 2005数据集,根据之前的工作,我们将数据集分为训练集、验证集和测试集(Li et al, 2013;Chen等,2015;Yang and Mitchell, 2016),我们还采用了precision §、recall ®和F1-score (F1)作为评价指标,以确保可比性。采用Yeh(2000)提出的方法进行显著性检验,显著性水平p = 0.05。


实施细节:我们采用具有24层、1024个隐藏单元和16个注意头的BERT-Large作为我们的MRC模型。其他超参数通过网格搜索在验证集上进行调优。其中,单词共享嵌入的维数设置为100(从10、50、100、200到500)。答案预测阈值δ δδ设置为0.3(从[0.1,0.2,…, 0.9])。批大小设置为10(从2,5,10,15)。辍学率设置为0.5。我们采用SQuAD 2.0 (Rajpurkar et al, 2018)进行跨领域数据论证(我们的MRC模型在F1中达到83.9%)。无监督问题生成的实现在补充材料中。


Baseline model:JointBeam、DMCNN、JRNN、dbRNN、JMEE、Joint3EE、JointTrans、BERTEE。我们的模型表示为RCEE和RCEE ER(“ER”表示黄金实体强化(golden entity refinement))。我们使用DA来表示跨领域数据增强。


4.2 标准评估


在标准评估中,我们考虑两种设置:1)已知实体,这是以前许多方法考虑的,2)未知实体,这是一个更现实的设置。


485dedaefd03432594e1b30470752979.png


已知实体的结果。表2给出了已知实体的触发词(Trigger Ex.)和论元提取(argument Ex.)的结果。我们还报告了使用oracle触发词提取论元的结果(论元Ex.(O)),以排除触发词提取结果中潜在的错误传播。从结果来看,1)RCEE ER获得了最先进的性能,超过所有基线的相当大的幅度(触发词提取+0.6%;论元抽取+3.6% (5.4%))。2)尤其在论元提取方面,RCEE_ER优于同样使用BERT表示的BERTEE(也使用BERT表示)5%以上,这表明改进主要来自于问题的重新表述,而不是引入BERT表示。3) RCEE_ER的高召回率表明它可以比基线预测更多的例子,这可能意味着RCEE_ER可以处理基线模型失败的困难情况。


未知实体的结果。表3给出了未知实体的结果。在此设置中,基于分类的方法需要首先识别实体,因此我们为它们实现了基于BERT的方法。还比较了不需要实体信息的联合EE方法。我们使用RCEE进行比较,其中不包括实体细化。从结果来看,RCEE仍然表现出最好的性能-它击败了基于分类的方法(F1中超过9.3%)和联合模型(超过6.0%)。通过检查∆F1,我们注意到RCEE对golden实体的依赖相对较少(在没有golden实体的F1中为-4.3%),但基于分类的方法严重依赖golden实体,在有预测实体的F1中下降超过8%。


5e291bf6e33f41db8f58b77c3ae6571c.png


4.3 数据稀缺场景的结果


图4比较了数据稀缺场景下的模型和BERTEE,表4给出了极低数据场景下的结果(≤20%的训练数据)。从结果来看,我们的模型表现出了优越的性能,例如,相比之下,只用1%的EE训练数据就获得了49.8%的F1,而BERTEE只有2.2%的F1。我们注意到改进来自两个方面:1)数据增强(DA)。例如,根据表4,在1%和5%数据的实验中,DA对RCEE_ER提高了+47.6%和+33.4%。2)答案生成算法。注意在低数据情况下,没有DA的RCEE_ER仍然始终优于BERTEE。这表明该算法比分类方法数据效率高。原因可能是,我们的方法中的答案生成算法是基于位置的,这对于看不见的单词可能是稳健的。而以往EE方法的分类方法大多基于单词,需要更多的标注数据。


0b67082e75334e29928c20c688f76328.png

de6a9328af2d4c9783d55f080888e0e1.png


4.4 零样本案例下的效果


表5显示了zero-shot EE的结果,其中EE数据完全禁止进行训练(仅使用DA进行模型预训练)。为了增加结果的说服力,我们采用了另一个数据集,FrameNet (Baker, 2014)(其中帧被视为元事件类型)进行评估。从结果来看:在没有任何EE数据的情况下,我们的模型在ACE和FrameNet上F1分别达到了37%和16.6%。这说明了我们的模型处理不可见类型的有效性。


c353fd54a7ee421d98ce9615aaff2d55.png


5、更长远的讨论


5.1 问题生成的影响


我们比较了不同的问题生成策略:1)QRole,使用角色名作为查询;2) QCommand,它使用“Find the #Role”作为查询(Li等人,2019a),和3)QTemplate,它使用模板“What is the #Role in the #event_trigger event?”作为查询(菲茨杰拉德等人,2018)。从结果来看,QRole、QCommand和QTemplate在论元提取中F1分别达到60.1%、64.9%和68.5%。;而我们的方法是70.1%。我们注意到这些方法的不足之处可能在于表达能力较差。例如,在一个句子中,“The pair flew to Singapore last year after … ”, QNAME使用“Time”作为查询;QCommand使用“Find the Time”作为查询;QTemplate使用“What is the Time in the flew event?”作为查询。虽然我们的方法直接产生了一个近乎完美的问题:“[When] do the pair fly to Singapore?”我们在补充材料中提供了更多的例子。


5.2 不同论元的效果


图5显示了RCEE在不同语义角色上的表现,以随机选择的四个角色为例,1)有大量数据,例如Defendant有359个训练例;2)中型数据,例如Money, 75个例子;3)数据有限,例如Seller和Price只有32个和9个例子(罕见角色)。从结果来看,基于分类的方法,如BERTEE,对于数据丰富的角色可以获得较好的结果,但当数据不足时,其性能会严重下降。相比之下,我们的方法RCEE在处理稀有角色方面表现出色,例如,在F1中为Seller和Price获得了61.5%和78.2%(注意Price只有9个样例数据),而BERTEE为8.9%和1.7%。


a8b65dbcd3fb456e81de6f0e65375452.png


5.3 错误分析


我们在本节中进行误差分析。一个典型的错误与长距离依赖关系有关,占23.4%(这里“长距离”表示触发词和论元之间的距离≥10)。表6 (a)显示了一个案例,其中论元Evian,France距离触发词约20个单词,使得很难识别论元。2)第二个错误涉及到意义一般的角色,例如,Entity, Agent -这些角色通常很难生成有意义的问题,在所有情况中有32.7%的错误。3)第三个错误是co-reference,占17.2%。考虑表6 (b)中的示例,其中die触发了一个Die事件,“Laleh”和“Ladan”实现了语义角色Victim。我们的模型预测答案是“them”(在die前面的两个单词)——尽管“them”是“Laleh和Ladan”的参考,但根据目前的评估,它被认为是一个错误。这也提出了一个问题,当我们评估EE系统时,是否应该考虑共指。


6、总结和未来工作


在本文中,我们通过将EE转换为MRC问题来重新审视EE。我们的方法包括一个无监督的问题生成过程,可以生成相关和上下文相关的问题,其有效性被实证结果验证。在未来,我们将把我们的方法应用到其他IE任务中,研究它的应用范围。

目录
相关文章
|
机器学习/深度学习 编解码 人工智能
Reading Notes: Human-Computer Interaction System: A Survey of Talking-Head Generation
由于人工智能的快速发展,虚拟人被广泛应用于各种行业,包括个人辅助、智能客户服务和在线教育。拟人化的数字人可以快速与人接触,并在人机交互中增强用户体验。因此,我们设计了人机交互系统框架,包括语音识别、文本到语音、对话系统和虚拟人生成。接下来,我们通过虚拟人深度生成框架对Talking-Head Generation视频生成模型进行了分类。同时,我们系统地回顾了过去五年来在有声头部视频生成方面的技术进步和趋势,强调了关键工作并总结了数据集。 对于有关于Talking-Head Generation的方法,这是一篇比较好的综述,我想着整理一下里面比较重要的部分,大概了解近几年对虚拟人工作的一些发展和
|
1月前
|
机器学习/深度学习 测试技术 算法
文献解读-DNAscope: High accuracy small variant calling using machine learning
在这项研究中,研究组证明了DNAscope在不同样本和不同覆盖度水平下都能达到比DNAseq更高的准确性。使用GA4GH分层区域进行的分层分析,能够确认DNAscope在大多数分层区域中都具有高准确性,并突显了DNAscope在插入缺失(indels)和包含变异检测较困难的基因组区域的分层中具有更高的准确性。DNAscope结合了GATK's HaplotypeCaller中使用的成熟数学和统计模型,以及用于变异基因型分析的机器学习方法,在保持计算效率的同时实现了卓越的准确性。
29 3
文献解读-DNAscope: High accuracy small variant calling using machine learning
|
2月前
|
算法 数据挖掘 数据处理
文献解读-Sentieon DNAscope LongRead – A highly Accurate, Fast, and Efficient Pipeline for Germline Variant Calling from PacBio HiFi reads
PacBio® HiFi 测序是第一种提供经济、高精度长读数测序的技术,其平均读数长度超过 10kb,平均碱基准确率达到 99.8% 。在该研究中,研究者介绍了一种准确、高效的 DNAscope LongRead 管道,用于从 PacBio® HiFi 读数中调用胚系变异。DNAscope LongRead 是对 Sentieon 的 DNAscope 工具的修改和扩展,该工具曾获美国食品药品管理局(FDA)精密变异调用奖。
27 2
文献解读-Sentieon DNAscope LongRead – A highly Accurate, Fast, and Efficient Pipeline for Germline Variant Calling from PacBio HiFi reads
|
机器学习/深度学习 自然语言处理 算法
TASLP21-Reinforcement Learning-based Dialogue Guided Event Extraction to Exploit Argument Relations
事件抽取是自然语言处理的一项基本任务。找到事件论元(如事件参与者)的角色对于事件抽取至关重要。
102 0
|
存储 机器学习/深度学习 人工智能
PTPCG: Efficient Document-level Event Extraction via Pseudo-Trigger-aware Pruned Complete Graph论文解读
据我们所知,我们目前的方法是第一项研究在DEE中使用某些论元作为伪触发词的效果的工作,我们设计了一个指标来帮助自动选择一组伪触发词。此外,这种度量也可用于度量DEE中带标注触发词的质量。
127 1
|
机器学习/深度学习 移动开发 自然语言处理
DEPPN:Document-level Event Extraction via Parallel Prediction Networks 论文解读
当在整个文档中描述事件时,文档级事件抽取(DEE)是必不可少的。我们认为,句子级抽取器不适合DEE任务,其中事件论元总是分散在句子中
134 0
DEPPN:Document-level Event Extraction via Parallel Prediction Networks 论文解读
|
自然语言处理 算法 知识图谱
DEGREE: A Data-Efficient Generation-Based Event Extraction Model论文解读
事件抽取需要专家进行高质量的人工标注,这通常很昂贵。因此,学习一个仅用少数标记示例就能训练的数据高效事件抽取模型已成为一个至关重要的挑战。
164 0
|
机器学习/深度学习 存储 人工智能
Event Extraction by Answering (Almost) Natural Questions论文解读
事件抽取问题需要检测事件触发词并抽取其相应的论元。事件论元抽取中的现有工作通常严重依赖于作为预处理/并发步骤的实体识别,这导致了众所周知的错误传播问题。
131 0
|
存储 移动开发 自然语言处理
Document-Level event Extraction via human-like reading process 论文解读
文档级事件抽取(DEE)特别困难,因为它提出了两个挑战:论元分散和多事件。第一个挑战意味着一个事件记录的论元可能存在于文档中的不同句子中
94 0
|
自然语言处理 算法
Prompt for Extraction? PAIE: Prompting Argument Interaction for Event Argument Extraction 论文解读
在本文中,我们提出了一个既有效又高效的模型PAIE,用于句子级和文档级的事件论元抽取(EAE),即使在缺乏训练数据的情况下也能很好地泛化。
139 0