Title2Event: Benchmarking Open Event Extraction with a Large-scale Chinese Title Dataset
代码:open-event-hub/title2event_baselines (github.com)
期刊/会议:EMNLP 2022
摘要
事件抽取(EE)对于新聚合和事件知识图构建等下游任务至关重要。大多数现有的EE数据集手动定义固定的事件类型,并为每种事件设计特定的模式,无法覆盖在线文本中出现的各种事件。此外,新闻标题作为事件提及的重要来源,在当前的EE研究中并没有得到足够的重视。在本文中,我们提出了Title2Event,这是一种不限制事件类型的大型句子级数据集基准测试开放事件抽取。Title2Event包含从中文网页收集的34个主题超过42,000个新闻标题。据我们所知,它是目前最大的用于开放事件抽取的人工标注中文数据集。我们进一步对不同模型的Title2Event进行了实验,表明标题的特性使得事件抽取具有挑战性,解决了这一问题的深入研究的意义。
1、简介
图1显示了从多个新闻标题中抽取事件的示例。在抽取事件的基础上,对同一事件的新闻进行聚合,发送给用户,提供不同来源的综合观点。
事件抽取可以分为两个级别:句子级EE和文档级EE。句子级EE识别单个句子中的事件实体和属性(Ahn, 2006),而文档级EE旨在抽取分散在文章中的同一事件的实体(Sundheim, 1992)。在新闻聚合等场景中,人工编写的新闻标题通常保留了新闻事件的核心信息,而新闻文章可能包含太多琐碎的细节。因此,对新闻标题进行句子级EE比对新闻文章进行文档级EE更有效地聚合相关新闻。
中文标题抽取相对于ACE2005的数据集标准更加困难,中国社交媒体上的新闻标题有一些独特的写作风格,如图2所示。首先,许多标题的写作没有严格遵守正确的语法。例如,一些标题在描述操作时为了简洁会省略代理,而另一些标题可能会将操作放在第一次提到代理之前以强调。二是角色重叠问题,即同一个实体在多个事件中可能扮演不同的角色,通常发生在文本中的事件之间具有一定的关联时。虽然在2005年ACE中约有10%的事件存在这一问题,但在相当长的一段时间内没有得到足够的研究重视(Yang et al, 2019)。然而,角色重叠问题在新闻标题中更为常见,并因此成为一个不可忽视的问题。最后,由于新闻报道的覆盖面广泛,在某些情况下,EE模型必须依赖某些领域知识(如体育中的规则和术语)才能正确理解事件。标题的这些特征给事件抽取带来了额外的挑战,对文本理解能力更强的EE模型提出了更高的要求。
考虑到上述问题,作者推出了Title2Event,一个新的数据集,包含42,000多条中文互联网新闻标题数据。总的来说Title2Event包含以下重要特征:
1.它将标题事件抽取定义为开放事件抽取(OpenEE)任务,没有任何预定义的事件类型或特定的模式。相反,它遵循开放信息抽取(OpenIE)的公式(Zhou et al, 2022),并将事件定义为(subject,predicate,object)三元组。然后,EE模型需要抽取给定标题中的所有事件三元组。OpenEE和OpenIE之间最大的区别是OpenEE是以事件为中心的,这意味着只有事件三元组被抽取。
2.这是一个大规模、高质量的数据集。Title2Event由从中文网页收集的34个领域的42915个新闻标题组成,以及70947个人工标注的事件三元组,包含24231个独特的谓词。我们编写了详细的标注指南,并进行了两轮专家评审以进行质量控制。据我们所知,Title2Event是目前OpenEE最大的手动标注中文数据集。
3.这是第一个特别关注标题的句子级数据集,其独特的价值和挑战很少受到关注。我们相信Title2Event可以进一步促进现实场景下的情感表达研究。
我们在Title2Event上尝试了不同的方法,并分析了它们的性能,以解决这个任务的挑战。
2、相关工作
事件抽取数据集:ACE2005、TAC-KBP-2017、MAVEN。
开放信息抽取:开放信息抽取(OpenIE)旨在从非结构化文本中抽取关系元组形式的事实,不限制目标关系,减轻人类设计复杂的领域依赖模式的劳动(Niklaus et al, 2018)。由于大规模OpenIE基准的发布,如OIE2016 (Stanovsky and Dagan, 2016)和CaRB (Bhardwaj et al, 2019),神经OpenIE方法变得流行(Zhou et al, 2022)。现有的神经OpenIE模型可以分为序列标记模型(Stanovsky et al, 2018;Kolluru等,2020a;Zhan和Zhao, 2020)和生成序列到序列模型(Cui等人,2018;Kolluru等人,2020b)。我们采用OpenIE的提法,将事件表示为三元组,因为新闻标题中提到的事件往往是简短的,没有复杂的子结构。
中文事件抽取:中文事件抽取常作为事件抽取领域中一个特殊的情况,因为其独特的语言特性和挑战。现有的中文事件抽取数据集是匮乏的,相对于英文数据集。Chinese Emergency Corpus(CEC 3)除包含ACE 2005和TAC KBP 2017等中文语料库的多语种数据集外,还收集了6类常见应急事件。Doc2EDAG (Zheng et al, 2019)和FEED (Li et al, 2021a)是两个基于远程监管的中国金融EE数据集。DuEE (Li et al, 2020b)是一个文档级EE数据集,包含19,640个事件,分为65种事件类型,收集自中国社交媒体上的新闻文章。与DuEE相比,我们的Title2Event数据集规模更大,并且不限制事件类型。
3、数据集构建
标注标准:我们总结了标注的一些基本部分。一般来说,我们期望每个事件都可以由一个(subject、predicate、object)三元组表示,其中subject和object可以被视为由predicate触发的事件的论元角色。可以从单个标题中抽取多个事件三元组,它们可能有一些重叠。但是,三元组的predicate被认为是事件的唯一标识符,因此单个标题的多个三元组不会共享相同的谓词。
1.去除无效的标题。标题没有实际意义的表达,或者没有关系等。
2.由于中文标题的predicate是非常复杂的,所以制定了一些规则来统一汉语谓词的识别。首先,如果事件倾向与强调subject的状态变化,如南阳大桥通车(Nanyang Bridge opens to traffic),其predicate应该标注为通车(open-to-traffic),而不是标注为通,object为车。其次,对于具有连续动词和双宾语的短语,我们将动作的直接目标(即病人(Patient))整合到谓词表达式中,而将间接病人(indirect patient)(即受影响者(Affectee))(Thompson, 1973)作为事件的对象。如送孩子去学校(send kids to school),predicate将被标注为送去学校,object为孩子,此外,我们发现冒号(“:”)在标题中经常扮演predicate的角色,代表“说”、“宣布”或“要求”等意思。我们将其视为新闻标题的一个特性,并允许标注者将其标记为predicate。
3.我们希望论元角色的细粒度标注是完整的,但不是多余的。所有实体的限定词和修饰语只在它们对事件的理解有很大影响时才被保留。所有的三元组都要求有subject和predicate,而object可以像原文一样省略。
4、Title2Event数据分析
5、方法
形式上,给定一个符号序列S = < w 1 , w 2 , … , w n > , Open EE的目的是输出一个三元组列表T = < t 1 , t 2 , … , t m > ,其中每个三元组t i = < s i , p i , o i >表示S 中发生的事件,s i , p i , o i分别表示事件的subject、predicate和object。事件的object可以是空的,每句话的事件总数m也不是固定的。开放EE还可以通过将predicate视为事件触发词以及唯一的事件类型,而将subject和object都作为事件论元,从而与传统EE任务公式保持一致。
基于任务公式,我们首先使用现有工具包实现一个无监督方法。然后,我们将任务分为触发词抽取和论元抽取,并在它们上实现不同的监督方法。
5.1 无监督方式
由于Open EE的表述与依赖项解析(dependency parsing, DP)和语义角色标记(semantic role labeling, SRL)等传统任务相似,我们研究了现有三元组抽取方法在Open EE上的性能。每个标题将首先被分割(segment)和标记化(tokenize),然后抽取作为token级序列标记任务进行。每个标记将首先由SRL模块标记它是否属于出现在S-P-O、S-P、P-O语义元组之一中的语义角色。如果不是,DP模块将根据它是否出现在上述结构的语法元组中重新标记。整个方法是使用LTP工具包实现的(Che et al, 2020)。
5.2 触发词抽取
由于每个句子的触发词数量既不是固定的,也不是作为输入给定的,我们采用token级序列标注模型,基于事件触发词(即predicat)之间不会重叠的归纳偏差,抽取给定句子中的所有事件触发词(参见章节3.2)。序列标记模型需要一组标记,其中每个标记与一个token对齐,表示事件元素(即三元组元素)或非事件元素的一部分。然后,模型学习每个给定句子的标签概率分布,并根据预测的标签输出三元组。我们采用BIO标记方案,其中如果一个token位于第i 个触发词的开始(内部),则标记为B − t r g i ( I − t r g i ) ,如果它在任何触发词之外,则标记为O。下标用于区分不同的触发词,因为它们可能是不连续的token。由于Title2Event没有在标记级别上标注(参见3.2),我们通过在源句中定位每个标注事件元素来获得其偏移量,从而执行自动标记。我们使用BERT (Devlin et al, 2019)作为句子编码器来获得token的上下文化表示,每个token表示将被馈送到分类层来计算标签的概率分布。
5.3 论元抽取
论元抽取模型将源句和给定触发词分别作为输入和输出每个给定触发词的论元。由于角色重叠的问题,一个token可能出现在多个事件论元中,从而有多个标记,这与序列标注任务的常用设置不匹配。因此,我们迭代抽取的触发词,并分别抽取每个事件触发词的论元。我们实现了三个论元抽取方法。
序列标注。第一种方法是一个类似于触发词抽取模型的token级序列标记模型,它也对subject和object token使用BIO标记方案。在每个正向过程中,为了指定当前触发词,我们采用Yang等人(2019)提出的方法。具体来说,BERT编码器的输入是WordPiece embeddings、position embeddings和segment embeddings的和,我们设置当前触发token的segment id为1,其他为0来显式编码当前触发词。
Span MRC。第二种方法是跨度级标记模型,该模型将论元抽取作为机器阅读理解(MRC)任务,受到Du和Cardie(2020)和Liu等人(2020)的启发。对于每个给定的句子和特定的触发词,subject、object都被分离出来,前置一个问题,动作<trigger>的主题是?(What is the subject of <trigger>?)进入句子,形成一个上下文,如“[CLS] question [SEP] sentence [SEP]”,然后要求模型通过预测起始位置和结束位置,从给定问题的上下文中抽取答案范围。我们还使用BERT作为上下文编码器。
6、实验
6.1 评估指标
指标:precision、recall、F1。
任务:触发词抽取、论元抽取、三元组抽取。
6.2 评估模型
Unsuper、SeqTag、ST-SpanMRC、ST-Seq2SeqMRC。
6.3 实验结果
表2显示了在Title2Event上实验的所有Open EE方法的结果。可以观察到:1)对于触发词抽取,序列标注模型明显优于无监督模型。2)在论元抽取和三元组抽取方面,ST-Seq2SeqMRC优于其他基于标注的模型。很大一部分原因是标题的非常规的写作风格使得在源文本中定位token级标记或跨度偏移量非常困难,而序列到序列模型则不受这些限制。
6.4 误差传播分析
表3显示了使用预测触发词和正确触发词抽取论元的结果。如果提供正确触发器,这三个模型的性能都提高了约20%,说明正确的触发词对论元抽取的巨大影响,以及在未来的工作中迫切需要缓解管道架构带来的传播误差。
6.5 多事件抽取分析
图4显示了每个实例包含多个事件是Title2Event的一个重要特性,因此我们进一步研究了模型在多个事件抽取上的性能,如图6所示。我们可以看到,随着每个实例的事件数量的增加,所有关于触发词抽取、论元抽取和三元组抽取的模型都显示出性能的下降,这表明每个实例的多个事件给开放事件抽取带来了额外的挑战。
6.6 分析错误
在某些主题上F1的得分明显偏高,如“天气”主题下的标题,可能是由于该主题下的新闻标题明显存在固定的模板,更容易抽取。
图7 (a)显示了触发词抽取中的错误输出,其中通过连接两个谓词非常规地编写给定的标题。因此,SegTag无法区分这两个不同的predicate。图7 (b)显示了一个具有多个事件的实例,所有模型都混淆了论元角色。图7 ©显示了一个体育新闻标题,如果没有皇马和PSG都是足球俱乐部的背景,没有一个模型能够正确理解PSG被皇马击败的事件。以上所有案例都清楚地解决了Title2Event中存在的挑战,这些挑战在现实场景中也很常见,需要深入研究才能更好地解决。
7、总结
在本文中,我们提出了Title2Event,一个中文标题数据集对标开放事件抽取任务。据我们所知,Title2Event是最大的用于句子级事件抽取的手动标注中文数据集。我们尝试了不同的方法,并进行了详细的分析,以解决Title2Event中观察到的挑战,这些挑战在现有数据集中相当罕见,但在现实场景中很常见。我们相信Title2Event可以进一步促进事件抽取的高级研究。