Rethinking Information Extraction :信息抽取的现状与未来

简介: ​ ##引言 从计算到感知再到认知是业内学者都认同的人工智能技术发展路径。机器具备认知智能,进而实现推理、规划乃至联想和创作,在一定程度上需要一个充满知识的大脑,而信息抽取是获取知识的重要途径之一。 在具体的业务场景如搜索推荐,结构化的领域知识有利于实现细粒度文本理解,有利于实现精准的复杂问答,有利于

引言

从计算到感知再到认知是业内学者都认同的人工智能技术发展路径。机器具备认知智能,进而实现推理、规划乃至联想和创作,在一定程度上需要一个充满知识的大脑,而信息抽取是获取知识的重要途径之一。 在具体的业务场景如搜索推荐,结构化的领域知识有利于实现细粒度文本理解,有利于实现精准的复杂问答,有利于召回更相关的文档。在医疗、法律、金融等垂直领域,构建高质量的垂直知识图谱,是实现知识赋能搜索、问答、推荐等业务场景的基石,而信息抽取则是构建图谱最为重要的环节之一。然而什么是信息抽取?它有哪些挑战?发展状况如何?未来趋势又是怎么样?本文旨在回答以上几个问题。

什么是信息抽取?

信息抽取(information extraction),即从自然语言文本中,抽取出特定的事件或事实信息,帮助我们将海量内容自动分类、提取和重构。 这些信息通常包括实体(entity)、关系(relation)、事件(event)如下所示。

image-20191229235023607.png

通常而言,信息抽取技术主要包含命名实体识别、关系/属性抽取、事件抽取等任务。命名实体识别(NER)一般是一个序列标注任务,如对于文本"娃娃(PEO)进娃娃机抓娃娃",在上下文语境下,实体识别任务需要对第一个娃娃标注为PEO。关系/属性抽取一般为分类任务,如给定实体对和文本,判断在上下文语境下实体之间是什么关系。比如,给定实体“特朗普”、实体“纽约”和文本“特朗普出生于纽约”,关系抽取需要抽取“出生于”这个关系。事件抽取最为复杂,一般分为事件识别(Trigger Identification/ Classification)、元素分类(Argument Identication)、元素角色分类(Argument Role Classification)等几个子任务。例如,对于文本“贾乃亮离婚后现身综艺!谈及家人满脸心酸,前妻李小璐” 事件抽取需要首先识别触发词"离婚"并分类为"离婚事件",再识别元素"贾乃亮"和"李小璐"并分类为"丈夫"和"妻子"。

信息抽取的挑战

命名实体识别任务是信息抽取中发展最为成熟的任务,从古老的HMM、CRF到BiLSTM-CRF,再到Lattice LSTM ,TENNER[1],实体识别任务在标准数据集上取得了很大的进步,在BERT等预训练模型出现后,实体识别更获得了进一步的提升。 而关系抽取任务,由于标准数据获取的困难,效果相对较差。关系抽取任务一般采用有监督或远监督分类模型,在深度学习出现之前主要通过人工特征和基于核函数的模型;在深度学习时代,主流模型有CNN、PCNN等。事件抽取最为困难,方法发展和关系抽取类似,代表研究有中科院陈玉博研究员提出的DMCNN[2]等。除此之外,信息抽取还包含通用领域信息抽取,代表工作有TextRunner,Open IE等。

信息抽取主要面临以下几个挑战:

  1. 样本获取困难。如何在有限的标注样本下训练高质量的信息抽取模型是一个严峻的挑战。比如,垂直领域如医疗标注命名实体需要专业的知识,标注成本极高;获取关系抽取、事件抽取样本也代价高昂。
  2. 文本语义复杂。如何在复杂歧义的上下文和长文本语境抽取实体、关系、事件是一个严峻的挑战。比如“姨妈(人物)来了大姨妈(生理)怎么办”,“纽约是美国首都”同时包含了“首都” 和“位于” 两个关系,"李小璐和贾乃亮会复婚吗" 根本没有包含触发词。
  3. 泛化能力差。如何训练一个能在数据、标签分布不同的真实场景仍具有较好泛化能力的模型是一个严峻的挑战。比如,如果训练样本仅有短文本Title、Query,模型在预测长文本文档时性能会大打折扣,又比如对于新出现的关系、事件、实体类型,信息抽取模型性能也会严重下降。
  4. 实用性差。如何训练一个通用模型进行端到端的信息抽取是一个严峻的挑战。目前现有的信息抽取模型分为pipeline、end2end、join inferecne 、 joint modeling等,一般需要多个模型进行级联,极其复杂,不同方法各有优劣,训练一个通用的信息抽取模型同时抽取实体、关系、事件是非常困难的。

低资源信息抽取

低资源信息抽取旨在基于少量标注样本和大量无标注样本,获得高性能的信息抽取模型,技术路线主要包含基于元学习的方法、基于迁移学习的方法、引入外部数据的方法、基于预训练的方法和基于样本增广的方法等。本质上,低资源信息抽取方法主要目标是获得更加鲁棒的表征和更多的样本来实现低资源场景下模型性能的提升。下面介绍几篇代表性工作。

DMB-PN(WSDM2020)[3]

考虑到现实世界中的新事件层出不穷,本人及合作者将事件检测建模成少样本学习任务,并提出了一个基于动态记忆的原型网络模型。

image-20191229212520562.png

LW-BiLSTM-PCRF(EMNLP2019) [4]

UIUC Ji heng 组提出了基于弱监督标签的实体识别模型,模型主要通过同时使用高质量和低质量的弱监督数据并共享参数训练Partial-BiLSTM-CRF模型,本质上这是一个迁移学习过程。

image-20191229204610232.png

GCNRE(NAACL2019)[5]

针对关系抽取中大量长尾关系抽取难的特点,本人基于关系之间的显式关联和知识图谱隐式知识,提出基于图神经网络的关系抽取模型,在长尾关系抽取中取得较好效果。

image-20191229220327103.png

Match Blank(ACL2019)[6]

谷歌团队提出的一种关系抽取算法,本文贡献主要在于新颖的预训练模式和多种encoder的经验结果。此方法效果极好,且在FewRel数据集超过人类,然而中文领域仍缺乏此类预训练模型。

image-20191229220122830.png

MTDS(NAACL2019)[7]

阿里达摩院司罗老师团队提出了基于一致性的数据选择和知识驱动和生成的实体识别算法,此算法本质上也是一种新颖的迁移学习算法,具有一定的实用价值。

image-20191229215756999.png

Reading the Manual(AAAI2020)[8]

约翰霍普金斯大学的学者提出了一个新颖的事件抽取模型,核心想法是引入标注的规则文本,此方法类似数据增广,在低资源场景效果较好。

image-20191229220433948.png

复杂语境下信息抽取

复杂语境下信息抽取的难点首先是overlapping, 如存在实体之间互相包含、关系互相重叠。其次是远程监督带来的噪音以及长文档跨句带来的表征学习困难。

Capsule(EMNLP2018)[9]

关系抽取中存在大量的多关系情况,样本分布不均衡的数据集上很难进行实体对中的多关系抽取,本人提出了基于胶囊网络的多关系抽取模型,此模型基于无监督路由算法学习关系的鲁棒向量,以减轻不均衡样本对表征的影响,在多关系抽取取得较好的效果。

image-20191229211341490.png

ARNOR(ACL2019)[10]

针对关系抽取远监督导致的噪音问题,百度学者提出了基于模板匹配和注意力正则的降噪方法。

image-20191229212222657.png

ConstrainRE(AAAI2020)[11]

关系抽取中,某些关系之间存在很强的语义先验约束,比如如果存在关系"首都"则大概率会存在关系"位于",北大的学者提出了ConstrainRE,通过显式引入关系之间的约束Loss来增强关系抽取性能。

image-20191229210732456.png

Out of Distribution信息抽取

对于未知实体、关系等的信息抽取,可采取前面提到的低资源信息抽取模型,也可以采用开放域信息抽取的方法。

RSN(EMNLP2019)[12]

清华刘知远老师团队提出了基于关系孪生网络的开放领域关系抽取模型,此方法主要动机为迁移已有的远监督关系知识到未知的开放领域关系,并通过Metric Learning 和聚类实现未知关系的抽取。

image-20191229205254382.png

联合信息抽取

联合信息抽取主要分为实体、关系联合抽取,实体事件联合抽取等。

Novel Tagging(ACL2017) [13]

针对关系抽取和实体识别联合抽取任务,中科院自动化所的学者提出了一种新颖的标注方法,开创了实体关系联合抽取的先河,并启发了一系列联合抽取工作,然而此方法无法抽取overlapping的元组。

image-20191229213450465.png

CopyRE (ACL2018) [14]

中科院学者创新得将实体关系抽取任务定义为seq2seq任务,并实现多关系多实体联合抽取,且能够处理overlapping问题。

image-20191229213840149.png

CopyMTL(AAAI2020)[15]

针对CopyRE存在无法区分头尾实体和无法预测多个token的实体的问题,UIUC学者提出了CopyMTL模型,此模型主要通过多任务学习方式,将实体抽取部分单独作为序列标注任务,方法简单易懂,效果不错。

image-20191229210040586.png

FSA&PDA(EMNLP2019)[16]

针对标签之间存在一定强关系约束的特点,谷歌和宾夕法尼亚大学学者提出了基于自动机约束的序列预测模型,此模型虽然仅应用在序列标注任务,且存在一定的局限性,但是模型的思考角度非常新颖,且自动机的自动学习和约束机制带来的很大的启发,这种机制是否可以应用在关系、事件抽取值得探索。

image-20191229203403628.png

LogicRE(AAAI2020)[17]

针对实体识别和关系抽取之间存在一定的逻辑约束现象,南洋理工大学王文雅老师团队提出了基于描述逻辑的实体识别和关系抽取模型,此方法也是少有的融合符号主义和联结主义的工作,值得一读。

image-20191229213022197.png

信息抽取新的征程

随着NLP的不断发展,也涌现了一些新的信息抽取路线,这里总结如下:

基于预训练模型的直接信息抽取

这里的方法主要是通过预训练模型以构造完形填空或序列标注的方式直接抽取元组,代表工作有COMET[18] , 这些方法一般直接基于Transformer,有些类似于通用信息抽取, 详见 [从感知到认知:浅谈知识赋能自然语言处理]()

基于阅读理解的信息抽取

香浓科技学者在ACL2019论文[19]将实体、关系抽取改造成为机器阅读理解任务,角度新颖,然而对于长文档此方法存在信息遗忘和性能问题。

基于序列生成的文本信息抽取

此类方法将抽取任务定义为seq2seq任务,主要代表方法有CopyRE和CopyMTL等。

开源工具

实体识别

bert-ner https://github.com/macanv/BERT-BiLSTM-CRF-NER

关系抽取

DeepNRE 清华刘志远老师团队https://github.com/thunlp/OpenNRE

DeepKE 浙大陈华钧老师团队 https://github.com/zjunlp/deepke

通用工具

StanfordNLP https://stanfordnlp.github.io/stanfordnlp/

DeepDive http://deepdive.stanford.edu/

Snorkel https://github.com/snorkel-team/snorkel

OpenIE https://nlp.stanford.edu/software/openie.html

Textrunner http://openie.cs.washington.edu/

Fastnlp https://github.com/fastnlp/fastNLP

中文开放领关系抽取 https://github.com/lemonhu/open-entity-relation-extraction

哈工大LTP https://www.ltp-cloud.com/

Snownlp https://github.com/isnowfy/snownlp

HanLP https://github.com/hankcs/HanLP

数据集

CoNLL2003 https://github.com/synalp/NER/tree/master/corpus/CoNLL-2003

OntoNotes https://github.com/yhcc/OntoNotes-5.0-NER

MSRA https://github.com/buppt/ChineseNER/tree/master/data/MSRA

Weibo NER https://github.com/OYE93/Chinese-NLP-Corpus/tree/master/NER/Weibo

Resume NER https://github.com/jiesutd/LatticeLSTM/tree/master/ResumeNER

Fewer、 semeval 、Wiki80、NYT10 https://github.com/thunlp/OpenNRE/tree/master/benchmark

TECRED https://nlp.stanford.edu/projects/tacred/

ACE05 (实体、关系、事件抽取) https://catalog.ldc.upenn.edu/LDC2006T06

下一代信息抽取系统畅想

  1. 更少的样本,更强的泛化能力。未来的信息抽取模型也许只需要少量的样本就可以获得更好的性能和更强的泛化能力。
  2. 多模态信息抽取。未来的信息抽取模型也许可以从图像、视频、音频等数据中抽取知识。
  3. 自动化端到端。未来的信息抽取模型可以自动进行网络架构设计、自动超参数优化,实现AutoML based Information Extraction 。
  4. 通用信息抽取。未来信息抽取也许范围更广,可以实现细粒度情感标签、通用槽位、观点等信息的抽取。
  5. 可解释信息抽取。未来信息抽取也许可以生成可解释的抽取规则、预测结果的置信度等,实现模型的可解释、可控制。

[1]TENER: Adapting Transformer Encoder for Named Entity Recognition

[2]Event Extraction via Dynamic Multi-Pooling Convolutional Neural Networks

[3]Meta-Learning with Dynamic-Memory-Based Prototypical Network for Few-Shot Event Detection

[4]Low-Resource Name Tagging Learned with Weakly Labeled Data

[5]Long-tail Relation Extraction via Knowledge Graph Embeddings and Graph Convolution Networks

[6]Matching the Blanks : Distributional Similarity for Relation Learning

[7]Improve Neural Entity Recognition via Multi-Task Data Selection and Constrained Decoding

[8]Reading the Manual : Event Extraction as Definition Comprehension

[9]Attention-Based Capsule Networks with Dynamic Routing for Relation Extraction

[10]ARNOR : Attention Regularization based Noise Reduction for Distant Supervision Relation Classification

[11]Integrating Relation Constraints with Neural Relation Extractors

[12]Open Relation Extraction : Relational Knowledge Transfer from Supervised Data to Unsupervised Data

[13]Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme

[14]Extracting Relational Facts by an End-to-End Neural Model with Copy Mechanism

[15]CopyMTL: Copy Mechanism for Joint Extraction of Entities and Relations with Multi-Task Learning

[16]A General-Purpose Algorithm for Constrained Sequential Inference

[17]Integrating Deep Learning with Logic Fusion for Information Extraction

[18]COMET: Commonsense Transformers for Automatic Knowledge Graph Construction

[19]Entity-Relation Extraction as Multi-Turn Question Answering

相关文章
|
SQL 自然语言处理 数据挖掘
大模型与数据分析:探索Text-to-SQL(上)
大模型与数据分析:探索Text-to-SQL(上)
6313 0
|
6月前
|
人工智能 JSON 文字识别
AI新宠DocExt:纯本地文档抽取,开源免费还无依赖!你还在为OCR头疼吗?
DocExt 是一款开源、免费的本地文档结构化提取工具,无需依赖 OCR 或云端服务,通过视觉语言模型(VLM)实现票据、护照、发票等多类型文档的关键字段与表格识别。支持多页文档处理、置信度量化及本地部署,提供直观的 Gradio Web 界面和灵活的 API 调用方式,适配高隐私场景如金融、医疗等领域。项目参与 IDP Leaderboard 评测,具备零模板限制和多模型支持等优势,是处理敏感文件的理想选择。
1939 0
|
12月前
|
搜索推荐 物联网 PyTorch
Qwen2.5-7B-Instruct Lora 微调
本教程介绍如何基于Transformers和PEFT框架对Qwen2.5-7B-Instruct模型进行LoRA微调。
12438 34
Qwen2.5-7B-Instruct Lora 微调
|
11月前
|
人工智能 Serverless API
AI时代下的数据信息提取 | 多模态数据信息提取
多模态数据信息提取方案利用先进的大模型技术,支持文本、图像、音频和视频等多种格式文件的信息抽取。该方案通过函数计算FC构建Web服务,接收用户请求并调用视觉和文本模型进行处理,最终返回结果。部署过程简单易上手,适合新手操作,且提供详细的文档和截图指导。用户可通过在线WebUI或API接口实现信息提取,满足不同场景需求。此外,该方案支持批处理模式下的离线作业,大幅提高大规模数据处理效率,降低业务落地成本达50%。
|
12月前
|
JSON 人工智能 自然语言处理
小模型也能有类o1的慢思考能力?使用CAMEL生成CoT数据、Unsloth微调Qwen2.5-1.5B模型并上传至Hugging Face
本项目利用CAMEL生成高质量的CoT数据,结合Unsloth对Qwen2.5-1.5B模型进行微调,并将结果上传至Hugging Face。通过详细步骤介绍从数据生成到模型微调的完整流程,涵盖环境配置、API密钥设置、ChatAgent配置、问答数据生成与验证、数据转换保存、模型微调及推理保存等内容。最终展示了如何优化问答系统并分享实用技巧。 [CAMEL-AI](https://github.com/camel-ai/camel) 是一个开源社区,致力于智能体扩展研究。欢迎在GitHub上关注并加入我们!
1376 15
|
JSON 达摩院 Java
大模型时代下的文档智能 | 文档解析(大模型版)
文档智能(Document Mind)是基于阿里巴巴达摩院技术打造的多模态文档识别与理解引擎,提供通用文档智能、行业文档智能和文档自学习能力,满足各类智能文档处理需求。尤其在企业中,它能有效处理文本、图片、扫描件等多种非结构化文档,释放数据价值。本文将介绍文档智能的应用场景、产品架构及其核心功能——文档解析(大模型版),并展示其在线体验与API接口调用方法。
|
JSON 人工智能 API
程序调用大模型返回结构化输出(JSON)
本文介绍了如何使用讯飞星火大模型API,并通过Python封装实现结构化数据输出。首先,通过封装SparkAI类,实现了与讯飞星火API的交互,确保了调用的安全性和便捷性。接着,利用Pydantic库定义了数据模型`CalendarEvent`,确保从大模型获取的回答能够被正确解析成预设的结构化JSON格式,从而解决了大模型回答不规范的问题。示例代码展示了如何构造请求、接收并解析响应,最终输出结构化的活动信息。
1716 5
|
消息中间件 中间件 Kafka
分布式事务最全详解 ,看这篇就够了!
本文详解分布式事务的一致性及实战解决方案,包括CAP理论、BASE理论及2PC、TCC、消息队列等常见方案,助你深入理解分布式系统的核心技术。关注【mikechen的互联网架构】,10年+BAT架构经验倾囊相授。
分布式事务最全详解 ,看这篇就够了!