多语言互通:谷歌发布实体检索模型,涵盖超过100种语言和2000万个实体

简介: 实体链接(Entity linking)通常在自然语言理解和知识图谱中起着关键作用。谷歌AI研究人员近期提出了一种新的技术,在这种技术中,可以将特定语言解析为与语言无关的知识库。

微信图片_20220109180705.png


如果一段文本中提到一个实体 ,算法将识别出该实体在知识库中的相应条目(例如一篇维基百科文章)。


谷歌最近提出了一个单一实体检索模型,该模型涵盖了100多种语言和2000万个实体,表面上表现优于有限的跨语言任务。


多语言实体链接涉及将某些上下文中的文本片段链接到与语言无关的知识库中的对应实体。  

 微信图片_20220109180707.png


知识库本质上是包含实体信息的数据库,包括人、地点和事物等。2012年,谷歌推出了一个知识库的新概念:知识图谱,以提高搜索结果的质量。  


微信图片_20220109180709.png


这个知识库收集了来自 Wikipedia, Wikidata 和 CIA World Factbook 的数千亿事实。微软也曾推出一个知识库,其中有超过150,000篇文章是由为客户解决问题的支持专业人员创建的。


多语种实体链接中的知识库可能包括一种或多种语言中关于每个实体的名称和说明等文本信息。但是他们并没有对这些知识库语言和其他语言之间的关系做出预先的假设。


谷歌的研究人员使用了所谓的增强型双编码器检索模型(enhanced dual encoder retrieval models )和 WikiData 作为他们的知识库,这些知识库包括大量不同的实体。


WikiData 包含名称和简短的描述,通过与所有维基百科版本的紧密联系,它还将实体连接到从相应语言的维基百科页面提取出来的描述和其他特性当中。  


微信图片_20220109180711.png


研究人员从104种语言的与 WikiData 实体相关的大规模数据集中提取了6.84亿个 mention ,他们说这个数据集至少是以前只用英语进行实体链接工作时使用的数据集的六倍。


此外,两位作者还创建了一个匹配数据集: Mewsli-9,该数据集横跨多种语言和实体,其中包括 WikiNews 的58717篇新闻文章中提到的289087个实体。


在 Mewsli-9的82,162个不同的目标实体中,只有11% 没有维基百科的英文页面,这为专注于英文维基百科实体的系统设置了一个上限。


研究人员表示,实体链接能够更好地反映稀有实体或低资源语言在现实世界中面临的挑战。

      微信图片_20220109180713.png


通过对 Wikipedia 和 WikiData 的操作,使用增强双编码检索模型和基于频率的评估实验提供了令人信服的证据,证明用一个涵盖100多种语言的单一模型来执行这项任务是可行的。谷歌通过自动提取的 Mewsli-9 数据集作为一个起点,用于评估超越根深蒂固的英语基准和扩大的多语言环境下的实体链接。


不过,研究人员目前对于模型是否能够显示出统计学偏差还不清楚。


在今年早些时候发表的一篇论文中,Twitter 研究人员声称已经在流行的命名实体识别模型中发现了带有偏见的证据,尤其是对黑人和其他「非白人」名字的偏见。但是谷歌的合作者们通过使用非专家的人工评分员来为提高训练数据集的质量和合并关系知识敞开了大门。


参考链接:https://venturebeat.com/2020/11/11/googles-ai-lets-users-search-language-agnostic-knowledge-bases-in-their-native-tongue/

相关文章
|
JavaScript 前端开发
React+html2canvas+jspdf+antd快速实现前端pdf预览及打印
文章的总结目标实际上就是一个前端pdf打印组件,由於能在往后的其他项目中得以快速上手,并能根据所在项目需要快速自定义扩展,因此組件非常简陋直白,文章是实践过程的记录产物,并不保证完全正确,仅作参考。
React+html2canvas+jspdf+antd快速实现前端pdf预览及打印
|
数据可视化 IDE 开发工具
大模型编程(5)在线实战编码 - 纯免费
最近发现阿里云有许多实用资源,特别是提供Jupyter Notebook在线体验。Jupyter Notebook是一种互动计算环境,支持实时代码执行、可视化和文本说明等,方便用户创建和共享文档。通过这个平台,你可以直接在文档中运行代码,无需频繁切换命令行或IDE,极大提升了学习和开发效率。只需设置自己的API-key,即可开始动手实践。此外,阿里云的PAI平台也提供了类似的功能。
243 36
|
12月前
|
人工智能 算法 数据格式
DeepSeek 开源周第二弹!DeepEP:专为 MoE 训练和推理设计的并行通信库
DeepEP 是 DeepSeek 开源的首个专为混合专家模型(MoE)训练和推理设计的通信库,支持高吞吐量、低延迟通信,优化 NVLink 和 RDMA 网络性能。
1317 3
|
存储 数据库 数据安全/隐私保护
Python Django的学生选课管理系统,实现多用户登录注册,可选课可评课
本文介绍了一个基于Python Django框架开发的多功能学生选课管理系统,该系统具备教师和学生两个角色的权限管理,支持课程管理、成绩录入、选课申请、成绩查询和个人信息管理等功能,并注重数据安全与隐私保护。
507 0
Python Django的学生选课管理系统,实现多用户登录注册,可选课可评课
|
Ubuntu 安全 网络协议
|
敏捷开发 前端开发 测试技术
软件开发工作流【详解】(含公司产品研发流程图、大厂研发架构图、大厂研发流程图)
软件开发工作流【详解】(含公司产品研发流程图、大厂研发架构图、大厂研发流程图)
8886 1
|
机器学习/深度学习 人工智能 自动驾驶
基于深度学习的图像识别技术进展与应用
【5月更文挑战第28天】 随着人工智能技术的飞速发展,深度学习在图像识别领域已经取得了显著的突破。本文聚焦于近年来基于深度学习的图像识别技术的关键进展,并探讨其在多个领域的实际应用案例。通过分析卷积神经网络(CNN)的演变、数据增强技术、迁移学习以及最新的识别模型架构,本文旨在为读者提供一个关于当前图像识别技术发展水平的清晰视角。同时,文中还讨论了这些技术在医疗诊断、自动驾驶和工业自动化等领域的具体应用,展示了深度学习如何推动传统行业的技术创新。
|
程序员 Go 调度
第十六章 Golang中goroutine和channel
第十六章 Golang中goroutine和channel
201 3
|
数据采集 机器学习/深度学习 人工智能
达摩院开源多语言大模型PolyLM, 覆盖集团核心小语种,效果超LLAMA、BLOOM
本文作者:宝嵩,鹏程,呋喃主要贡献者:鹏程,呋喃,莉莱,重笙,筱苡,星峰,红罗,祝鸿,洛新,宝嵩,轻径,黄非摘要:大型语言模型 (LLM) 展示了出色的遵从自然语言指令理解、推理和生成的能力。然而,开发LLMs主要集中在高资源语言,例如英语,从而限制了它们在其他语言中的应用和研究。因此,我们开发了PolyLM,一个在6400亿个词的数据上从头训练的多语言语言模型,包括两种模型大小(1.7B和13B
6098 0
达摩院开源多语言大模型PolyLM, 覆盖集团核心小语种,效果超LLAMA、BLOOM
|
人工智能 otter 测试技术
280万条多模态指令-响应对,八种语言通用,首个涵盖视频内容的指令数据集MIMIC-IT来了
280万条多模态指令-响应对,八种语言通用,首个涵盖视频内容的指令数据集MIMIC-IT来了
407 0
280万条多模态指令-响应对,八种语言通用,首个涵盖视频内容的指令数据集MIMIC-IT来了

热门文章

最新文章