多语言互通:谷歌发布实体检索模型,涵盖超过100种语言和2000万个实体

简介: 实体链接(Entity linking)通常在自然语言理解和知识图谱中起着关键作用。谷歌AI研究人员近期提出了一种新的技术,在这种技术中,可以将特定语言解析为与语言无关的知识库。

微信图片_20220109180705.png


如果一段文本中提到一个实体 ,算法将识别出该实体在知识库中的相应条目(例如一篇维基百科文章)。


谷歌最近提出了一个单一实体检索模型,该模型涵盖了100多种语言和2000万个实体,表面上表现优于有限的跨语言任务。


多语言实体链接涉及将某些上下文中的文本片段链接到与语言无关的知识库中的对应实体。  

 微信图片_20220109180707.png


知识库本质上是包含实体信息的数据库,包括人、地点和事物等。2012年,谷歌推出了一个知识库的新概念:知识图谱,以提高搜索结果的质量。  


微信图片_20220109180709.png


这个知识库收集了来自 Wikipedia, Wikidata 和 CIA World Factbook 的数千亿事实。微软也曾推出一个知识库,其中有超过150,000篇文章是由为客户解决问题的支持专业人员创建的。


多语种实体链接中的知识库可能包括一种或多种语言中关于每个实体的名称和说明等文本信息。但是他们并没有对这些知识库语言和其他语言之间的关系做出预先的假设。


谷歌的研究人员使用了所谓的增强型双编码器检索模型(enhanced dual encoder retrieval models )和 WikiData 作为他们的知识库,这些知识库包括大量不同的实体。


WikiData 包含名称和简短的描述,通过与所有维基百科版本的紧密联系,它还将实体连接到从相应语言的维基百科页面提取出来的描述和其他特性当中。  


微信图片_20220109180711.png


研究人员从104种语言的与 WikiData 实体相关的大规模数据集中提取了6.84亿个 mention ,他们说这个数据集至少是以前只用英语进行实体链接工作时使用的数据集的六倍。


此外,两位作者还创建了一个匹配数据集: Mewsli-9,该数据集横跨多种语言和实体,其中包括 WikiNews 的58717篇新闻文章中提到的289087个实体。


在 Mewsli-9的82,162个不同的目标实体中,只有11% 没有维基百科的英文页面,这为专注于英文维基百科实体的系统设置了一个上限。


研究人员表示,实体链接能够更好地反映稀有实体或低资源语言在现实世界中面临的挑战。

      微信图片_20220109180713.png


通过对 Wikipedia 和 WikiData 的操作,使用增强双编码检索模型和基于频率的评估实验提供了令人信服的证据,证明用一个涵盖100多种语言的单一模型来执行这项任务是可行的。谷歌通过自动提取的 Mewsli-9 数据集作为一个起点,用于评估超越根深蒂固的英语基准和扩大的多语言环境下的实体链接。


不过,研究人员目前对于模型是否能够显示出统计学偏差还不清楚。


在今年早些时候发表的一篇论文中,Twitter 研究人员声称已经在流行的命名实体识别模型中发现了带有偏见的证据,尤其是对黑人和其他「非白人」名字的偏见。但是谷歌的合作者们通过使用非专家的人工评分员来为提高训练数据集的质量和合并关系知识敞开了大门。


参考链接:https://venturebeat.com/2020/11/11/googles-ai-lets-users-search-language-agnostic-knowledge-bases-in-their-native-tongue/

相关文章
|
存储 固态存储 索引
搜索和推荐统一存储层的新进展和思考
我们在2017年统一了搜索和推荐场景下的HA3、iGraph、RTP和DII四大引擎的存储层(参见统一之战),帮助它们取得了的更迅速的迁移能力、更快速的数据恢复能力和更丰富的数据召回能力。 最近一年来,我们在统一的存储框架上又做了进一步的演进,下面将分别从架构、Build服务以及存储模型角度介绍我们的新进展和思考。   1.架构   在我们的传统架构(参见统一之战)中,
2841 0
|
1天前
|
API 语音技术 开发者
基于开源技术的数字人实时对话:形象可自定义,支持语音输入,对话首包延迟可低至3s
魔搭社区最近上线了基于开源技术的数字人实时对话demo,无需预训练即可使用自定义的数字人形象进行实时对话,支持语音输入和实时对话。
|
2月前
|
人工智能 自然语言处理 机器人
谷歌将大模型集成在实体机器人中,能看、听、说执行57种任务
【9月更文挑战第17天】近年来,人工智能在多模态大模型领域取得显著进展。谷歌最新研发的Mobility VLA系统,将大模型与实体机器人结合,实现了视觉、语言和行动的融合,使机器人能理解并执行复杂多模态指令,如“我应该把这个放回哪里?”系统在真实环境测试中表现出色,但在计算资源、数据需求及伦理问题上仍面临挑战。相关论文发布于https://arxiv.org/abs/2407.07775。
58 9
|
4月前
|
语音技术 计算机视觉
|
6月前
|
存储 机器学习/深度学习 人工智能
社区供稿 | Yuan2.0千亿大模型在通用服务器上的高效推理实现:以NF8260G7服务器为例
浪潮信息联合Intel在IPF大会上发布了可运行千亿参数大模型的AI通用服务器,首次实现了单机通用服务器,即可运行千亿参数大模型。并在发布现场演示了基于NF8260G7服务器进行yuan2.0-102B模型在代码编写、逻辑推理等高难度问题上的实时推理效果,引起了业界广泛的关注。本文将详细解读yuan2.0-102B模型在NF8260G7服务器上进行高效实时推理的原理和技术路径。
|
6月前
|
人工智能 自然语言处理 文字识别
社区供稿 | 元象首个多模态大模型XVERSE-V开源,刷新权威大模型榜单,支持任意宽高比输入
元象公司发布了开源多模态大模型XVERSE-V,该模型在图像输入的宽高比方面具有灵活性,并在多项评测中展现出优越性能,超越了包括谷歌在内的多个知名模型。XVERSE-V采用创新方法结合全局和局部图像信息,适用于高清全景图识别、文字检测等任务,且已在Hugging Face、ModelScope和GitHub上开放下载。此外,模型在视障场景、内容创作、教育解题、百科问答和代码生成等领域有广泛应用,并在VizWiz等测试集中表现出色。元象致力于推动AI技术的普惠,支持中小企业、研究者和开发者进行研发和应用创新。
|
人工智能 数据可视化 人机交互
一次性分割一切,比SAM更强,华人团队的通用分割模型SEEM来了
一次性分割一切,比SAM更强,华人团队的通用分割模型SEEM来了
259 0
|
机器学习/深度学习 数据采集 人工智能
中科大提出统一输入过滤框架InFi:首次理论分析可过滤性,支持全数据模态
中科大提出统一输入过滤框架InFi:首次理论分析可过滤性,支持全数据模态
236 0
|
自然语言处理 搜索推荐 算法
亿级用户的平台是如何使用词嵌入来建立推荐系统的
亿级用户的平台是如何使用词嵌入来建立推荐系统的
140 0
亿级用户的平台是如何使用词嵌入来建立推荐系统的
|
Rust 自然语言处理 安全
【算法】2125. 银行中的激光束数量(多语言实现)
银行内部的防盗安全装置已经激活。给你一个下标从 0 开始的二进制字符串数组 bank ,表示银行的平面图,这是一个大小为 m x n 的二维矩阵。 bank[i] 表示第 i 行的设备分布,由若干 '0' 和若干 '1' 组成。'0' 表示单元格是空的,而 '1' 表示单元格有一个安全设备。 对任意两个安全设备而言,如果同时 满足下面两个条件,则二者之间存在 一个 激光束: 两个设备位于两个 不同行 :r1 和 r2 ,其中 r1 < r2 。 满足 r1 < i < r2 的 所有 行 i ,都 没有安全设备 。 激光束是独立的,也就是说,一个激光束既不会干扰另一个激光
【算法】2125. 银行中的激光束数量(多语言实现)