大规模开放数字商业知识图谱评测基准来了:OpenBG上线天池

简介: 大规模开放数字商业知识图谱评测基准来了:OpenBG上线天池


在数字商业领域,知识图谱业务的蓬勃发展在许多应用显示出了巨大的潜力,但它仍面临着诸多挑战。由阿里巴巴藏经阁团队和浙江大学开放的数字商业知识图谱评测基准 OpenBG 提供了丰富的数字商业领域知识图谱的评测数据集,覆盖基于知识图谱的商品显著性推理、商品同款挖掘、商品知识图谱链接预测等任务,对模型展开了全方位评测,旨在帮助算法人员对模型取得更好的理解。



近年来,知识图谱受到学术界和产业界的广泛关注,在教育、生物医学、金融等领域得到了广泛的应用,凸显了结构化知识在智能应用中的重要作用。2020 年图灵奖得主 LeCun、Bengio 和 Hinton 在 2015 年《Nature》论文[1]曾指出:融合表示学习与复杂知识推理是人工智能进步的阶梯。在数字商业领域,知识图谱业务的蓬勃发展在许多应用显示出了巨大的潜力,但它仍面临着诸多挑战。例如,现有的商业知识图谱往往存在大量的缺失属性、实体节点和大量相同的未对齐的实体节点,且知识图谱通常由多种模态构成,因而如何对大规模数字知识图谱进行链接预测和实体对齐(同款商品挖掘)面临严峻挑战;此外,现有的知识图谱通常缺乏对知识显著性的建模,如当用户在电商平台搜索 “跑步”关键词 时,“瓶装水”一般不是用户真实的购物意图,用户关注的商品一般是 “跑步鞋、跑步机” 等健身用品。显著的常识可以帮助搜索引擎有更好的理解能力,从而返回更贴合用户需要的商品,因此如何基于数字商业知识图谱进行商品显著性推理也面临巨大挑战。


由阿里巴巴藏经阁团队和浙江大学开放的数字商业知识图谱评测基准 OpenBG Benchmark 提供了在数字商业领域知识图谱的评测数据集,覆盖基于知识图谱的商品显著性推理、商品同款挖掘、电商知识图谱链接预测等任务,对模型展开了全方位的评测,旨在帮助科研和算法人员对模型取得更好的理解。


OpenBG Benchmark 介绍


OpenBG Benchmark 是一个大规模开放数字商业知识图谱评测基准,包含多个子数据集任务。数据集以开放的数字商业知识图谱 OpenBG[2]为基础构建,OpenBG 是开放的数字商业知识图谱,是一个使用统一 Schema 组织、涵盖产品和消费需求的百万级多模态数据集。OpenBG 由阿里巴巴藏经阁团队和浙江大学提供,开放的目标是利用开放的商业知识发现社会经济的价值,促进数字商务数字经济等领域的交叉学科研究,服务数字经济健康发展的国家战略需求。首期开放包含以下三大类任务:


商品常识知识显著性推理


  • 任务描述


常识知识是被社会广泛承认的对同一事物普遍存在的日常共识。在电商场景中,显著性常识基于背后的知识体系,能为不同的用户推荐合适的商品,对用户体验和购物效率有重要的意义。现有的常识分类方法往往只注重评判常识是否合理,如 "跑步需要喝水"、"出差需要背包"。但当在电商平台搜索 "跑步" 时,瓶装水一般不是用户真实的购物意图,用户关注的商品一般是 “跑步鞋”、“跑步机” 等健身用品;在搜索 "出差" 时,“背包”一般并不是用户需要的商品,但 “旅行箱” 可能是符合用户意图的商品。显著的常识可以帮助搜索引擎有更好的理解能力,从而返回更贴合用户需要的商品。


  • 任务说明


本任务要求对电商常识三元组的显著性进行判断,即给定常识三元组(S,P,O),输出其显著性分类标签,如下表所示,其中 1 表示显著,0 表示不显著。


商品同款挖掘


  • 任务描述


同款商品是指商品的重要属性完全相同且客观可比的商品,商品同款识别的主要目的是从海量结构化和无结构化的商品图文数据库中匹配得到同款商品,是构建电商产品关系的重要环节。商品同款作为商品知识图谱的重要组成部分,有很多应用场景,如同款商品发现等。


  • 任务说明


我们将商品同款识别任务定义为二分类任务,即给定商品对信息,判断商品 item 是否同款,示例如下:



商品关系推理与链接预测


  • 任务描述


由于知识图谱普遍存在不完整的问题,因此需要关系推理与链接预测技术对缺失的图谱节点进行预测。本任务旨在提升数字商业场景下知识图谱嵌入效果,满足商品推荐等应用对推理商品潜在关联性的需求。


  • 任务说明


知识图谱一般通过三元组(h,r,t)的形式组织数据,其中 h 被称为头实体,t 为尾实体,r 为连接头、尾实体的关系。如下图所示(“化妆棉”,“品牌”,“屈臣氏”)就是一个图谱三元组。知识图谱的链接预测任务指的是已知头实体(或尾实体)和关系的情况下,预测缺失的尾实体(或头实体)。下图中,(“化妆棉”,“适用群体”,?)就是一个链接预测任务,需要预测出尾实体。


  • 数据集


与商品常识显著性推理以及同款挖掘任务不同的是,链接预测任务由 3 个子任务数据集组成:OpenBG500、OpenBG500-L 和 OpenBG-IMG。其中 OpenBG500 包含 500 类关系,含百万级别规模的图谱数据;OpenBG500-L 在 OpenBG500 的基础上扩大了数据规模,含千万级别规模的图谱数据,是电子商务领域大规模的知识图谱;OpenBG-IMG 是电商领域的多模态知识图谱。3 个数据集均以 OpenBG 为基础构建,构建流程如下:


OpenBG Benchmark 挑战榜


OpenBG Benchmark 的提出旨在解决当前数字商业领域知识图谱数据集相对匮乏的问题,为算法和科研人员提供评测基准去衡量算法模型的有效性。基于 OpenBG Benchmark 阿里巴巴藏经阁团队曾在 CCKS2022 大会成功组织了学术评测比赛,吸引了 3000 多支队伍报名参赛。目前 OpenBG Benchmark 已经在阿里云天池平台长期开放,感兴趣的研究者们可以访问如下链接参与挑战,平台会在每个月的月底评出榜单 Top5 选手,并赠予天池定制礼品!


挑战榜地址:https://tianchi.aliyun.com/dataset/122271


官方也提供了基线代码供算法人员参考: https://github.com/OpenBGBenchmark


OpenBG 参考论文如下:

  • Qu, Yincen, et al. "Commonsense Knowledge Salience Evaluation with a Benchmark Dataset in E-commerce." Findings of EMNLP 2022.
  • Xie, Xin, et al. "From Discrimination to Generation: Knowledge Graph Completion with Generative Transformer." WWW 2022 (Poster).
  • Deng, Shumin, et al. "Construction and Applications of Billion-Scale Multimodal Pre-trained Business Knowledge Graph." arXiv preprint arXiv:2209.15214  2022.


引用:

[1] https://www.nature.com/articles/nature14539

[2] https://kg.alibaba.com

相关文章
|
机器学习/深度学习 数据采集 人工智能
阿里巴巴首次揭秘电商知识图谱AliCoCo!淘宝搜索原来这样玩!
电商技术进入认知智能时代,将给亿万用户带来更加智能的购物体验。经过两年的探索与实践,阿里巴巴的电商认知图谱 AliCoCo 已成体系规模,并在搜索推荐等电商核心业务场景上取得佳绩,关于 AliCoCo 的文章《AliCoCo: Alibaba E-commerce Cognitive Concept Net》也已被国际顶会 SIGMOD 接收,这是阿里巴巴首次正式揭秘领域知识图谱。 本文将通过介绍 AliCoCo 的背景、定义、底层设计、构建过程中的一些算法问题,以及在电商搜索和推荐上的广泛应用,分享 AliCoCo 从诞生到成为阿里巴巴核心电商引擎的基石这一路走来的思考。
20213 2
阿里巴巴首次揭秘电商知识图谱AliCoCo!淘宝搜索原来这样玩!
|
数据采集 存储 自然语言处理
如何搭建企业级知识图谱系统
企业级知识图谱系统作为一种基于图谱技术的知识管理工具,能够帮助企业更好地整合、管理和利用知识资源,提高决策效率和准确性,为企业的发展提供有力支持。
|
12月前
|
数据采集 人工智能 自然语言处理
AI终于能听懂宝宝说话了!ChildMandarin:智源研究院开源的低幼儿童中文语音数据集,覆盖22省方言
ChildMandarin是由智源研究院与南开大学联合推出的开源语音数据集,包含41.25小时3-5岁儿童普通话语音数据,覆盖中国22个省级行政区,为儿童语音识别和语言发展研究提供高质量数据支持。
1253 20
AI终于能听懂宝宝说话了!ChildMandarin:智源研究院开源的低幼儿童中文语音数据集,覆盖22省方言
|
7月前
|
人工智能 自然语言处理 数据可视化
手把手教你用LLM图转换器构建知识图谱:从文本到知识的智能转换
本文介绍如何利用大型语言模型(LLM)自动化构建知识图谱,涵盖核心技术、实现方法、优化策略及多领域应用,助力从非结构化文本中高效提取结构化知识。
|
人工智能 JSON API
使用 Qwen 生成数据模型和进行结构化输出
本教程展示如何使用CAMEL框架和Qwen模型生成结构化数据。CAMEL是一个强大的多智能体框架,支持复杂的AI任务;Qwen由阿里云开发,具备自然语言处理等先进能力。教程涵盖安装、API密钥设置、定义Pydantic模型,并演示了通过Qwen生成JSON格式的学生信息。最后,介绍了如何利用Qwen生成多个随机学生信息的JSON格式数据。欢迎在[CAMEL GitHub](https://github.com/camel-ai/camel)上为项目点星支持。
4183 70
|
文字识别
统一多模态Embedding, 通义实验室开源GME系列模型
随着多媒体应用的迅猛发展,用户产生的数据类型日益多样化,不再局限于文本,还包含大量图像、音频和视频等多模态信息。这为信息检索带来了前所未有的挑战与机遇。传统的信息检索模型多关注单一模态,如仅对文本或图像进行分析和搜索。
3043 6
|
人工智能
快速部署 Xinference 社区版
Xorbits Inference (Xinference) 是一个开源平台,用于简化各种 AI 模型的运行和集成。借助 Xinference,您可以使用任何开源 LLM、嵌入模型和多模态模型在云端或本地环境中运行推理,并创建强大的 AI 应用。本文介绍如何使用计算巢快速部署Xinference服务。
快速部署 Xinference 社区版
|
Java 开发工具
开发工具系类 之 Cannot determine path to ‘tools.jar‘ library for 17 (D:/Program Files/Java/jdk-17.0.9)
这篇文章讲述了作者在升级JDK至17版本后遇到IDEA无法识别`tools.jar`的问题,并提供了两种解决方法:升级IDEA版本或降低JDK版本,并提供了相关版本的IDEA兼容性信息。
开发工具系类 之 Cannot determine path to ‘tools.jar‘ library for 17 (D:/Program Files/Java/jdk-17.0.9)
|
存储 机器学习/深度学习 人工智能
大型语言模型与知识图谱协同研究综述:两大技术优势互补(1)
大型语言模型与知识图谱协同研究综述:两大技术优势互补
1436 0
|
Python
Pycharm为Python项目配置环境不生效,解决办法
在PyCharm中,项目依赖配置更改后未生效。解决步骤包括:1) 查找`C:\Users\username\AppData\Roaming\JetBrains\PyCharm2022.2\options\jdk.table.xml`,2) 删除`<jdk></jdk>`标签内的旧配置内容,然后重启PyCharm以应用新目录。
1720 0
Pycharm为Python项目配置环境不生效,解决办法

热门文章

最新文章