歧义代词数据集有哪些公开数据集的下载方式

简介: Winograd Schema Challenge (WSC)数据集的下载网站是:https://cs.nyu.edu/faculty/davise/papers/WinogradSchemas/WSCollection.xml。

歧义代词数据集有以下公开数据集可以下载:

  1. Winograd模式挑战数据集 下载地址:https://cs.nyu.edu/faculty/davise/papers/WinogradSchemas/WSCollection.xml
  2. GAP数据集 下载地址:https://github.com/google-research-datasets/gap-coreference
  3. OntoNotes 5.0数据集 下载地址:https://catalog.ldc.upenn.edu/LDC2013T19

你可以通过上述链接下载相应的数据集,每个数据集都有其独特的特点和用途。例如,Winograd模式挑战数据集可以用来测试自然语言推理,而GAP数据集主要用于消解代词消解。


除了上述提到的数据集之外,还有以下几个常用的歧义代词数据集:

  1. GAP Coreference Dataset: 该数据集包含2000个来自维基百科的句子,其中包含四种类型的歧义代词(A, B, P, NONE),用于指代男性、女性或组织名称。数据集提供标注信息,可用于判断歧义代词的指向。
  2. OntoNotes 5.0: 该数据集包含新闻、广播、谈话和网络语言等多个领域的数据,是一个广泛使用的语料库。其中包含关于指代消解的标注信息。
  3. Winograd Schema Challenge (WSC): WSC是一种歧义代词的解决任务,其中涉及到具有歧义的句子,需要根据上下文信息判断代词的指向。WSC提供了大量具有挑战性的样例,涵盖了多种语言和领域。

以上数据集都可以在相应的官方网站上进行下载。


以下是数据集官方网站:

请注意,某些数据集可能已经更新或迁移,因此请确保从官方网站下载最新的数据集。



GAP Coreference Dataset的下载网站为:https://github.com/google-research-datasets/gap-coreference


OntoNotes 5.0的下载网站是LDC官方网站:https://catalog.ldc.upenn.edu/LDC2013T19。下载需要注册LDC账户并购买授权。


Winograd Schema Challenge (WSC)数据集的下载网站是:https://cs.nyu.edu/faculty/davise/papers/WinogradSchemas/WSCollection.xml。




目录
相关文章
|
存储 数据采集 传感器
一文多图搞懂KITTI数据集下载及解析
一文多图搞懂KITTI数据集下载及解析
10580 2
一文多图搞懂KITTI数据集下载及解析
|
1月前
|
数据采集 机器学习/深度学习 算法
【python】python客户信息审计风险决策树算法分类预测(源码+数据集+论文)【独一无二】
【python】python客户信息审计风险决策树算法分类预测(源码+数据集+论文)【独一无二】
|
4月前
|
人工智能 机器人 数据挖掘
【python】电影评分数据集的分析(python实现)(源码+报告)【独一无二】
【python】电影评分数据集的分析(python实现)(源码+报告)【独一无二】
|
4月前
|
机器学习/深度学习 存储 人工智能
【python】python葡萄酒数据集—分类建模与分析(源码+数据集)【独一无二】
【python】python葡萄酒数据集—分类建模与分析(源码+数据集)【独一无二】
|
存储 缓存 人工智能
用于 LLM 的公开的数值数据
用于 LLM 的公开的数值数据
162 0
|
机器学习/深度学习 数据采集 自然语言处理
中文电影数据集情感分类的torch网络,数据集下载地址
步骤如下: 1. 数据集:找到一个中文电影评论数据集,可以从以下网站下载: • https://www.aclweb.org/anthology/O18-2012/ • https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/ChnSentiCorp_htl_all/intro.ipynb • 2. 数据预处理:将数据集分为训练集和测试集,并进行数据清洗、分词等预处理。 3. 构建模型:使用 PyTorch 框架构建一个情感分类模型,可以使用 LSTM 或 Transformer 等深度学习模型。 4. 5.
484 0
|
自然语言处理
中英文语料公开数据集大全
中英文语料公开数据集大全
|
机器学习/深度学习 数据可视化 自动驾驶
分类器可视化解释StylEx:谷歌、MIT等找到了影响图像分类的关键属性
分类器可视化解释StylEx:谷歌、MIT等找到了影响图像分类的关键属性
110 0
|
机器学习/深度学习 人工智能 自然语言处理
Kaggle大神们都在用什么语言、框架、模型?这里有一份详细统计
Kaggle大神们都在用什么语言、框架、模型?这里有一份详细统计
144 0
|
存储 机器学习/深度学习 算法
【论文速递】ACM2022 - 基于嵌入自适应更新和超类表示的增量小样本语义分割
【论文速递】ACM2022 - 基于嵌入自适应更新和超类表示的增量小样本语义分割
152 0
【论文速递】ACM2022 - 基于嵌入自适应更新和超类表示的增量小样本语义分割