哈佛用NBA比赛数据生成报道,评测各模型效果 | 数据集+论文+代码

简介:
本文来自AI新媒体量子位(QbitAI)

近日,哈佛大学的三名研究人员公开发表论文《Challenges of Data-to-Document Generation》,利用NBA的比赛结果数据尝试生成描述性文本,并测试了现有的神经网络模型生成文本效果如何。

这篇论文由Sam Wiseman、Stuart M. Shieber和Alexander M. Rush三人共同完成。Wiseman是工程和应用科学学院的博士生,Shieber和Rush同是是哈佛大学的NLP专家。

 从左到右依次为Wiseman、Shieber和Rush

论文摘要

神经模型已经在小型数据库生成短描述文本问题上取得了重大进展。在这篇文章中,我们用稍微复杂的数据库测试神经模型数据转文本的能力,探究现有方法在这个任务中的有效性。

首先,我们引入了一个记载了大量数据的语料库,里面也包含与数据匹配的描述性文档。随后,我们创建了一套用来分析表现结果的评估方法,并用当前的神经模型生成方法获取基线观测数据。

结果表明,这些模型可以生成流畅的文本,但看起来不像人类写的。此外,模板化的基线在某些指标上的表现会超过神经模型。

测试数据集

研究人员用两个数据集测试模型性能。

第一个数据集是来自体育网站ROTOWIRE的4853篇NBA比赛报道,包含NBA在2014年初到2017年3月之间的比赛。这个数据集被随机分为训练、验证和测试集,分别包含3398、727和728条报道。

第二个数据集来自体育网站SBNation,涵盖了10903篇从2006年底到2017年3月之间的报道。其中训练、验证和测试集中分别有7633、1635和1635条报道。

下面这张表格展示了数据集中可能被记录的信息——

 可能被记录的信息

测试结果

研究人员从ROTOWIRE数据库中抽取了以下数据,里面同时包含了比分数据和球员信息,让模型转化成文本。

根据上面的数据,神经模型生成了以下文字内容。虽然不如新闻报道有文采,但看起来还算流利。

扩展资料

最后,附送研究详细信息——

Paper地址:

https://arxiv.org/pdf/1707.08052.pdf

Dataset地址:

https://github.com/harvardnlp/boxscore-data

Code地址:

https://github.com/harvardnlp/data2text

【完】

本文作者:安妮 
原文发布时间:2017-07-28
相关文章
|
消息中间件 Kafka Windows
Kafka Windows运行错误:创建消费者报错 consumer zookeeper is not a recognized option
Kafka Windows运行错误:创建消费者报错 consumer zookeeper is not a recognized option
914 0
Kafka Windows运行错误:创建消费者报错 consumer zookeeper is not a recognized option
|
安全 Linux 网络安全
操作系统的基础配置(CentOS 7)
1.修改默认主机名 2.配置IP地址 3.为系统添加操作用户 4.安装常用的软件 5.配置yum源 6.关闭防火墙服务 7.关闭SELinux服务 8.修改SSH服务默认配置 9.修改文件描述符 10.登录超时退出
1567 0
操作系统的基础配置(CentOS 7)
|
存储
408计算机组成原理学习笔记——指令系统(上)
408计算机组成原理学习笔记——指令系统
1147 1
408计算机组成原理学习笔记——指令系统(上)
|
机器学习/深度学习 存储 算法
408考研数据结构复习-时间复杂度与空间复杂度-附统考真题
408考研数据结构复习-时间复杂度与空间复杂度-附统考真题
408考研数据结构复习-时间复杂度与空间复杂度-附统考真题
|
数据采集 Web App开发 安全
「Python」爬虫-10.代理与常见报错
本文就关于爬虫**代理**以及在爬虫过程中可能出现的**报错**做一个汇总。
974 0
|
JavaScript 前端开发 Oracle
Java8 新特性:Lambda 表达式、方法和构造器引用、Stream API、新时间与日期API、注解
Java 8 (又称为 jdk 1.8) 是 Java 语言开发的一个主要版本。 Oracle 公司于 2014 年 3 月 18 日发布 Java 8 ,它支持函数式编程,新的 JavaScript 引擎,新的日期 API,新的Stream API 等等。
902 0
Java8 新特性:Lambda 表达式、方法和构造器引用、Stream API、新时间与日期API、注解
|
存储 安全 网络协议
iOS逆向-day2:逆向环境搭建-SSH 安全连接(上)
1、SSH与OpenSSH简介 2、Mac远程登录到iPhone 3、iOS下的2个常用账户:root、mobile 4、SSL和OpenSSL 5、建立安全连接与服务器公钥的保存和变更 6、SSH-客户端认证 7、SSH-远程拷贝-文件权限 8、22端口 9、通过USB进行SSH登录 10、usbmuxd-使用 11、利用sh脚本设置快捷方式 12、Mac连接iPhone终端的中文乱码问题
721 0
iOS逆向-day2:逆向环境搭建-SSH 安全连接(上)
|
算法 Java Linux
Android自动化批量图片压缩插件McImage
Android自动化批量图片压缩插件McImage
845 0
Android自动化批量图片压缩插件McImage
|
物联网 5G 调度
前几代蜂窝通信的演进 | 带你读《5G非正交多址技术》之一
前几代蜂窝通信基本上都是采用正交多址的方式。在第五代移动 通信中,非正交多址作为物理层的关键基础技术,弥补了正交 多址的不足,更加有效地支持 5G 丰富的部署场景:eMBB、URLLC 和 mMTC。不仅可以增加下行调度系统的频谱效率,还能大大提升上行免 调度场景下的用户连接数和系统吞吐。
前几代蜂窝通信的演进 | 带你读《5G非正交多址技术》之一
|
XML 机器学习/深度学习 自然语言处理
Day14:使用斯坦福 NER 软件包实现你自己的命名实体识别器(Named Entity Recognition,NER)
我并不是一个机器学习(Machine Learning)、自然语言处理(Natural Text Processing,NLP)等的狂热者,但我总会想到一些需要用到它们的主意。我们今天在这篇博文中要实现的目标是:利用 Twitter 数据建立一个实时的职位搜索。每个单独的搜索结果要包括提供职位的公司名称、工作的地点、去公司应聘时联系的人。这需要我们从 个人(Person)、地点(Location)、组织(Organisation)三方面去分析每一条推(tweet)。这类问题被归为命名实体识别(Named Entity Recognition,NER)问题。
991 0
Day14:使用斯坦福 NER 软件包实现你自己的命名实体识别器(Named Entity Recognition,NER)