7 Papers & Radios | ACL 2022最佳&杰出论文;谷歌3D扫描家用物品数据集(1)

简介: 7 Papers & Radios | ACL 2022最佳&杰出论文;谷歌3D扫描家用物品数据集

本周重要论文包括:ACL 2022 最佳论文、最佳主题论文和杰出论文,以及谷歌公布的包含 17 大类、1030 个家用物品的 13GB 家用物品 3D 扫描数据集。


目录:

Learned Incremental Representations for Parsing

Requirements and Motivations of Low-Resource Speech Synthesis for Language Revitalization

Evaluating Factuality in Text Simplification

Learning to Generalize to More: Continuous Semantic Augmentation for Neural Machine Translation

PP-YOLOE: An evolved version of YOLO

Google Scanned Objects: A High-Quality Dataset of 3D Scanned Household Items

Ditch the Gold Standard: Re-evaluating Conversational Question Answering

ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)


论文 1:Learned Incremental Representations for Parsing


摘要:该研究提出了一种增量句法表示,该表示包括为句子中的每个单词分配一个离散标签,其中标签是使用句子前缀的严格增量处理来预测的,并且句子标签序列完全确定了解析树。该研究旨在诱导一种句法表示,它只在句法选择由输入逐渐显示时才确定这些选择,这与标准表示形成鲜明对比,标准表示必须进行输出选择,例如推测性的附件,然后抛出相互冲突的分析。
该研究学习的表示在 Penn Treebank 上达到了 93.72 F1,且每个单词只有 5 bit;在每个单词为 8 bit 时,该研究在 Penn Treebank 上达到了 94.97 F1,这和使用相同的预训练嵌入时的 SOTA 解析模型相当。该研究还对系统学习到的表示进行了分析,他们研究了系统捕获的可解释句法特征等属性,以及句法歧义的延迟解决机制。

解析器使用不同句法表示和预训练编码器时,在 WSJ 测试集上的 F1 分数。

使用不同模型上下文时,在 WSJ 开发集上的解析性能。

将本研究的 read-out 网络应用于句法标记序列的前缀表明句法决策致力于增量,并且不是所有的都推迟到句子最后。 推荐:加州大学伯克利分校的这项增量句法表示研究被评为 ACL 2022 最佳论文。

论文 2:Requirements and Motivations of Low-Resource Speech Synthesis for Language Revitalization


摘要:该研究阐述了语音合成系统的发展动机和目的,以振兴语言。通过为加拿大使用的三种土著语言 (Kanien 'kéha, Gitksan 和 SENĆOŦEN) 构建语音合成系统,该研究重新评估了需要多少数据才能构建具有 SOTA 性能的低资源语音合成系统。例如,该研究在英语数据的初步结果表明,在训练数据上训练 1 小时的 FastSpeech2 模型可以产生与训练 10 小时的 Tacotron2 模型语音自然度相当。
最后,该研究们鼓励在语音合成领域进行评估和课堂整合来进行未来研究,以实现语言复兴。

在 LJ 语料库上训练 100k 步后提取的 Tacotron2 注意力网络权重的可视化图。

来自 MUSHRA 问题中调研数据的箱型图,比较了 Tacotron2 (TT2) 和 FastSpeech2 (FS2) 模型与有限的训练数据量。

推荐:ACL 2022 最佳主题论文。


相关文章
|
10月前
|
Docker 容器 Perl
云效flow构建docker镜像更换apt源为阿里镜像源
在 Dockerfile 中添加命令以更换 Debian 源为阿里云镜像,加速容器内软件包下载。核心命令通过 `sed` 实现源地址替换,并更新 apt 软件源。其中 `cat` 命令用于验证替换是否成功,实际使用中可删除该行。
2003 32
|
7月前
|
canal 数据可视化 关系型数据库
2025年5大国产ETL工具横向评测
在企业数据管理中,ETL工具成为整合分散数据的关键。本文介绍了五款主流国产ETL工具:FineDataLink(低代码、功能全面)、Kettle(开源易用)、DataX(高速同步)、Canal(MySQL实时增量处理)和StreamSets(可视化强),帮助用户根据需求选择最合适的工具,提升数据效率与业务价值。
1630 56
|
JSON 应用服务中间件 API
使用 Gin 框架实现文件上传:机制与深入解析
使用 Gin 框架实现文件上传:机制与深入解析
|
数据采集 存储 自然语言处理
【优秀python案例】基于百度贴吧的数据采集与文本分析设计与实现
本文介绍了百度贴吧数据采集与文本分析的设计与实现,包括自动化采集帖子数据、进行情感分析和主题分析,以及使用可视化技术展示分析结果。
946 111
|
人工智能 自然语言处理 物联网
LLM2CLIP:使用大语言模型提升CLIP的文本处理,提高长文本理解和跨语言能力
LLM2CLIP 为多模态学习提供了一种新的范式,通过整合 LLM 的强大功能来增强 CLIP 模型。
742 3
LLM2CLIP:使用大语言模型提升CLIP的文本处理,提高长文本理解和跨语言能力
|
消息中间件 开发框架 监控
NET任务调度框架Hangfire使用指南
Hangfire 是一个用于 .NET 应用程序的开源任务调度框架,支持长时间运行任务、定时任务等。通过简单的安装配置,即可将任务从主线程分离,提升应用性能。支持多种数据库,提供丰富的任务类型如立即执行、延迟执行和周期性任务,并有可视化管理界面 Hangfire Dashboard。还支持安全性配置及扩展插件,如 Hangfire.HttpJob,适合各种复杂场景下的任务调度需求。
1419 1
NET任务调度框架Hangfire使用指南
|
存储 关系型数据库 MySQL
百万数据怎么入库mysql mysql百万级数据
      1、连接数据库的问题:建立连接和关闭连接的次数太多,导致IO访问次数太频繁。        2、应该使用批量插入和批量修改的方法,而不是有一条数据就进行插入,这样会导致访问数据库的实际特别的慢。
|
芯片
【寄存器开发速成】半小时入门STM32寄存器开发(一)
【寄存器开发速成】半小时入门STM32寄存器开发(一)
619 0
|
存储 机器学习/深度学习 数据安全/隐私保护
最全Pillow(PIL)入门教程(非常详细)_python pillow 教程,2024年最新Python面试送分题
最全Pillow(PIL)入门教程(非常详细)_python pillow 教程,2024年最新Python面试送分题
最全Pillow(PIL)入门教程(非常详细)_python pillow 教程,2024年最新Python面试送分题
|
消息中间件 存储 算法
RocketMQ学习笔记
RocketMQ学习笔记
401 0