7 Papers & Radios | MIT造出薄如纸的音响;腾讯「绝艺」打麻将战胜人类冠军(1)

简介: 7 Papers & Radios | MIT造出薄如纸的音响;腾讯「绝艺」打麻将战胜人类冠军

本周论文包括 MIT 造出的薄如纸的音响,以及腾讯 AI Lab 用全新策略优化算法在 1 V 1麻将中战胜人类冠军的「绝艺」。


目录

Mugs: A Multi-Granular Self-Supervised Learning Framework

E-KAR: A Benchmark for Rationalizing Natural Language Analogical Reasoning

Contact Points Discovery for Soft-Body Manipulations with Differentiable Physics

An Ultra-Thin Flexible Loudspeaker Based on a Piezoelectric Micro-Dome Array

Actor-Critic Policy Optimization in a Large-Scale Imperfect-Information Game

BOAT: Bilateral Local Attention Vision Transformer

Too Afraid to Drive: Systematic Discovery of Semantic DoS Vulnerability in Autonomous Driving Planning under Physical-World Attacks

ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)


论文 1:Mugs: A Multi-Granular Self-Supervised Learning Framework


摘要:现在的自监督学习方法一般都只侧重于单粒度特征的学习。譬如,最经典的对比学习 MoCo [2] 构建实例识别任务来区分单个实例。这样一来,MoCo 侧重学习更多实例级的细粒度特征,但是它不考虑数据中粗粒度的类别结构(cluster structure)。另外一类具有代表性的自监督学习是基于聚类的自监督学习,包含 DINO [3],DeepCluster [4] 等。这类方法将类似的实例聚到同一个虚拟类别中,从而学习聚类级别的粗粒度特性。然而,它不能很好地处理对细粒度特性有所需求的下游任务。因此,在下游任务的特征偏好未知的情况下,我们应该构建一个学习多粒度特征的自监督学习框架,以便尽可能多地处理不同下游任务。

本文中,颜水成老师带领的 Sea AI Lab 提出了一种多粒度自监督学习框架 Mugs [1],用以学习不同粒度的非监督特征,从而满足不同下游任务对不同粒度甚至多粒度特征的需求。在相同的实验设置下(相同数据集和模型等),该方法大幅超越了目前最好的自监督学习方法。在没有使用额外数据的情况下,该方法在 ImageNet 数据集上取得了目前最高的线性评估准确率(linear probing accuracy)82.1% 以及最高的 KNN 分类准确率 80.3%。

Mugs 自监督学习整体框架。

在 ImageNet-1K 上 Linear Probing 和 KNN 的精度对比。

Mugs 预训练的 ViT-Base/16 上的自注意力可视化。

推荐:满足不同下游任务特征需求!Sea AI Lab 提出多粒度自监督学习框架 Mugs,刷新多项 SOTA。

论文 2:E-KAR: A Benchmark for Rationalizing Natural Language Analogical Reasoning


摘要:类比在人类认知中占有重要地位,通过类比可以发现新的见解和证明日常的推理,比如老师在课堂上用煮熟的鸡蛋类比地球的构造,使得学生很快理解了不能亲自体验的知识。由于在多个领域有着独特价值,类比成为了人工智能研究领域的重要问题。在 NLP 中,我们比较熟悉的是以多选题形式出现的词类比识别问题,然而现有的词类比数据集关注简单的二元类比关系,并且缺乏用于届时类比推理过程的标注信息。因此,解答这一类问题并不能揭示神经网络模型类比推理的内在过程,这对探究类比的内部性质来说是不利的 [6]。我们亟需一类更困难的、可解释的类比推理数据集。

本文介绍来自复旦大学、字节跳动人工智能实验室等机构研究者的最新工作 E-KAR,相关工作已经被 ACL 2022 Findings 接收。E-KAR 是首个可解释的知识密集型类比推理数据集,由 1,655 个(中文)和 1,251 个(英文)来自中国公务员考试的问题组成,并提出了类比推理问题的两个基准任务,用于教会和验证模型学习类比的能力

BATS 数据集中的示例。

类比推理中的结构映射。

词嵌入在 E-KAR 和简单类比数据集上的准确率。

推荐:复旦、字节等推出首个可解释类比推理数据集,中英双语。

论文 3:Contact Points Discovery for Soft-Body Manipulations with Differentiable Physics


摘要:最近的研究表明,可微分物理是解决软体控制任务的强大工具。然而,当末端执行器的初始接触点次优或在多阶段任务中执行接触点切换时,可微物理求解器经常会卡住并导致局部最小值。

为了解决该问题,来自罗彻斯特大学、MIT 等机构的研究者提出了一种接触点发现方法 (CPDeform)。该方法的关键思想是将基于最优传输的接触点发现算法集成到可微物理求解器中,以克服初始接触点次优或接触点切换时的局部极小值,并在单阶段任务和多阶段任务上分别取得良好性能。论文已被 ICLR 2022 接收为 Spotlight Presentation。

在多阶段任务上,CPDeform 基于运输优先级可以迭代切换末端执行器的接触点。

CPDefeorm 对于操纵器的放置。

CPDeform 迭代变形的过程。

推荐:让 AI 学会捏橡皮泥飞机,罗彻斯特大学、MIT 等提出接触点发现算法 CPDeform。

论文 4:An Ultra-Thin Flexible Loudspeaker Based on a Piezoelectric Micro-Dome Array


摘要:麻省理工学院的工程师们开发出了一种像纸一样薄的扬声器,可以将任何表面变成音源。它的重量相当于一个 10 美分的硬币,无论粘在什么表面上都能生成高品质的声音。这种薄膜扬声器产生的声音失真最小,而且使用的能量也比传统扬声器少得多。为了实现这些特性,研究人员开创了一种看似简单的制造技术,只需要三个基本步骤。利用这种技术,他们可以制造出足够大的超薄扬声器,覆盖汽车内部或整个房间。

此外,这种薄膜扬声器可以通过产生振幅相同但相位相反的声音,在嘈杂的环境(如飞机驾驶舱)中进行主动降噪。这种灵活的设备还可以用于沉浸式娱乐,比如在剧院或主题公园里提供三维音频。由于它重量轻,运行时需要的电量很少,因此非常适合电池寿命有限的智能设备应用。

实物展示。

薄膜扬声器的设计。

推荐:MIT 造出薄如纸的音响,可铺满全屋。

论文 5:Actor-Critic Policy Optimization in a Large-Scale Imperfect-Information Game


摘要:对于 AI 领域的研究者和从业者来说,腾讯 AI Lab 研发的围棋 AI「绝艺」的名字并不陌生。自 2016 年面世后,它已四次夺得世界顶级赛事冠军,包括 UEC 杯、AI 龙星战、腾讯世界人工智能围棋大赛、世界智能围棋公开赛等,并自 2018 年起无偿担任中国国家围棋队训练专用 AI。在围棋以外,腾讯 AI Lab 绝艺团队持续深入研究大规模二人零和博弈问题,从完美信息游戏(围棋)逐步拓展至非完美信息游戏(例如麻将)。

4 月 25 日,腾讯 AI Lab 宣布棋牌类 AI「绝艺」取得新突破,在 1v1 麻将(二人雀神)测试中战胜职业冠军选手。团队在大规模强化学习算法框架下提出了一个新的策略优化算法 Actor-Critic Hedge (ACH),部分解决了大规模深度强化学习自博弈收敛不到纳什均衡最优解的问题。该算法及对应二人麻将 benchmark 已通过论文开源,并被机器学习顶会 ICLR 2022 收录。

ACH 具体算法流程。

针对 1v1 麻将的具体神经网络设计图。

二人麻将:「二人雀神」。

推荐:让绝艺上桌打麻将,腾讯 AI Lab 全新策略优化算法战胜人类冠军。


相关文章
|
NoSQL Linux 编译器
Linux下交叉编译gdb,gdbserver+gdb的使用以及通过gdb调试core文件
交叉编译gdb和gdbserver 1、下载gdb:下载地址为:http://ftp.gnu.org/gnu/gdb/按照一般的想法,最新版本越好,因此下载7.2这个版本。当然,凡事无绝对。我们以gdb-7.2.tar.bz2 这个文件为例。
8401 1
|
机器学习/深度学习 人工智能 自然语言处理
国产AI神器Deepseek,本地离线使用教程!
国产AI神器Deepseek,本地离线使用教程!
1739 14
|
JSON 人工智能 API
程序调用大模型返回结构化输出(JSON)
本文介绍了如何使用讯飞星火大模型API,并通过Python封装实现结构化数据输出。首先,通过封装SparkAI类,实现了与讯飞星火API的交互,确保了调用的安全性和便捷性。接着,利用Pydantic库定义了数据模型`CalendarEvent`,确保从大模型获取的回答能够被正确解析成预设的结构化JSON格式,从而解决了大模型回答不规范的问题。示例代码展示了如何构造请求、接收并解析响应,最终输出结构化的活动信息。
1842 5
|
Python
string indices must be integers
string indices must be integers
355 0
|
边缘计算 虚拟化 云计算
虚拟化技术:云计算发展的核心驱动力
虚拟化技术:云计算发展的核心驱动力
2275 1
|
IDE 前端开发 Java
在 Visual Studio Code 中使用 CodeFuse
Visual Studio Code作为一款广受程序员欢迎的代码编辑器,在前端开发和各类脚本语言开发中占据主流地位,CodeFuse智能研发助手就专门为VS Code研发了插件,只要安装插件就可以使用CodeFuse提供的各种功能,下面我们看看如何在VS Code中使用CodeFuse插件呢?
951 0
|
jenkins Shell 持续交付
jenkins权限问题
jenkins权限问题
440 0
|
编解码 人工智能 算法
首篇 | M2BEV:统一BEV表征的多摄像头多任务框架(英伟达、香港大学)
本文提出统一框架M2BEV,可以在BEV空间中与多镜头图像联合实现3D目标检测和BEV分割。与之前工作的区别在于,M2BEV使用一个模型输出两个任务并提高了效率。M2BEV有效地将多视图2D图像特征转换为ego-car坐标系中的3D BEV特征。这种BEV表示的重要性在于它可以使不同的任务能够共享单个编码器。
首篇 | M2BEV:统一BEV表征的多摄像头多任务框架(英伟达、香港大学)
|
缓存 JavaScript 前端开发
el-table 列的动态显示与隐藏
当我们在对表格数据查看的时候,可能某些列的数据是当前想要重点关注的,而某些列并不需要展示出来,我们就可以通过对表格的列进行实时的一个切换去实现动态的显示与隐藏。