7 Papers & Radios | 谷歌大牛Jeff Dean撰文深度学习的黄金十年；扩散模型生成视频(2)-阿里云开发者社区

7 Papers & Radios | 谷歌大牛Jeff Dean撰文深度学习的黄金十年；扩散模型生成视频(2)

2023-05-15 306

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 7 Papers & Radios | 谷歌大牛Jeff Dean撰文深度学习的黄金十年；扩散模型生成视频

论文 6：Overcoming a Theoretical Limitation of Self-Attention

作者：David Chiang 、 Peter Cholak
论文链接：https://arxiv.org/pdf/2202.12172.pdf

摘要：尽管 transformer 模型在许多任务中都非常有效，但它们对一些看起来异常简单的形式语言却难以应付。Hahn (2020) 提出一个引理 5），来试图解释这一现象。这个引理是：改变一个输入符号只会将 transformer 的输出改变 𝑂(1/𝑛)，其中 𝑛 是输入字符串的长度。

因此，对于接收（即判定某个字符串是否属于某个特定语言）只取决于单个输入符号的语言，transformer 可能会以很高的准确度接受或拒绝字符串。但是对于大的 𝑛，它必须以较低的置信度做出决策，即给接受字符串的概率略高于 ½，而拒绝字符串的概率略低于 ½。更准确地说，随着 𝑛 的增加，交叉熵接近每个字符串 1 比特，这是最坏情况的可能值。

近期，在论文《Overcoming a Theoretical Limitation of Self-Attention》中，美国圣母大学的两位研究者用以下两个正则语言（PARITY 和 FIRST）来检验这种局限性。

Hahn 引理适用于 PARITY，因为网络必须关注到字符串的所有符号，并且其中任何一个符号的变化都会改变正确答案。研究者同时选择了 FIRST 作为引理适用的最简单语言示例之一。它只需要注意第一个符号，但因为更改这个符号会改变正确答案，所以该引理仍然适用。

尽管该引理可能被解释为是什么限制了 transformer 识别这些语言的能力，但研究者展示了三种可以克服这种限制的方法。

首先，文章通过显式构造表明，以高准确度识别任意长度的语言的 transformer 确实是存在的。研究者已经实现了这些结构并通过实验验证了它们。正如 Hahn 引理所预测的那样，随着输入长度的增加，这个构建的 transformer 的交叉熵接近 1 比特（也就是，仅比随机猜测好一点）。但文章也表明，通过添加层归一化，交叉熵可以任意接近零，而与字符串长度无关。

研究者在实践中还发现，正如 Bhattamishra 等人所指出的，transformer 无法学习 PARITY。也许更令人惊讶的是，在学习 FIRST 时，transformer 可能难以从较短的字符串泛化到较长的字符串。尽管这不是 Hahn 引理的逻辑上可以推出的结果，但它是 Hahn 引理预测行为的结果。幸运的是，这个问题可以通过简单的修改来解决，即将注意力的 logit 乘以 log 𝑛。此修改还改进了机器翻译中在长度方面的泛化能力。

推荐：有论文检验了 transformer 在两种形式语言上的理论缺陷，并且设计了方法克服这种缺陷。

论文 7：RETHINKING NETWORK DESIGN AND LOCAL GEOMETRY IN POINT CLOUD: A SIMPLE RESIDUAL MLP FRAMEWORK

作者：Xu Ma 、 Can Qin 等
论文链接：https://arxiv.org/abs/2202.07123

摘要：3D 点云数据由于其无序性 (unorderness)、稀疏性 (sparisity) 和不规则性（irregularity）等特点，往往难以处理。为了描述 3D 数据的几何特征，研究者专注于局部几何的获取，提出各种基于卷积、图卷积或者注意力机制的「复杂的」局部几何描述模块。然而这些操作往往会导致较慢的推理速度，并没有带来实质的提高。

近日，来自美国东北大学和哥伦比亚大学的研究者发现，复杂的局部几何描述模块也许并不是 3D 网络的关键，一个纯 MLP 架构的网络能取得更好的结果，并且能够大幅提升推理速度。该论文已被 ICLR 2022 接收，代码已经开源。

作者引入了一个轻量级的局部几何仿射模块，可以自适应地转换局部区域中的点特征。由此提出的新网络架构称为 PointMLP。下图显示了 PointMLP 在 modelNet40 上与其他网络的速度 / 准确率比较。

PointMLP 的架构非常简单，与传统的点云网络类似， PointMLP 也采用了阶段结构，每一阶段（stage）通过最远点下采样以减少计算量。下图展示了 PointMLP 任意一阶段的操作。

给定输入点云，PointMLP 使用残差点 MLP 块逐步提取局部特征。在每个阶段，PointMLP 首先使用几何仿射模块（Geometric Affine Module）对局部点进行仿射变换，然后通过几个残差 MLP 模块 (Residual Point Block) 来提取深层的特征。注意此时的局部区域中仍包含多个点，作者通过一个简单的聚合器 (使用的是 max-pooling) 来将局部多个点聚合成一个点以描述局部信息，并且再次使用残差 MLP 模块来提取特征。

PointMLP 通过重复多个阶段 (每个阶段中通道数翻倍) 逐步扩大感受野，并模拟完整的点云几何信息。为了进一步提高推理速度、减轻模型大小，该研究减少了每个阶段的通道数以及残差 MLP 模块的个数，并在残差 MLP 模块中引入了瓶颈 (bottleneck) 结构。研究者将得到的更加轻量化的版本称作 PointMLP-elite。

推荐：纯 MLP 的点云网络：新架构 PointMLP 大幅提高点云分类准确率和推理速度。

ArXiv Weekly Radiostation

7 Papers & Radios | 谷歌大牛Jeff Dean撰文深度学习的黄金十年；扩散模型生成视频(2)

ModelScope模型即服务

热门文章

最新文章

相关课程

相关电子书