7 Papers & Radios | 无残差连接训练深度transformer；DeepMind写代码AI登Science封面-阿里云开发者社区

7 Papers & Radios | 无残差连接训练深度transformer；DeepMind写代码AI登Science封面

2023-05-18 126

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 7 Papers & Radios | 无残差连接训练深度transformer；DeepMind写代码AI登Science封面

本周主要论文包括：首次无残差连接或归一化层也能训练深度 Transformer 的探索性研究，以及 DeepMind携其写代码 AI AlphaCode 登上了 Science 封面，写代码能力不输程序员。

Competition-level code generation with AlphaCode

Inverse scaling can become U-shaped

FedALA: Adaptive Local Aggregation for Personalized Federated Learning

An Efficient Training Approach for Very Large Scale Face Recognition

Deep Transformers without Shortcuts: Modifying Self-attention for Faithful Signal Propagation

EVA: Exploring the Limits of Masked Visual Representation Learning at Scale

Join the High Accuracy Club on ImageNet with A Binary Neural Network Ticket

ArXiv Weekly Radiostation：NLP、CV、ML 更多精选论文（附音频）

论文 1：Competition-level code generation with AlphaCode

作者：YUJIA LI 等

论文地址：https://www.science.org/doi/10.1126/science.abq1158

摘要：今年年初，DeepMind 发布了基于 Transformer 的新模型 AlphaCode，该模型实现了大规模代码生成。现在，AlphaCode 又在《Science》上发表了新论文，研究登上《Science》封面。

推荐：DeepMind 携 AlphaCode 登 Science 封面，写代码能力不输程序员。

论文 2：Inverse scaling can become U-shaped

作者：Jason Wei 等

论文地址：https://arxiv.org/pdf/2211.02011.pdf

摘要：语言模型越大，性能越好，这一点已经在很多任务中被证明是正确的。那是否存在一种情况：某些任务的结果会因模型规模的增加反而变得糟糕？谷歌最近发表的一篇论文或许能为我们提供答案。获得 Inverse Scaling 奖励的任务如下：Negation QA、Hindsight Neglect、Quote Repetition 和 Redefine Math。

推荐：模型越大，表现越差？谷歌收集了让大模型折戟的任务，还打造了一个新基准。

论文 3：FedALA: Adaptive Local Aggregation for Personalized Federated Learning

作者：Jianqing Zhang 等

论文地址：https://arxiv.org/pdf/2212.01197.pdf

摘要：该论文提出了一种用于联邦学习的自适应本地聚合方法，通过从全局模型中自动捕获客户机所需信息的方式来应对联邦学习中的统计异质性问题。作者对比了 11 个 SOTA 模型，并取得了超越最优方法 3.27% 的优异表现。作者将其中的自适应本地聚合模块应用到其他联邦学习方法上取得了最多 24.19% 的提升。本文被 AAAI 2023 会议收录，下图为自适应本地聚合（ALA）过程。

推荐：超越 SOTA 3.27%，上交大等提出自适应本地聚合新方法。

论文 4：An Efficient Training Approach for Very Large Scale Face Recognition

作者：Kai Wang 等

论文地址：https://arxiv.org/pdf/2105.10375.pdf

摘要：本文主要介绍了超大规模分类框架的现有解决方案，以及低成本分类框架 FFC 的相应原理及 trick 介绍。本文被 CVPR 2022 会议收录，下图为 SOTA 方法比较。

推荐：达摩院开源低成本大规模分类框架 FFC。

论文 5：Deep Transformers without Shortcuts: Modifying Self-attention for Faithful Signal Propagation

作者：匿名

论文地址：https://openreview.net/pdf?id=NPrsUQgMjKK

摘要：ICLR 2023 盲审阶段的这篇论文首次证明了无需残差连接或归一化层时也可能成功训练深度 transformer。为此，他们研究了深度无残差 transformer 中的信号传播和秩崩溃问题，并推导出三种方法来阻止它们。

具体而言，方法中使用了以下组合：参数初始化、偏置矩阵和位置相关的重缩放，并强调了 transformer 中信号传播特有的几种复杂性，包括与位置编码和因果掩蔽的交互。研究者实证证明了他们的方法可以生成可训练的深度无残差 transformer。

推荐：ICLR 盲审阶段就被评审赞不绝口的论文：会是 Transformer 架构的一大创新吗？

论文 6：EVA: Exploring the Limits of Masked Visual Representation Learning at Scale

作者：Yuxin Fang 等

论文地址：https://arxiv.org/pdf/2211.07636.pdf

摘要：智源开源了简单又强大、具有 10 亿参数的视觉基础模型 EVA，将最强语义学习与最强几何结构学习相结合，在 ImageNet 分类、COCO 检测分割、Kinetics 视频分类等广泛的视觉感知任务中取得当前最强性能。

推荐：10 亿参数、多项 SOTA，智源开源视觉基础模型 EVA。

论文 7：Join the High Accuracy Club on ImageNet with A Binary Neural Network Ticket

作者：Nianhui Guo 等

论文地址：https://arxiv.org/pdf/2211.12933.pdf%E3%80%81

摘要：来自德国 Hasso Plattner 计算机系统工程研究院的 Nianhui Guo 和 Haojin Yang 等研究者提出了 BNext 模型，成为第一个在 ImageNet 数据集上 top1 分类准确率突破 80% 的 BNN。下图为基于 ImageNet 的 SOTA BNN 性能对比。、

推荐：首个在 ImageNet 上精度超过 80% 的二值神经网络 BNext 问世。

7 Papers & Radios | 无残差连接训练深度transformer；DeepMind写代码AI登Science封面

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

7 Papers & Radios | 无残差连接训练深度transformer；DeepMind写代码AI登Science封面

热门文章

最新文章

相关课程

相关电子书

相关实验场景