7 Papers & Radios | 谷歌用Pathways训练5400亿参数大模型；费米实验室研究登《科学》封面（2）-阿里云开发者社区

7 Papers & Radios | 谷歌用Pathways训练5400亿参数大模型；费米实验室研究登《科学》封面（2）

2023-05-15 169

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 7 Papers & Radios | 谷歌用Pathways训练5400亿参数大模型；费米实验室研究登《科学》封面

推荐：OpenAI 的 DALL·E 迎来升级，不止文本生成图像，还可二次创作。

论文 6：Rethinking Document-level Neural Machine Translation

作者：Zewei Sun 、 Mingxuan Wang 等
论文链接：https://arxiv.org/abs/2010.08961

摘要：一篇由字节跳动 AI-Lab 火山翻译团队、南京大学与加州圣塔芭芭拉分校共同发表在 ACL 2022 的长文 —— Rethinking Document-level Neural Machine Translation。

这篇论文重新审视了篇章机器翻译领域的过往工作，针对当下流行的研究趋势进行了反思，并提出回归到经典简洁的 Transformer 模型解决篇章翻译问题，通过多分解度的训练方案取得了 SOTA 的效果。最后，这篇文章也贡献了一份新的数据集，旨在推动整个领域的发展。

本文介绍了一种新的篇章级别神经机器翻译的方法：「篇章到篇章」（Doc2Doc）的翻译。

首先，我们需要定义这个任务：令表示一个包含 M 句话的源端篇章，篇章翻译的目标是将从语言x翻译到语言，其中表示第句话的长度。

区别于「篇章到句子」的翻译，字节 AI Lab 的研究者提出了一项新的训练方式——「篇章到篇章」的翻译。将整篇文档作为一个完整的序列送入模型中：

其中 D_x 是源端的完整序列信息，y<i 是目标端的历史信息。

推荐：字节 AI Lab 提出篇章到篇章的机器翻译新思路。

论文 7：StyTr^2 :Image Style Transfer with Transformers

作者：Yingying Deng 、 Fan Tang 等
论文链接：https://arxiv.org/abs/2105.14576

摘要：图像风格化是一个有趣且实用的课题，它可以使用参考的风格图像来呈现内容图像，多年以来在学术界被广泛研究，并已在包括短视频领域在内的业界得到大规模的落地应用。例如，移动互联网用户可以通过快手主站、极速版、一甜相机和快影等一系列 APP，体验包括手绘、水彩、油画和 Q 版萌系风格在内的各种人像风格化特效。

本文针对基于 CNN 的风格化方法存在的内容表达存在偏差的问题，提出了一种新颖的图像风格化算法，即 StyTr^2。

为了利用 Transformer 捕获长期依赖关系的能力来实现图像风格化，本文设计了图 2 中结构，模型主要包括三部分：内容 Transformer 编码器，风格 Transformer 编码器和 Transformer 解码器。内容 Transformer 编码器和风格 Transformer 编码器分别用来编码内容域和风格域的图片的长程信息，这种编码方式可以有效避免细节丢失问题。Transformer 解码器用来将内容特征转换为带有风格图片特征的风格化结果。

图 2 网络结构

此外，本文针对传统位置编码提出两个重要问题。第一，对于图像生成任务，在计算 PE（位置编码）时，是否应该考虑图像语义? 传统的 PE 是根据按照逻辑排序的句子来设计的，而图像序列是根据图像内容语义来组织的。假设两个图像补丁之间的距离为 d(.,.) 。如图 3(a) 右边部分所示，d((0 , 3 ), (1 , 3 )) (红色和绿色块) 之间的差异与 d(( 0 , 3 ), (3 , 3 )) (红色和青色块) 之间的差异应该是相似的，因为风格化任务要求相似的内容补丁有相似的风格化结果。第二，当输入图像尺寸呈指数级增大时，传统的正弦位置编码是否仍然适用于视觉任务? 如 3(a) 所示，当图像大小发生变化时，相同语义位置的补丁 (用蓝色小矩形表示) 之间的相对距离会发生显著变化，这不适合视觉任务中的多尺度输入要求。