并行生成奇点临近!字节跳动GLAT斩获WMT2021大语种德英自动评估第一

简介: 在刚刚结束的国际机器翻译大赛(WMT2021)上,字节跳动 AI Lab 的火山翻译提交并行翻译系统 GLAT(Glancing Transformer),一举夺得了德语到英语方向机器翻译自动评估第一。这是并行翻译(非自回归)系统首次参加世界级的比赛,击败一众自回归翻译系统。并行翻译系统的崛起给自然语言生成技术的发展指明了新的方向。

作为世界顶级的机器翻译比赛,WMT 大赛自 2006 年以来已经举办了 16 届,每年都会吸引来自世界各地的顶级企业、高校和科研机构参赛。历年参赛队伍来自微软、脸书、腾讯、阿里巴巴、百度、华为等。


在 WMT 的各个翻译任务中,火山翻译团队挑战的德英翻译更是参赛队伍角逐的核心项目。在德语-英语翻译方向上,火山翻译团队仅使用了官方提供的数据(受限资源),成功摘得桂冠


微信图片_20211205220556.jpg


引言


历年的 WMT 比赛中,各个团队大多基于自左向右解码的自回归式生成模型(简称自回归式模型,例如 Transformer)开发自回归式翻译系统。


相比于自回归式翻译系统自左向右的逐词输出(如下图 1 左边的例子),并行翻译系统则采用了更新颖的并行生成技术,在翻译的过程中同时输出所有的词(如图 1 右边的例子),从而可以获得数倍的翻译加速。


微信图片_20211205220612.jpg

图 1:自左向右生成(左)和并行生成(右)。

可惜的是,尽管并行翻译系统在翻译速度上存在优势,但在之前的实践中其翻译质量相对于自回归式系统还落于下风。因此,并行生成仍在学术探索阶段,许多技术尚未成熟,实际应用更是寥寥无几。


尽管困难重重,在火山翻译团队的技术攻坚下,其自研的 GLAT 模型最终成功击败了自回归式翻译系统,成为历史上首个夺得 WMT 冠军的并行翻译系统,展现出并行生成技术巨大的潜力


领先的自研并行生成技术


在本次大赛中,火山翻译团队使用的并行生成技术完全基于自研的 Glancing Transformer 模型(GLAT)。GLAT 提出了一种为并行生成建模词之间依赖关系的有效训练方式,大幅提升了并行生成的效果。目前,GLAT 的 paper 已被 ACL2021 接收。



具体地,GLAT 会先学习并行输出一些较为简单的语句片段,然后逐渐学习整句话的一次性并行生成。GLAT 的训练示例如下图 2 所示:



微信图片_20211205220635.jpg

图 2:GLAT 的训练示例。


在训练中,GLAT 会进行两次解码。在第一次解码中,GLAT 将模型并行生成的结果和目标语句进行对比。根据第一次解码结果和目标语句的差异,GLAT 会决定目标词的采样数量,差异越大采样数量就越多。在第二次解码中,GLAT 将被采样的目标词的向量表示替换到解码器输入中,然后让模型利用新的解码器输入学习预测剩余的目标词。


在图 2 的例子中,模型的翻译结果「travel to to a world」和目标语句「travel all over the world」仅有两个词在对应位置上相同。因此,GLAT 随机采样了词「over」作为解码器的输入来帮助训练。而随着模型在训练中能更好捕获目标词之间的依赖关系,生成结果与目标语句会更接近。所以在训练后期需要作为解码器输入的目标词数量越来越少,GLAT 会逐渐学习整个语句的并行生成。


为了进一步提高翻译效果,团队在此基础上对模型结构和训练方式进行了各方面的优化,例如在模型中加入动态线性网络层组合(DLCL),利用多种形式的原始和蒸馏数据,分阶段训练等等。除此之外,通过结合多种结构的 Glancing Transformer 和改进的重排序技术,可以获得更出色的翻译结果。需要强调的是,模型在生成时不使用任何形式的顺序解码或者迭代式解码,只进行一次并行的解码,保持了翻译的高效性。


除了在世界级大赛中夺冠,GLAT 在实际工业系统的应用中也展现出优势。GLAT 已经在火山翻译的部分语种上线,其并行的生成方式有效地加速了解码过程,缩短了翻译服务的响应时间。



相关文章
|
2月前
|
人工智能
AI设计自己,代码造物主已来!UBC华人一作首提ADAS,数学能力暴涨25.9%
【9月更文挑战第15天】近年来,人工智能领域取得了显著进展,但智能体系统的设计仍需大量人力与专业知识。为解决这一问题,UBC研究人员提出了“自动智能体系统设计(ADAS)”新方法,通过基于代码的元智能体实现智能体系统的自动化设计与优化。实验结果表明,ADAS设计的智能体在多个领域中表现优异,尤其在阅读理解和数学任务上取得了显著提升。尽管如此,ADAS仍面临安全性、可扩展性和效率等挑战,需进一步研究解决。论文详情见链接:https://arxiv.org/pdf/2408.08435。
49 4
|
2月前
|
测试技术
LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学
【9月更文挑战第14天】微软研究团队发布了一篇介绍新型框架"AgentInstruct"的论文,该框架旨在通过自动生成高质量合成数据,推动语言模型发展。AgentInstruct仅需原始数据源即可创建多样化的合成数据,减少人工工作量。研究团队基于此框架构建了含2500万训练对的数据集,展示了其在多种技能教学中的潜力。经微调后的Mistral-7b模型演进为Orca-3,在多个基准测试中显著超越同类模型。尽管如此,AgentInstruct仍面临创建流程耗时及合成数据复杂性不足等问题。论文详情见:https://arxiv.org/pdf/2407.03502
62 2
|
4月前
|
传感器 自动驾驶 算法
自动驾驶理论新突破登Nature子刊!清华、密歇根联合提出三条技术路线,剑指稀疏度灾难
【7月更文挑战第6天】清华大学与密歇根大学研究团队在Nature子刊发表突破性成果,针对自动驾驶的“稀疏度灾难”提出三条技术路线:数据驱动、模型驱动及混合驱动,旨在提升系统应对罕见场景的能力,确保安全性和鲁棒性。这一进展为解决自动驾驶在复杂环境中的决策难题开辟了新途径。[论文链接](https://doi.org/10.1038/s41467-024-49194-0)**
42 3
|
5月前
|
机器学习/深度学习 人工智能
可控核聚变新里程碑,AI首次实现双托卡马克3D场全自动优化,登Nature子刊
【6月更文挑战第4天】AI在可控核聚变研究中实现双托卡马克装置3D磁场全自动优化,助力抑制边缘能量爆发(ELMs),提升核聚变性能90%,成果登上《自然通讯》。虽有ELMs少量出现及装置适应性问题,但这一突破为经济可行的核聚变能源发展迈出重要步伐。[论文链接](https://www.nature.com/articles/s41467-024-48415-w)
91 1
|
6月前
|
机器学习/深度学习 机器人
用MoE横扫99个子任务!浙大等提出全新通用机器人策略GeRM
【4月更文挑战第28天】浙江大学等研究团队提出的通用机器人模型GeRM,基于Transformer和Mixture-of-Experts(MoE)架构,能有效处理多种任务。通过离线强化学习,GeRM在99个子任务中展现出优越性能,优于单一专家网络策略,且具备高训练和推理效率。尽管需更多计算资源,但GeRM为多任务机器人技术带来了新突破,有望推动领域发展。[链接:https://arxiv.org/abs/2403.13358]
56 2
|
6月前
|
机器学习/深度学习 编解码 自然语言处理
华为诺亚实验室提出CFT | 大模型打压下语义分割该何去何从?或许这就是答案!
华为诺亚实验室提出CFT | 大模型打压下语义分割该何去何从?或许这就是答案!
76 0
|
6月前
|
编解码 人工智能 移动开发
气候变化和人类活动对中国植被固碳的贡献量化数据月度合成产品
气候变化和人类活动对中国植被固碳的贡献量化数据月度合成产品
34 0
|
机器学习/深度学习 算法 数据可视化
精准高效估计多人3D姿态,美图&北航分布感知式单阶段模型入选CVPR 2022
精准高效估计多人3D姿态,美图&北航分布感知式单阶段模型入选CVPR 2022
134 0
|
机器学习/深度学习 人工智能 算法
让多任务奔跑起来!Waymo开放数据集3D语义分割任务冠军方案分享(图森)
今天分享图森打榜Waymo开放数据集3D语义分割任务的技术报告,整篇文章读下来比较通透。比较经典的打榜思路,尤其是后面的多任务学习、两阶段优化,有打榜或训练大模型需求的小伙伴可以仔细读读~
让多任务奔跑起来!Waymo开放数据集3D语义分割任务冠军方案分享(图森)
|
机器学习/深度学习 人工智能 安全
超长序列,超快预测!深势科技联手阿里云,AI蛋白质预测再下一城
强强联合,突破 AI 蛋白质预测模型推理性能瓶颈,支持最高 6.6k 长氨基酸序列蛋白质的预测计算,达到目前已知最优推理效果。
超长序列,超快预测!深势科技联手阿里云,AI蛋白质预测再下一城
下一篇
无影云桌面