超越 BERT 和 GPT,微软亚洲研究院开源新模型 MASS!

简介: 在序列到序列的自然语言生成任务中完胜 BERT!

雷锋网 AI 科技评论按:自 2018 年以来,预训练无疑是自然语言处理(NLP)领域中最热门的研究课题之一。通过利用 BERT、GPT 和 XLNet 等通用语言模型,该领域的研究者们在自然语言理解方面已经取得了许多重大的突破。然而,对于序列到序列的自然语言生成任务,这些主流的预训练方法并没有带来显著的改进,对此,微软亚洲研究院提出了一个全新的通用预训练方法——MASS,在该任务中可以得到比 BERT 和 GPT 更好的效果。

TB1dCNQelWD3KVjSZKPXXap7FXa.jpg

前言

BERT 和 XLNet 在自然语言理解任务(例如:情感分类、自然语言推理和 SQuAD 阅读理解)方面取得了巨大成功。然而, NLP 领域除了自然语言理解任务之外,还存在很多序列到序列的语言生成任务,例如机器翻译、文本摘要生成、对话生成、问答、文本风格转换等。对于这些任务,使用编码器-注意力-解码器框架是主流方法。

TB1gEVQelaE3KVjSZLeXXXsSFXa.png

图 1 编码器 - 注意力 - 解码器框架

如图 1 所示,编码器将源序列 X 作为输入并将其转换为隐藏表示的序列,然后解码器通过注意力机制从编码器中抽象出隐藏表示的序列信息,并自动生成目标序列文本 Y。

BERT 和 XLnet 通常是对一个编码器进行自然语言理解的预训练;而 GPT 则是对一个解码器进行语言建模的预训练。当利用 BERT 和 GPT 进行序列到序列的语言生成任务时,我们通常需要对编码器和解码器分别进行预训练。在这种情况下,编码器 - 注意力 - 解码器框架和注意力机制并没有得到联合训练。然而,注意力机制在这类任务中极为重要,一旦缺失便会导致 BERT 和 GPT 无法达到最佳性能。

一种新的预训练方法

针对序列到序列的自然语言生成任务,微软亚洲研究院的机器学习小组提出了一种新的预训练方法,即掩蔽的序列到序列预训练(MASS:Masked Sequence to Sequence Pre-Training)。MASS 随机掩蔽一个长度为 k 的句子片段,并通过编码器 - 注意力 - 解码器框架预测这一被掩蔽的片段。

TB1pF8Pef1G3KVjSZFkXXaK4XXa.png

图 2 MASS 框架

如图 2 所示,编码器端的第 3-6 个标记被掩蔽,而在解码器端,仅有被掩蔽的标记被预测出来,而其他标记则被掩蔽。

MASS 预训练具有以下优势:

解码器端的其他标记(在编码器端未被掩蔽的标记)被掩蔽,从而推动解码器提取更多信息以帮助预测连续句子片段,促进编码器-注意力-解码器结构的联合训练;

为了给解码器提供更多有用的信息,编码器被强制提取未被掩蔽的标记的含义,这可以提高编码器理解源序列文本的能力;

解码器被设计用以预测连续的标记(句子片段),这可以提升解码器的语言建模能力。

统一的预训练框架

MASS 有一个重要的超参数 k(被掩蔽的片段的长度)。通过调整 k 值,MASS 可以将 BERT 中掩蔽的语言建模和 GPT 中的标准语言建模结合起来,从而将 MASS 扩展成一个通用的预训练框架。

当 k = 1 时,根据 MASS 的设计,编码器端的一个标记被掩蔽,而解码器端则会预测出该掩蔽的标记,如图 3 所示。解码器端没有输入信息,因而 MASS 等同于 BERT 中掩蔽的语言模型。

TB1weROelWD3KVjSZFsXXcqkpXa.png

图 3 k = 1时,编码器端一个标记被掩蔽,而解码器端则会预测出该掩蔽的标记

当 k = m(m 是序列的长度)时,在 MASS 中,编码器端的所有标记都被掩蔽,而解码器端会预测所有的标记,如图 4 所示。解码器端无法从编码器端提取任何信息,MASS 等同于 GPT 中的标准语言模型。

TB1L0lOeliE3KVjSZFMXXbQhVXa.png

图 4 k = m 时,编码器端的所有词都被掩蔽,而解码器端会预测所有的标记,等同于 GPT 中的标准语言模型

不同 k 值下 MASS 的概率公式如表 1 所示,其中 m 是序列的长度,u 和 v 分别是掩蔽片段的起始和终止位置,

TB1Yz0NefWG3KVjSZFPXXXaiXXa.png

代表从位置 u 到 v 的标记都被掩蔽的序列。可以看出,当 k = 1 或 m 时,MASS 的概率公式等同于 BERT 中的被掩蔽的语言模型和 GPT 中的标准语言模型。

TB17EtPeouF3KVjSZK9XXbVtXXa.png

表 1 在不同 k 值下 MASS 的概率公式

研究人员通过实验来分析了在不同 k 值下的 MASS 性能,如图 5 所示:

TB1qLJWeaSs3KVjSZPiXXcsiVXa.png

图 5 在训练前和微调阶段的各种掩蔽长度 k 下 MASS 的表现,其中包括 a) 英语句子预训练模型的PPL b) WMT13 英语-法语翻译的法语句子 c) WMT13 无监督英语-法语翻译的 BLEU 值 d) 文本摘要生成的 ROUGE 值 e) 对话生成的PPL

当 k 等于句子长度的一半时,下游任务可以达到其最佳性能。掩蔽句子中一半的词可以很好地平衡编码器和解码器的预训练部分。如果预训练更偏向编码器端(k = 1,即 BERT)或更偏向解码器端(k = m,LM / GPT),则无法实现最优的性能,这也表现出了 MASS 在序列到序列的语言生成任务中的优势。

序列到序列的语言生成任务测试

预训练

值得注意的是,MASS 仅需要无监督的单语数据进行预训练(例如 WMT News Crawl Data、Wikipedia Data 等)。MASS 支持跨语言任务(例如机器翻译)和单语任务(例如文本摘要生成、对话生成)。在对英语-法语翻译等跨语言任务进行预训练时,研究人员可以在一个模型中同时进行英语-英语和法语-法语的预训练,并使用附加的语言嵌入向量来区分语言。在无监督的机器翻译、低资源机器翻译、文本摘要生成和对话生成四个领域,研究人员对 MASS 进行了微调,以验证其有效性。

无监督机器翻译

关于无监督机器翻译任务,研究人员将 MASS 与之前的方法进行了比较,包括以前最先进的方法 Facebook XLM。XLM 使用了由 BERT 创建的掩蔽预训练语言模型,以及标准语言模型来分别预训练编码器和解码器。

结果如表 2 所示,MASS 在 WMT14 英语-法语、WMT16 英语-德语和英语-罗马尼亚语的六个翻译方向上的表现都优于 XLM,并取得了最新的最优结果。

TB1K90RemWD3KVjSZSgXXcCxVXa.png

表 2 MASS 与之前关于无监督机器翻译方法之间的比较;英语-法语翻译报道在 newstest2014 上,其它的在 newstest2016 可以找到;由于 XLM 在编码器和解码器中使用 MLM 和 CLM 的不同组合,因此报告上显示的是每个语言对上 XLM 的最高 BLEU 值

低资源机器翻译

低资源机器翻译是指使用有限的双语训练数据来进行机器翻译。研究人员模拟了 WMT14 英语-法语,WMT16 英语-德语和英语-罗马尼亚语翻译(分别为 10K,100K 和 1M 双语数据)的低资源情景。

TB1nKVOelWD3KVjSZFsXXcqkpXa.png

图 6 MASS 与低资源机器翻译方法之间的比较

图 6 显示 MASS 在不同数据规模上的表现,均比不用预训练的基线模型有不同程度的提升,并随着监督数据越少,提升效果越显著。

文本摘要生成

研究人员将 MASS 与 BERT+LM(编码器用 BERT 预训练,解码器用标准语言模型 LM 预训练)、DAE(去噪自编码器)进行了比较。从表 3 中可以看出,MASS 的表现都优于 BERT+LM 和 DAE。

TB1I3BNeoKF3KVjSZFEXXXExFXa.png

表 3 文本摘要生成任务中,MASS 和两种预训练方法之间的比较

对话生成

研究人员将 MASS 和 BERT+LM 进行了比较。表 4 显示 MASS 实现了比 BERT+LM 更低的 PPL。

TB1E2hUelCw3KVjSZFlXXcJkFXa.png

表 4 MASS 与 BERT+LM 之间的比较数据

MASS 连续在序列到序列的语言生成任务上实现显著增益,Facebook 的研究者表示,期待今后在自然语言理解任务中测试 MASS 的性能,并希望在未来的工作中,将 MASS 的应用领域扩展到包含语音、视频等其它序列到序列的生成任务中。

相关链接

原文地址

https://www.microsoft.com/en-us/research/blog/introducing-mass-a-pre-training-method-that-outperforms-bert-and-gpt-in-sequence-to-sequence-language-generation-tasks/

MASS 论文

https://www.microsoft.com/en-us/research/publication/mass-masked-sequence-to-sequence-pre-training-for-language-generation/

GitHub 开源地址

https://github.com/microsoft/MASS

雷锋网(公众号:雷锋网) AI 科技评论 雷锋网

目录
相关文章
|
7月前
|
数据可视化 API Swift
全模态图像模型Nexus-Gen对齐GPT-4o!同时搞定,数据、训练框架、模型全面开源
OpenAI GPT-4o发布强大图片生成能力后,业界对大模型生图能力的探索向全模态方向倾斜,训练全模态模型成研发重点。
343 17
|
2月前
|
机器学习/深度学习 数据采集 人工智能
35_BERT与RoBERTa:优化编码器模型
2018年,Google发布的BERT(Bidirectional Encoder Representations from Transformers)模型彻底改变了自然语言处理领域的格局。作为第一个真正意义上的双向预训练语言模型,BERT通过创新的掩码语言模型(Masked Language Model, MLM)预训练策略,使模型能够同时从左右两侧的上下文信息中学习语言表示,从而在多项NLP任务上取得了突破性进展。
|
2月前
|
人工智能 自然语言处理 调度
24_BERT模型详解:从预训练到微调的全方位指南
BERT(Bidirectional Encoder Representations from Transformers)是由Google AI在2018年推出的革命性预训练语言模型,它彻底改变了自然语言处理(NLP)领域的格局。通过创新的双向训练方式,BERT能够捕捉词语在上下文环境中的完整语义信息,从而在各种下游任务中取得了突破性的表现。
|
5月前
|
机器学习/深度学习 人工智能 编解码
AI-Compass LLM合集-多模态模块:30+前沿大模型技术生态,涵盖GPT-4V、Gemini Vision等国际领先与通义千问VL等国产优秀模型
AI-Compass LLM合集-多模态模块:30+前沿大模型技术生态,涵盖GPT-4V、Gemini Vision等国际领先与通义千问VL等国产优秀模型
AI-Compass LLM合集-多模态模块:30+前沿大模型技术生态,涵盖GPT-4V、Gemini Vision等国际领先与通义千问VL等国产优秀模型
|
5月前
|
人工智能 数据挖掘 API
Kimi K2开源炸场,1万亿参数碾压GPT-4.1,成本仅Claude 4的1/5!
月之暗面开源的万亿参数大模型Kimi K2引发行业震动,48小时内即登顶OpenRouter API调用榜,GitHub项目激增200%。该模型在代码生成、Agent任务及中文创作上超越Claude 4,标志着中国大模型首次在三大核心能力上达到全球顶尖水平。
|
6月前
|
存储 机器学习/深度学习 自然语言处理
避坑指南:PAI-DLC分布式训练BERT模型的3大性能优化策略
本文基于电商搜索场景下的BERT-Large模型训练优化实践,针对数据供给、通信效率与计算资源利用率三大瓶颈,提出异步IO流水线、梯度压缩+拓扑感知、算子融合+混合精度等策略。实测在128卡V100集群上训练速度提升3.2倍,GPU利用率提升至89.3%,训练成本降低70%。适用于大规模分布式深度学习任务的性能调优。
325 3
|
7月前
|
人工智能 API 开发者
狂揽7.5k星!这款开源API网关彻底解放开发者:一键聚合GPT-4、Suno、Midjourney,还能在线充值!
New API 是一款基于 One API 二次开发的 AI 模型接口管理与分发系统,支持多种大模型(如 GPT-4、Suno、Midjourney 等)统一封装为 OpenAI 格式接口调用。其核心功能包括多模型统一网关、企业级权限管控、“推理力度”分级、无魔法访问全球 AI 服务、灵活计费体系及开发者友好设计。技术架构采用 Golang + Gin 框架,支持高并发低延迟,适用于企业内部 AI 中台、多模型 SaaS 平台、学术研究协作及个人开发者工具等场景。项目开源地址:https://github.com/kingbug/new-api。
2023 6
|
8月前
|
编解码 开发者
ImagePulse图律脉动数据集开源发布:解码GPT-4o级图像生成能力,四大原子数据集+自动生成工具开放
ImagePulse图律脉动数据集开源发布:解码GPT-4o级图像生成能力,四大原子数据集+自动生成工具开放
250 3

热门文章

最新文章