备案控制台

开发者社区 ModelScope模型即服务文章正文

小白总结Transformer模型要点（二）（上）

2022-11-24 213

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

模型在线服务 PAI-EAS，A10/V100等 500元 1个月

模型训练 PAI-DLC，5000CU*H 3个月

交互式建模 PAI-DSW，5000CU*H 3个月

简介： 本文主要总结了Transformer模型的要点，包含模型架构各部分组成和原理、常见问题汇总、模型具体实现和相关拓展学习。

5.LayerNorm

在NLP中很少使用BN，基本都使用LN，因为BN的效果很差；

后续也有很多对BN的改进，以支持NLP任务。

特征缩放是为了消除量纲的影响，让模型收敛得更快。

BN是对一个Batch中的多个样本的同一维度的数据进行归一化处理，可以看作一个Batch中的所有样本的同一个特征（例如人的身高、体重等多个维度分别进行BN）。

BN优点：

可以解决内部协变量偏移；

缓解了梯度饱和问题（如果使用sigmoid激活函数的话)，加快收敛。

BN的缺点：

batch_size较小的时候，效果差

BN的假设是使用一个Batch中样本的均值和方差来模拟全部数据的均值和方差，此时如果Batch的数量很少时，就会出现假设偏差较大的情况。

BN在RNN中效果比较差

这一点和第一点原因很类似。

因为RNN的输入是动态的，即数据的长度可能不一样，因此不能有效地得到整个Batch的均值和方差。

LN是对一个样本的所有特征进行缩放，例如对一个句子样本的所有单词做缩放。

为什么使用LN、不使用BN：

可以看到，相比于BN，LN在NLP任务中更有意义，例如我和今具有不同的语义信息，而LN是对一个句子进行缩放，一个句子的所有词存在于同一个语义信息中，这样可以得到更容易理解的语义。

前馈神经网络：

同时，FFN也是只考虑对单个位置进行建模，不同位置之间共享参数，类似于1*1的pointwise的CNN。

6.Decoder

之所以要进行Mask遮挡：

没有遮挡

可以看到，所有单词都会为You这个单词提供信息。

但是通过这样的方式训练出来的模型，在预测阶段会出现问题，比如预测阶段的当前单词为You，并不知道ground truth中You后面的信息（单词）什么（这也就是预测的出发点），看不见未来时刻的单词；因此如果在训练时不遮挡掉后面的单词，则模型在训练和测试时就会存在gap。

有遮挡

在训练和测试时都遮挡掉当前单词后面的单词，从而消除了训练和测试的gap，保证了一致性。

遮挡可以直观地理解为：在进行翻译时，遮挡掉后面的单词，让人来翻译得到后面位置的单词，也就是通过训练得到答案，而不是直接给出答案。

同时需要注意，在进行Mask时，有2个地方需要分别考虑：

（1）自注意力层Mask Multi-Head Attention，有2部分需要进行Mask，一部分是解码端输入的Padding的 Mask，另一部分是当前单词后面的单词进行Mask（上三角矩阵）:

图示如下：

矩阵中，为1的位置是应该遮挡起来、看不到的。

文章标签：

自然语言处理

机器学习/深度学习

游客lp5523v766t2y

目录

相关文章

-开发达人-

|

机器学习/深度学习移动开发人工智能

自编码器26页综述论文：概念、图解和应用

自编码器26页综述论文：概念、图解和应用

-开发达人-

105 0 0

Deephub

|

机器学习/深度学习自然语言处理计算机视觉

图解BERT：通俗的解释BERT是如何工作的

图解BERT：通俗的解释BERT是如何工作的

Deephub

454 0 0

图解BERT：通俗的解释BERT是如何工作的

游客lp5523v766t2y

|

机器学习/深度学习自然语言处理语音技术

小白总结Transformer模型要点（二）（下）

本文主要总结了Transformer模型的要点，包含模型架构各部分组成和原理、常见问题汇总、模型具体实现和相关拓展学习。

游客lp5523v766t2y

376 0 0

小白总结Transformer模型要点（二）（下）

游客lp5523v766t2y

|

机器学习/深度学习自然语言处理

小白总结Transformer模型要点（一）（下）

本文主要总结了Transformer模型的要点，包含模型架构各部分组成和原理、常见问题汇总、模型具体实现和相关拓展学习。

游客lp5523v766t2y

210 0 0

小白总结Transformer模型要点（一）（下）

游客lp5523v766t2y

|

机器学习/深度学习自然语言处理并行计算

小白总结Transformer模型要点（一）（上）

本文主要总结了Transformer模型的要点，包含模型架构各部分组成和原理、常见问题汇总、模型具体实现和相关拓展学习。

游客lp5523v766t2y

353 0 0

小白总结Transformer模型要点（一）（上）

一个处女座的程序猿

|

算法数据挖掘 C++

DL之GCN：GCN算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略

DL之GCN：GCN算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略

一个处女座的程序猿

338 0 0

DL之GCN：GCN算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略

一个处女座的程序猿

|

算法计算机视觉 C++

DL之MobileNet：MobileNet算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略（二）

DL之MobileNet：MobileNet算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略

一个处女座的程序猿

170 0 0

DL之MobileNet：MobileNet算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略（二）

一个处女座的程序猿

|

机器学习/深度学习编解码算法

DL之MobileNet：MobileNet算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略（一）

DL之MobileNet：MobileNet算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略

一个处女座的程序猿

657 0 0

DL之MobileNet：MobileNet算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略（一）

一个处女座的程序猿

|

机器学习/深度学习算法数据可视化

DL之FCN：FCN算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略

DL之FCN：FCN算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略

一个处女座的程序猿

733 0 0

DL之FCN：FCN算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略

一个处女座的程序猿

|

机器学习/深度学习算法数据挖掘

DL之ShuffleNet：ShuffleNet算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略

DL之ShuffleNet：ShuffleNet算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略

一个处女座的程序猿

243 0 0

DL之ShuffleNet：ShuffleNet算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略

ModelScope模型即服务

热门文章

最新文章

阿里云通义千问向全社会开放！

Llama 3开源，魔搭社区手把手带你推理，部署，微调和评估

multi-agent：多角色Agent协同合作，高效完成复杂任务

NPU推理&微调大模型实战

从RMSE和MSE到更多选择：探索机器学习模型性能指标

社区供稿 | 10G显存，通义千问-7B-int4消费级显卡最佳实践

【RAG实践】Rerank，让RAG更近一步

开源版图生视频I2VGen-XL：单张图片生成高质量视频

vanna+qwen实现私有模型的SQL转换

【机器学习技巧】回归模型的几个常用评估指标（R2、Adjusted-R2、MSE、RMSE、MAE、MAPE）及其在sklearn中的调用方式

CGE：基于Causal LLM的Code Embedding模型

Teams电话中国语音解决方案

CodeFuse 开源一周年，焕新出发！

Java的对象和类的相同之处和不同之处

s3fs挂载S3对象桶

云效OOM 处理探讨

java 的Remote 的使用

《函数计算驱动多媒体文件处理的体验与反馈》

查看git 的远程地址

通过Java SDK调用阿里云模型服务

相关课程

更多

机器学习入门-概念原理及常用算法

机器学习原理与实践

【算法实战】8. 集成方法-Adaboost

特征工程简介

深度学习原理与实践

【机器学习】机器学习笔试题集合

相关电子书

更多

典型模型-卷积神经网络入门从概念原理到应用实现

典型模型-卷积神经网络入门

学习深度学习的四个步骤

相关实验场景

更多

AI克隆声音，基于函数计算部署GPT-Sovits语音生成模型

【图生图】一键部署3D卡通风格模型

【自由换模型】基于函数计算一键部署 Stable Diffusion

使用PAI-快速开始，低代码实现大语言模型微调和部署

以客服场景意图分类为例写Prompt

免费撸A10显卡！在PAI-DSW里用FaceChain训练专属形象照

下一篇

通义千问API入门教程