Transformer 学习小结(输出输入)

简介: 在模型处理中,输入文本需经预处理,包括分词、词汇表构建及填充(padding),并使用填充掩码避免无效计算。位置嵌入为Transformer提供顺序信息,编码器通过自注意力机制和前馈网络处理输入序列。输出处理中,解码器根据编码器输出生成目标序列,使用序列掩码防止信息泄露,逐步生成单词,并在测试阶段采用贪婪或束搜索优化输出。

输入处理:

  • 数据预处理:
    • 在将文本输入模型之前,需要进行预处理,包括分词、词汇表构建等。
    • 由于句子长度不同,还需要进行填充(padding),以确保所有输入具有相同的长度。
  • 填充掩码(Padding Mask):
    • 填充掩码用于告诉模型哪些部分是真实的输入,哪些部分是填充的,以避免模型在填充部分上进行不必要的计算。
  • 位置嵌入(Positional Embedding):
    • 由于 Transformer 模型没有循环结构,它需要一种方法来捕捉单词的顺序信息。位置嵌入就是用来实现这一点的,它为每个单词的位置编码。
  • 编码器(Encoder):
    • 编码器负责将输入序列转换为一系列隐藏状态。
    • 注意力机制(Attention Mechanism):
      • 编码器中的关键组件是自注意力机制,它允许模型关注输入序列中的不同单词,以捕捉它们之间的关系。
    • 前馈网络(Feed-Forward Network):
      • 编码器中还包含前馈网络,用于对每个单词的隐藏状态进行进一步处理。

输出处理:

  • 解码器(Decoder):
    • 解码器负责根据编码器的输出生成目标序列。
    • 序列掩码(Sequence Mask):
      • 解码器使用序列掩码来防止模型在生成当前单词时看到未来的单词,这对于训练至关重要。
  • 逐步训练:
    • 解码器以逐步的方式生成输出序列,一次生成一个单词。
  • 测试阶段:
    • 在测试阶段,解码器使用贪婪搜索或束搜索等方法来生成最佳的输出序列。
相关文章
|
IDE Java 关系型数据库
深度了解Maven
一.Maven介绍与功能 二.依赖管理 1.依赖的配置 2.依赖的传递性 3.排除依赖 4.依赖的作用范围 5.依赖的生命周期
1328 1
|
10月前
|
机器学习/深度学习 自然语言处理 算法
Transformer 学习笔记 | Decoder
本文记录了笔者学习Transformer的过程,重点介绍了填充(padding)和掩码(masking)机制。掩码确保解码器只依赖于之前的位置,避免信息泄露,保持因果关系及训练与推理的一致性。通过线性层和softmax函数生成输出概率,并使用梯度下降和反向传播进行训练。评估指标包括BLEU、ROUGE、METEOR和困惑度等。欢迎指正。
|
10月前
|
存储 人工智能 测试技术
跨模态大升级!少量数据高效微调,LLM教会CLIP玩转复杂文本
LLM2CLIP是一种创新方法,旨在通过利用大型语言模型(LLM)的能力来改进CLIP多模态模型。该方法通过对比学习微调LLM,增强其文本判别性,并将其作为CLIP的强教师,从而显著提升CLIP处理长复杂文本和跨语言任务的能力。实验表明,LLM2CLIP在多个基准测试中优于现有模型,特别是在长文本检索任务上性能提升了16.5%。尽管如此,该方法在实际应用中的鲁棒性和资源需求仍需进一步验证。论文链接:https://arxiv.org/pdf/2411.04997。
396 70
|
10月前
|
弹性计算 Serverless API
What?废柴, 还在本地部署DeepSeek吗?Are you kidding?
拥有DeepSeek-R1满血版实践教程及评测报告
3541 11
|
10月前
|
算法 数据安全/隐私保护
基于ACO蚁群优化的城市最佳出行路径规划matlab仿真
本程序基于蚁群优化(ACO)算法,使用MATLAB2022A进行城市最佳出行路径规划仿真。用户可调整城市数量,输出路径规划结果及ACO收敛曲线。核心代码实现最短路径更新、信息素强化与全局最优路径绘制。ACO模拟蚂蚁行为,通过信息素机制迭代优化路径,适用于不同规模的城市节点,展示从局部探索到全局最优的智能搜索过程。程序运行结果展示了点数较少、中等和较多时的路径规划效果,无水印。
|
11月前
|
机器学习/深度学习 数据采集 人工智能
设计文档:智能化医疗设备数据分析与预测维护系统
本系统的目标是构建一个基于人工智能的智能化医疗设备的数据分析及预测维护平台,实现对医疗设备运行数据的实时监控、高效处理和分析,提前发现潜在问题并进行预防性维修,从而降低故障率,提升医疗服务质量。
|
自然语言处理 API Python
LLaMA
【9月更文挑战第26天】
555 63
|
SQL 自然语言处理 数据库
XiYan-SQL:一种多生成器集成的Text-to-SQL框架
XiYan-SQL 是一种创新的多生成器集成Text-to-SQL框架,通过M-Schema增强模型对数据库结构的理解,结合ICL与SFT方法提升SQL生成质量和多样性,经实验证明在多个数据集上表现优异,特别是在Spider和SQL-Eval上取得了领先成绩。
2205 7
|
机器学习/深度学习 计算机视觉
【YOLOv11改进 - 注意力机制】 MSDA(Multi-Scale Dilated Attention):多尺度空洞注意力
【YOLOv11改进 - 注意力机制】 MSDA(Multi-Scale Dilated Attention):多尺度空洞注意力本文介绍了一种高效的视觉变换器——DilateFormer,通过多尺度扩张注意力(MSDA)模块,在保持高性能的同时显著降低计算成本。MSDA通过在滑动窗口内模拟局部和稀疏的块交互,实现了多尺度特征聚合。实验结果显示,DilateFormer在ImageNet-1K分类、COCO对象检测/实例分割和ADE20K语义分割任务上均取得了优异的性能,且计算成本比现有模型减少70%。
【YOLOv11改进 - 注意力机制】 MSDA(Multi-Scale Dilated Attention):多尺度空洞注意力