前馈神经网络

简介: 前馈网络(FFN)是Transformer的核心模块,提供非线性变换。标准FFN为两层线性加激活函数,扩展倍数通常为4;MoE则通过稀疏激活、动态路由提升模型容量与效率。常用激活函数包括ReLU、GELU(BERT采用)和SwiGLU(LLaMA采用)。相比标准FFN,MoE参数更多、表达更强,计算更高效。

概述
前馈网络(FFN)是Transformer中的重要组件,提供非线性变换能力。
🏗️ 网络结构
1️⃣ 标准FFN
● 结构:Linear → Activation → Linear
● 公式:$\text{FFN}(x) = \text{Linear}(\text{Activation}(\text{Linear}(x)))$
● 扩展系数:通常4倍隐藏维度
2️⃣ 混合专家模型 (MoE)
● 原理:稀疏激活的专家网络
● 特点:
○ 参数量大但计算高效
○ 动态路由机制
○ 专家并行
⚡ 激活函数
1️⃣ ReLU
● 公式:$\text{ReLU}(x) = \max(0, x)$
● 特点:简单高效,但可能神经元死亡
2️⃣ GELU
● 公式:$\text{GELU}(x) = x \cdot \Phi(x)$
● 特点:平滑激活,BERT使用
3️⃣ SwiGLU
● 公式:$\text{SwiGLU}(x) = \text{SiLU}(xW) \otimes (xV)$
● 特点:GLU变体,LLaMA使用
📊 结构对比
类型 参数量 计算量 表达能力
标准FFN 少 少 中
MoE 多 中 强

相关文章
|
23天前
|
机器学习/深度学习 监控 数据可视化
基于YOLOv8的水稻病害检测项目|完整源码数据集+PyQt5界面+完整训练流程+开箱即用!
基于YOLOv8的水稻病害检测系统,集成PyQt5可视化界面,支持图片、视频、摄像头实时识别,可检测细菌性叶斑病、褐斑病、叶霉病。提供完整源码、数据集、训练模型及部署教程,开箱即用,适用于智慧农业、科研与教学场景。
基于YOLOv8的水稻病害检测项目|完整源码数据集+PyQt5界面+完整训练流程+开箱即用!
|
2月前
|
机器学习/深度学习 PyTorch TensorFlow
TensorFlow与PyTorch深度对比分析:从基础原理到实战选择的完整指南
蒋星熠Jaxonic,深度学习探索者。本文深度对比TensorFlow与PyTorch架构、性能、生态及应用场景,剖析技术选型关键,助力开发者在二进制星河中驾驭AI未来。
650 13
|
3月前
|
机器学习/深度学习 数据采集 人工智能
PyTorch学习实战:AI从数学基础到模型优化全流程精解
本文系统讲解人工智能、机器学习与深度学习的层级关系,涵盖PyTorch环境配置、张量操作、数据预处理、神经网络基础及模型训练全流程,结合数学原理与代码实践,深入浅出地介绍激活函数、反向传播等核心概念,助力快速入门深度学习。
224 1
|
22天前
|
机器学习/深度学习 并行计算 PyTorch
PyTorch 分布式训练底层原理与 DDP 实战指南
深度学习模型规模激增,如Llama 3.1达4050亿参数,单卡训练需数百年。并行计算通过多GPU协同解决此问题。本文详解PyTorch的分布式数据并行(DDP),涵盖原理、通信机制与代码实战,助你高效实现多卡训练。
235 5
PyTorch 分布式训练底层原理与 DDP 实战指南
|
3月前
|
机器学习/深度学习 存储 PyTorch
Neural ODE原理与PyTorch实现:深度学习模型的自适应深度调节
Neural ODE将神经网络与微分方程结合,用连续思维建模数据演化,突破传统离散层的限制,实现自适应深度与高效连续学习。
196 3
Neural ODE原理与PyTorch实现:深度学习模型的自适应深度调节
|
2月前
|
边缘计算 人工智能 PyTorch
130_知识蒸馏技术:温度参数与损失函数设计 - 教师-学生模型的优化策略与PyTorch实现
随着大型语言模型(LLM)的规模不断增长,部署这些模型面临着巨大的计算和资源挑战。以DeepSeek-R1为例,其671B参数的规模即使经过INT4量化后,仍需要至少6张高端GPU才能运行,这对于大多数中小型企业和研究机构来说成本过高。知识蒸馏作为一种有效的模型压缩技术,通过将大型教师模型的知识迁移到小型学生模型中,在显著降低模型复杂度的同时保留核心性能,成为解决这一问题的关键技术之一。
|
6月前
|
机器学习/深度学习 PyTorch 算法框架/工具
提升模型泛化能力:PyTorch的L1、L2、ElasticNet正则化技术深度解析与代码实现
本文将深入探讨L1、L2和ElasticNet正则化技术,重点关注其在PyTorch框架中的具体实现。关于这些技术的理论基础,建议读者参考相关理论文献以获得更深入的理解。
197 4
提升模型泛化能力:PyTorch的L1、L2、ElasticNet正则化技术深度解析与代码实现
|
8月前
|
机器学习/深度学习 编解码 PyTorch
从零实现基于扩散模型的文本到视频生成系统:技术详解与Pytorch代码实现
本文介绍了一种基于扩散模型的文本到视频生成系统,详细展示了模型架构、训练流程及生成效果。通过3D U-Net结构和多头注意力机制,模型能够根据文本提示生成高质量视频。
339 1
从零实现基于扩散模型的文本到视频生成系统:技术详解与Pytorch代码实现
|
机器学习/深度学习 PyTorch 算法框架/工具
【从零开始学习深度学习】28.卷积神经网络之NiN模型介绍及其Pytorch实现【含完整代码】
【从零开始学习深度学习】28.卷积神经网络之NiN模型介绍及其Pytorch实现【含完整代码】
|
机器学习/深度学习 人工智能 PyTorch
AI智能体研发之路-模型篇(五):pytorch vs tensorflow框架DNN网络结构源码级对比
AI智能体研发之路-模型篇(五):pytorch vs tensorflow框架DNN网络结构源码级对比
257 1