微调技术

简介: 微调是适配预训练模型的关键技术,涵盖指令微调、对齐微调与高效参数微调。LoRA通过低秩分解减少参数量,提升训练效率;其变体如LoRA+、QLoRA、AdaLoRA进一步优化性能与资源消耗。Prefix Tuning与Prompt Tuning则通过少量参数实现高效微调,适用于不同场景需求。(239字)

🎯 微调概述
微调是将预训练模型适配到特定任务的关键技术,包括指令微调、对齐微调和高效参数微调。
🏗️ 微调类型
1️⃣ 指令微调 (SFT)
● 原理:在指令-响应对上训练
● 数据格式:{"instruction": "...", "output": "..."}
● 效果:提升指令遵循能力
2️⃣ 对齐微调 (RLHF)
● 流程:
a. 人类偏好数据收集
b. 奖励模型训练
c. PPO强化学习优化
● 目标:使模型行为符合人类价值观
3️⃣ 高效参数微调
LoRA (Low-Rank Adaptation)
背景
矩阵中的最大的不相关的向量个数,就叫做秩。如果矩阵中数据比较相关,则为低秩矩阵。
● 例如,一个 $m \times n$ 的矩阵,如果它的秩 r 远小于 m 和 n,那么它就是一个低秩矩阵,冗余信息很多
● 反之,若矩阵的秩等于矩阵的行数 m,或者列数 n,则它是一个满秩矩阵
● 大模型的参数矩阵中的秩往往较小,具有很强的冗余
LoRA 原理
● 原理:如果一个矩阵P(假设维度为$d \times d$ )存在大量冗余信息,即低秩特性,可以不用完整的 $d \times d$ 尺寸来表示它,可利用因式分解这个想法,用两个较小的矩阵( A和B )的乘积 BA 来表示矩阵P,其中 A 维度 $r \times d$ ,B 维度 $d \times r$ ,则 $P = AB$ ,其中 $r$ 为秩,远小于 $d$ ,A 和 B 为低秩矩阵
● 思想:将全参数微调理解为“冻住的预训练权重” + “微调过程中产生的权重更新量”,因此微调只学习“更新”的那部分参数量(与预训练权重维度相同)。同时借助矩阵分解的思想,将“更新”的大模型参数矩阵分解为两个低秩矩阵的乘积,从而减少参数量,提高训练速度
● 公式:$output = W_0x + \Delta Wx = W_0x + BAx$ 其中 $W_0$ 为预训练权重,维度为 $d \times d$ ,$x$ 为输入,$B$ 和 $A$ 为可训练参数,维度分别为 $d \times r$,$r \times d$ ( $r$ 为秩,远小于 $d$ ), $\Delta W$ 为微调过程中产生的权重更新量,即$BA$
● 效果:参数更新量由 $d \times d$ 降低为 $2 \times d \times r$ ,反向传播时,只有 A、B 获得梯度,$W_0$ 不变,因而大大减少计算量
LoRA的初始化
常见的初始化方法是:矩阵A 高斯初始化,矩阵 B 初始化为零矩阵,保证模型输出在第一步与预训练一致,避免任何初始扰动,保证不会在一开始就破坏预训练表示
● 为什么A 高斯初始化,B 初始化为零矩阵?为什么不能都高斯初始化?或者都为0,或者B 高斯初始化,A 初始化为零矩阵?

具体可参考: LoRA微调中的矩阵初始化策略:A随机与B零初始化
○ A 随机与 B 零初始化: B在第一轮即可获得梯度,更新参数,A在第一轮无法获得梯度,不更新参数,但随着B的更新,A会逐渐获得梯度,开始更新
○ A 和 B 都高斯初始化: 模型输出在第一步与预训练不一致,引入噪声,干扰训练
○ A 和 B 都初始化为零: A 和 B 均无法获得梯度,无法更新,训练无法启动
○ B 随机与 A 零初始化: 理论上可能,但会导致训练效率显著下降甚至失败。B在第一轮无法获得梯度,无法更新参数,A 在第一轮的梯度不为零(取决于随机初始化的 B),可以更新,但 A 的更新需要与 B 的更新协同才能有效调整权重。由于 B 在初始阶段无法更新,A 的更新方向会受限于初始随机的 B,导致优化过程不稳定。
LoRA作用的位置
理论上LoRA的思想可以应用到任何权值矩阵上,例如在自注意机制中有四个权值矩阵 wq,wk ,wv ,wo ,另外在Transformer的全连接中也有两个权值矩阵w_up 和 w_down。关于LoRA在Transformer的作用位置,LoRA论文在自注意力层做了一组对照实验,证明如果只将LoRA作用到某个单一矩阵上,效果不佳,如果将LoRA作用到两个矩阵上,放在 wq 和 wv 效果最好。建议在所有的权值矩阵都加上LoRA,有利于模型捕捉到所有矩阵的关键信息

LoRA中参数
● $r$ :秩,表示低秩矩阵的维度,一般取1、2、4、8、16、32,比较常见的取值是8,值越高意味着矩阵越大
● lora_alpha:缩放因子,用于调整低秩矩阵的影响力。可以理解为对BA的更新幅度进行放大或缩小
● lora_target:指示需要应用低秩适应(LoRA)模块的特定网络层或模块
LoRA的变体
● LoRA+(LoRA Plus): LoRA 的增强版本,主要通过为矩阵 A 和 B 引入不同的学习率改进Lora,其中矩阵 B 的学习率设置为矩阵 A 的 16 倍。这种策略可以显著提高训练效率,同时提升模型精度(约 2%),并将训练时间缩短 2 倍。前提:原始 LoRA 中,矩阵 A 和 B 使用相同的学习率进行更新。该方法认为当模型的宽度(即嵌入维度)较大时,这种单一学习率的设置会导致微调效果不佳。)
● QLoRA(Quantized LoRA): QLoRA 是 LoRA 的量化版本,主要通过对低秩矩阵进行量化,从而显著降低存储和计算成本。这使得模型在显存受限的环境中运行更加高效。
● AdaLoRA(Adaptive LoRA):AdaLoRA 是 LoRA 的自适应版本,它支持动态调整秩,可根据任务和数据的复杂度动态调整低秩矩阵的秩,避免了固定秩带来的限制。

Prefix Tuning
● 原理:在输入前添加可训练前缀
● 特点:仅训练前缀参数
Prompt Tuning
● 原理:学习软提示词嵌入
● 特点:简单高效
📊 微调方法对比
方法 参数量 训练速度 效果 部署
全参数 100% 慢 最好 困难
LoRA 1% 快 好 容易
Prefix 0.1% 最快 中 容易

相关文章
|
1天前
|
机器学习/深度学习 算法 关系型数据库
强化学习
强化学习(RL)是一种通过智能体与环境交互,以最大化累积奖励为目标的学习方法。核心包括状态、动作、奖励、策略与价值函数,依赖试错和延迟奖励机制。常见算法如Q-learning、PPO、DPO等,广泛应用于游戏、机器人及大模型训练。结合人类反馈(RLHF),可实现对齐人类偏好的智能行为优化。(239字)
|
1天前
|
机器学习/深度学习 存储 知识图谱
知识蒸馏
知识蒸馏是一种模型压缩技术,通过让小模型(学生)模仿大模型(教师)的输出或中间特征,实现性能逼近甚至超越。核心方法包括基于软标签的Hinton蒸馏、带温度的softmax平滑分布、以及利用隐藏层特征的特征蒸馏。分为黑盒(仅用输出)与白盒(访问内部)两种模式,广泛用于加速推理与提升小模型泛化能力。(238字)
|
1天前
|
算法
模型压缩与量化
模型压缩通过量化、稀疏化、知识蒸馏等技术,减小模型体积与计算开销,助力大模型在端侧部署。涵盖INT8/INT4、GPTQ、SmoothQuant等方法,平衡压缩比、精度与速度,并支持实战量化加载,提升推理效率。
|
1天前
|
缓存 算法 C++
模型推理加速
大模型推理加速关键技术:KV-Cache优化、连续批处理、投机解码、模型并行与vLLM等。涵盖原理、内存计算、优化策略及实战,助力高效部署与面试备战。
|
1天前
|
C++
模型评估
模型评估涵盖能力、对齐与效率三大维度,涉及语言理解、知识问答、推理代码等任务,常用MMLU、C-Eval、GSM8K等基准,结合Hugging Face工具实现自动评测,面试关注幻觉检测、指标设计与人工协同评估。
|
1天前
|
人工智能 Java
快速入门
本课程讲解Java变量与基本数据类型,涵盖变量定义、使用规范、不同进制写法及类型转换。通过实例演示整型、浮点型等数据类型的声明与操作,深入解析自动与强制类型转换规则,并介绍方法的定义、重载及参数传递机制,夯实编程基础。
|
1天前
|
Java 开发工具 Maven
公司第一天做什么
入职首日需完成账号开通(如Git、Jenkins、Nacos等)、环境配置(JDK、Maven、IDEA)、服务连接测试,并拉取代码熟悉项目结构与业务流程,及时与团队沟通确认,确保开发环境正常运行。
|
1天前
|
敏捷开发 Java 测试技术
为什么要单元测试
本文探讨单元测试如何让软件开发“提速”而非“踩刹车”。通过解析测试体系演进、测试金字塔理念,阐明单元测试在提升调试效率、代码质量与研发效能方面的核心价值,揭示其作为高质量软件基石的重要性。
|
1天前
|
运维 安全 Devops
生产环境缺陷管理
git-poison基于go-git实现分布式bug追溯,解决多分支开发中bug漏修、漏发问题。通过“投毒-解药-银针”机制,自动化卡点发布流程,降低协同成本,避免人为失误,已在大型团队落地一年,显著提升发布安全与效率。
|
1天前
|
SQL 运维 分布式计算
如何做好SQL质量监控
SLS推出用户级SQL质量监控功能,集成于CloudLens for SLS,提供健康分、服务指标、运行明细、SQL Pattern分析及优化建议五大维度,帮助用户全面掌握SQL使用情况,定位性能瓶颈,优化资源利用,提升日志分析效率与治理能力。