备案控制台

开发者社区人工智能文章正文

模型压缩与量化

2025-12-12 30

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 模型压缩通过量化、稀疏化、知识蒸馏等技术，减小模型体积与计算开销，助力大模型在端侧部署。涵盖INT8/INT4、GPTQ、SmoothQuant等方法，平衡压缩比、精度与速度，并支持实战量化加载，提升推理效率。

🎯 概述
模型压缩通过减少模型大小和计算量，使大模型能够在资源受限的环境中部署。
🏗️ 压缩技术
1️⃣ 权重量化
● INT8量化：将FP32权重压缩到INT8，4倍压缩
● INT4量化：进一步压缩到4位，8倍压缩
● GPTQ：基于二阶信息的量化方法
2️⃣ 激活量化
● 动态量化：运行时量化激活值
● 静态量化：校准数据集预计算量化参数
● SmoothQuant：解决激活异常值问题
3️⃣ 稀疏化
● 非结构化稀疏：随机权重置零
● 结构化稀疏：通道/块级稀疏
● N:M稀疏：每M个权重保留N个
4️⃣ 知识蒸馏
● 量化感知蒸馏：结合量化和蒸馏
● 渐进式量化：逐步降低精度
📊 量化方法对比
方法压缩比精度损失推理速度实现难度
INT8 4x <1% 2-3x 低
INT4 8x 1-3% 3-4x 中
GPTQ 8x <1% 3-4x 中
AWQ 8x <0.5% 3-4x 中
🎯 实战代码

使用bitsandbytes进行量化

import torch
from transformers import AutoModelForCausalLM, BitsAndBytesConfig

INT4量化配置

bnb_config = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_use_double_quant=True,
bnb_4bit_quant_type="nf4",
bnb_4bit_compute_dtype=torch.bfloat16
)

加载量化模型

model = AutoModelForCausalLM.from_pretrained(
"meta-llama/Llama-2-7b-hf",
quantization_config=bnb_config,
device_map="auto"
)
剪枝
🎯 面试重点

INT8和INT4量化的区别？
如何解决量化后的精度损失？
GPTQ和AWQ的算法原理？
量化对推理速度的影响？

文章标签：

算法

游客vhylg5zno4ifs

目录

相关文章

游客vhylg5zno4ifs

|

1天前

|

缓存算法 C++

模型推理加速

大模型推理加速关键技术：KV-Cache优化、连续批处理、投机解码、模型并行与vLLM等。涵盖原理、内存计算、优化策略及实战，助力高效部署与面试备战。

游客vhylg5zno4ifs

26 0 0

modelscope

|

16天前

|

人工智能安全搜索推荐

杭州AI开源生态大会·魔搭社区开发者嘉年华全回顾

11月22日，杭州AI开源生态大会暨“魔搭社区”开发者中心启用仪式在云谷中心举行。大会汇聚超3000名开发者，发布“两张清单”与AI开源政策包，启用首个线下开发者空间，推动开放、共建、共创的AI生态发展。

modelscope

230 10 10

霍格沃兹测试开发学社

|

18天前

|

人工智能 JSON 自然语言处理

2025年测试工程师的核心竞争力：会用Dify工作流编排AI测试智能体

测试工程师正从脚本执行迈向质量策略设计。借助Dify等AI工作流平台，可编排“AI测试智能体”，实现用例生成、语义校验、自动报告等全流程自动化，应对AI应用的动态与不确定性，构建智能化、可持续集成的测试新体系。

霍格沃兹测试开发学社

149 0 0

霍格沃兹测试开发学社

|

2月前

|

Web App开发数据可视化前端开发

当Dify遇见Selenium：可视化编排UI自动化测试，原来如此简单

Dify与Selenium融合，打造可视化UI自动化测试新范式。无需编码，通过拖拽构建复杂测试流程，降低技术门槛，提升协作效率。智能元素定位、自适应等待、视觉验证等特性显著增强测试稳定性与维护性，结合CI/CD实现高效回归，推动测试智能化演进。

霍格沃兹测试开发学社

200 1 2

霍格沃兹测试开发

|

1月前

|

人工智能数据可视化测试技术

提升测试效率5倍！Dify驱动的可视化工作流实现自动化测试“开箱即用”

本文介绍如何利用Dify可视化工作流快速构建自动化测试体系，涵盖用例生成、API测试和UI测试等核心场景。通过拖拽式设计降低技术门槛，显著提升测试效率与覆盖率，助力团队实现质量保障的智能化转型。

霍格沃兹测试开发

240 0 0

游客vhylg5zno4ifs

|

1天前

|

存储机器学习/深度学习编解码

预训练技巧

预训练是大模型的核心基础，涵盖混合精度、分布式训练、ZeRO优化、FlashAttention等关键技术，通过高效计算与显存优化，实现大规模模型的快速稳定训练。

游客vhylg5zno4ifs

22 0 0

游客vhylg5zno4ifs

|

1天前

|

自然语言处理

主流大模型结构

本文介绍了四大模型架构：Encoder-Decoder、Decoder-Only、Encoder-Only和Prefix-Decoder，涵盖代表模型与应用场景。详解GPT系列演进、LLaMA发展及主流中文大模型，并对比GPT-4、LLaMA-3、Qwen等在架构、参数量与上下文长度等方面的异同。

游客vhylg5zno4ifs

30 0 0

游客vhylg5zno4ifs

|

1天前

|

机器学习/深度学习自然语言处理算法

主流分词算法

分词器将文本转为模型可处理的数字序列，主流算法有BPE、WordPiece和SentencePiece。BPE高效但中文支持弱；WordPiece用于BERT，适合英文；SentencePiece语言无关，支持中文。实战中需根据语言选择算法，并合理设置词汇表大小与特殊标记，解决OOV等问题。

游客vhylg5zno4ifs

21 0 0

游客vhylg5zno4ifs

|

1天前

|

机器学习/深度学习自然语言处理算法

分词器详解

分词器将文本转为模型可处理的数字序列，主流算法有BPE、WordPiece和SentencePiece。BPE高效但中文支持弱；WordPiece用于BERT，适合英文；SentencePiece语言无关，支持中日文。实战中常用SentencePiece处理中文，Hugging Face工具处理英文。面试需掌握算法差异、中文分词策略、词汇表设计及OOV问题解决。

游客vhylg5zno4ifs

17 0 0

游客vhylg5zno4ifs

|

1天前

|

机器学习/深度学习自然语言处理网络架构

Transformer基础结构

Transformer是Vaswani等人于2017年提出的基于注意力机制的神经网络，彻底革新了自然语言处理。其核心为编码器-解码器架构，通过自注意力并行捕捉长距离依赖，结合位置编码、残差连接与层归一化，显著提升训练效率与模型性能，广泛应用于各类NLP任务。（238字）

游客vhylg5zno4ifs

18 0 0

热门文章

最新文章

阿里云商标优选官网入口链接地址（明码标价）

SVG实例之中国地图

Java常见面试题：泛型中“T”与“？”的区别

程序员如何让自己 Be Cloud Native - 配置篇

视频直播常见问题与解决办法汇总【系列一】

PostgreSQL 最佳实践 - 逻辑增量复制(MySQL <-> PgSQL <-> PgSQL)

独家经验快速跟进：《零售数据中台通关指南》一起走进零售数据中台

窗体之间传值的暴力方法

超越按钮，拥抱触摸界面

SpringBoot.鉴权

SpringBoot.跨域处理

SpringBoot. 不定参数入参

SpringBoot. 打包

NPP 草地：英国比肯山，1972-1993 年，R1

Python：ImportError:DLL loadfailed while importing onnxruntime_pybind11_state: 动态链接库(DLL)初始化例程失败报错解决

实用工具：VS Code 配置 Markdown 编译器全指南

基于springboot的社区垃圾分类管理系统

自动化运维卷到最后，都卷成了“智能决策”？——从脚本到AIOps的进化史

后台数据的“毒警”：指标噪声和空洞指标不治理，你的监控就永远是个“聋子”

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

「直播预告」Streaming Lakehouse Meetup EP.2｜Paimon × StarRocks 共话实时湖仓