备案控制台

开发者社区大数据与机器学习文章正文

Llama-2 推理和微调的硬件要求总结：RTX 3080 就可以微调最小模型

2023-09-13 1353

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

智能开放搜索 OpenSearch行业算法版，1GB 20LCU 1个月

检索分析服务 Elasticsearch 版，2核4GB开发者规格 1个月

实时计算 Flink 版，5000CU*H 3个月

简介： 大语言模型微调是指对已经预训练的大型语言模型（例如Llama-2，Falcon等）进行额外的训练，以使其适应特定任务或领域的需求。微调通常需要大量的计算资源，但是通过量化和Lora等方法，我们也可以在消费级的GPU上来微调测试，但是消费级GPU也无法承载比较大的模型，经过我的测试，7B的模型可以在3080（8G）上跑起来，这对于我们进行简单的研究是非常有帮助的，但是如果需要更深入的研究，还是需要专业的硬件。

我们先看看硬件配置：

亚马逊的g3.xlarge M60是8GB的VRAM和2048个CUDA内核。3080是10Gb的GDDR6 VRAM，这两个GPU基本类似。

这里做的测试是使用一个小的(65MB文本)自定义数据集上微调lama-2 - 7b (~7GB)。

可以看到3080非常耗电，训练时最大耗电364瓦(PC总耗电超过500瓦)。

看看训练的记录

说明训练是ok的，能够完整的进行训练

为了验证内存消耗，我又在8G 的M60上跑了一遍，也是没问题的，这应该是GPU内存的极限了。

占用的差不多7.1G的内存，再多一些可能就不行了，不过还好，将就够用。

最后我们再整理个列表，大概看看各个模型都需要什么样的内存，以下只是推理，不包括微调，如果使用微调，大概需要再加20%（LORA）。

LLaMA-7B

建议使用至少6GB VRAM的GPU。适合此模型的GPU示例是RTX 3060，它提供8GB VRAM版本。

LLaMA-13B

建议使用至少10GB VRAM的GPU。满足此要求的gpu包括AMD 6900 XT、RTX 2060 12GB、3060 12GB、3080和A2000。这些gpu提供了必要的VRAM容量来有效地处理LLaMA-13B的计算需求。

LLaMA-30B

建议使用VRAM不低于20GB的GPU。RTX 3080 20GB、A4500、A5000、3090、4090、6000或Tesla V100都是提供所需VRAM容量的gpu示例。这些gpu为LLaMA-30B提供了高效的处理和内存管理。

LLaMA-65B

LLaMA-65B在与至少具有40GB VRAM的GPU。适合此型号的gpu示例包括A100 40GB, 2x3090, 2x4090, A40, RTX A6000或8000。

对于速度来说：

我是用RTX 4090和Intel i9-12900K CPU的推理速度示例

对于CPU来说，LLaMA也是可以用的，但是速度会很慢，而且最好不要进行训练，只能进行推理，下面是，13B模型在不同CPU上推理速度列表

各个系统的配置和性能可能会有所不同。最好对不同的设置进行实验和基准测试，以找到最适合您特定需求的解决方案，上面的测试仅供参考。

https://avoid.overfit.cn/post/0dd29b9a89514a988ae54694dccc9fa6

文章标签：

GPU云服务器

异构计算

物联网

测试技术

并行计算

相关实践学习

部署Stable Diffusion玩转AI绘画（GPU云服务器）

本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作，开启AIGC盲盒。

Deephub

目录

相关文章

Deephub

|

8月前

|

存储物联网测试技术

在16G的GPU上微调Mixtral-8x7B

Mixtral-8x7B是最好的开源llm之一。但是消费级硬件上对其进行微调也是非常具有挑战性的。因为模型需要96.8 GB内存。而微调则需要更多的内存来存储状态和训练数据。比如说80gb RAM的H100 GPU是不够的。

Deephub

156 2 2

阿里云大数据Al技术

|

8月前

|

机器学习/深度学习人工智能负载均衡

基于 NVIDIA Megatron-Core 的 MoE LLM 实现和训练优化

本文将分享阿里云人工智能平台 PAI 团队与 NVIDIA Megatron-Core 团队在 MoE (Mixture of Experts) 大型语言模型（LLM）实现与训练优化上的创新工作。

阿里云大数据Al技术

1101 8 9

ModelScope内容运营小助手

|

4月前

|

人工智能自然语言处理算法

魔搭上新啦！智源千万级指令微调数据集Infinity-Instruct，Llama3.1仅微调即可接近GPT-4

智源研究院在今年6月推出了千万级指令微调数据集Infinity Instruct。Infinity Instruct在 Huggingface等平台发布后，快速到达了Huggingface Dataset的Trending第一

ModelScope内容运营小助手

170 7 7

魔搭上新啦！智源千万级指令微调数据集Infinity-Instruct，Llama3.1仅微调即可接近GPT-4

ModelScope运营小助手

|

8月前

|

物联网 Shell Swift

NPU推理&微调大模型实战

本文为魔搭社区轻量级训练推理工具SWIFT微调实战教程系列

ModelScope运营小助手

2174 5 5

楠竹11

|

3月前

|

机器学习/深度学习算法测试技术

3天把Llama训成Mamba，性能不降，推理更快！

【10月更文挑战第7天】论文《Distilling and Accelerating Hybrid Models》提出了一种将大型Transformer模型高效转化为线性RNN模型的新方法，通过重用注意力层中的线性投影权重，实现性能不降甚至提升。研究通过多阶段蒸馏方法训练模型，包括渐进蒸馏、监督微调和定向偏好优化，确保了模型在标准聊天基准测试中的优异表现。实验结果表明，蒸馏后的混合模型在多个任务上与原模型及同类模型相比，表现出色或更优。然而，该方法仍需大量计算资源，并在特定任务上可能存在性能差距。

楠竹11

56 1 1

武子康

|

3月前

|

人工智能并行计算算法

LLM-04 大模型 15分钟 FineTuning 微调 ChatGLM3-6B（准备环境） 3090 24GB实战需22GB显存 LoRA微调 P-TuningV2微调

LLM-04 大模型 15分钟 FineTuning 微调 ChatGLM3-6B（准备环境） 3090 24GB实战需22GB显存 LoRA微调 P-TuningV2微调

武子康

112 0 0

武子康

|

3月前

|

开发工具 git

LLM-03 大模型 15分钟 FineTuning 微调 GPT2 模型 finetuning GPT微调实战仅需6GB显存单卡微调数据 10MB数据集微调

LLM-03 大模型 15分钟 FineTuning 微调 GPT2 模型 finetuning GPT微调实战仅需6GB显存单卡微调数据 10MB数据集微调

武子康

110 0 0

武子康

|

3月前

|

物联网数据处理

LLM-05 大模型 15分钟 FineTuning 微调 ChatGLM3-6B（微调实战1）官方案例 3090 24GB实战需22GB显存 LoRA微调 P-TuningV2微调

LLM-05 大模型 15分钟 FineTuning 微调 ChatGLM3-6B（微调实战1）官方案例 3090 24GB实战需22GB显存 LoRA微调 P-TuningV2微调

武子康

104 0 0

ModelScope内容运营小助手

|

5月前

|

自然语言处理资源调度机器人

10G显存，使用Unsloth微调Qwen2并使用Ollama推理

本文主要使用Unsloth基于Qwen2基础模型微调对话机器人以及在Ollama上运行。

ModelScope内容运营小助手

581 0 0

ModelScope运营小助手

|

8月前

|

机器学习/深度学习算法物联网

LISA微调技术解析：比LoRA更低的显存更快的速度

LISA是Layerwise Importance Sampling for Memory-Efficient Large Language Model Fine-Tuning的简写，由UIUC联合LMFlow团队于近期提出的一项LLM微调技术，可实现把全参训练的显存使用降低到之前的三分之一左右，而使用的技术方法却是非常简单。

ModelScope运营小助手

575 10 10

大数据与机器学习

热门文章

最新文章

阿里云开源离线同步工具DataX3.0介绍

数据库开放权限太危险，又不想写API。DataV给你另外一个选择。

2017杭州云栖大会FAQ（持续更新中）

实时计算 Flink SQL 核心功能解密

Flink SQL 功能解密系列 —— 维表 JOIN 与异步优化

流计算StreamCompute

PyODPS DataFrame 处理笛卡尔积的几种方式

JindoFS概述：云原生的大数据计算存储分离方案

【玩转数据系列四】听说啤酒和尿布很配？本期教你用协同过滤做推荐

重磅首发 |《Elasticsearch 中国开发者调查报告》探索开发者的现状和未来

MPP 架构与 Hadoop 架构技术选型指南

深入剖析 OALP 与 OLTP：概念、区别、技术、场景

Doris 架构原理及核心特性详解

Druid、ClickHouse、Doris、StarRocks 的区别与分析

Druid 架构原理及核心特性详解

ClickHouse 架构原理及核心特性详解

大数据是什么？用浅显的语言揭开神秘面纱

基于区块链的数字身份认证：重塑身份安全的新范式

Python爬虫：京东商品评论内容

大数据的第一步：初学者指南

相关课程

更多

云原生AI套件：一键训练大模型及部署GPU共享推理服务

相关电子书

更多

展心展力MetaApp：基于DeepRec的稀疏模型训练实践

《DeepRec：大规模稀疏模型训练引擎》

基于视觉推理的视频理解

相关实验场景

更多

通过GPU云服务器训练GPT-2

如何快速训练大模型

使用PAI+LLaMA Factory微调Qwen2-VL模型，搭建文旅领域知识问答机器人

AI克隆声音，基于函数计算部署GPT-Sovits语音生成模型

在云上部署ChatGLM2-6B大模型（GPU版）

使用PAI-快速开始，低代码实现大语言模型微调和部署

下一篇

阿里云开通OSS存储服务详细流程