Llama 3.3开源!70B媲美405B性能,支持128K上下文

简介: 近期,Meta开源了Llama 3.3 多语言大型语言模型(LLM),Llama 3.3 是一个预训练并经过指令调优的生成模型,参数量为70B(文本输入/文本输出)。

01.引言

近期,Meta开源了Llama 3.3 多语言大型语言模型(LLM),Llama 3.3 是一个预训练并经过指令调优的生成模型,参数量为70B(文本输入/文本输出)。Llama 3.3 指令调优的纯文本模型针对多语言对话用例进行了优化,并在常见的行业基准测试中优于许多可用的开源和闭源聊天模型。

Llama 3.3 是一个使用优化后的Transformer架构的自回归语言模型。调优版本使用监督微调(SFT)和基于人类反馈的强化学习(RLHF)来与人类对有用性和安全性的偏好保持一致。

  • 训练数据:新的公开在线数据混合集
  • 参数量:70B
  • 输入模态:多语言文本
  • 输出模态:多语言文本和代码
  • 上下文长度:128K
  • GQA:是
  • 训练tokens:15T+(仅指预训练数据
  • 知识截止日期:2023年12月
  • 支持的语言: 英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语

*注:Llama 3.3 的训练数据集包含了比所支持的8种语言更广泛的语言。开发者可以在遵守 Llama 3.3 社区许可和可接受使用政策的前提下,对 Llama 3.3 模型进行微调以支持更多语言,在这种情况下,开发者需确保在额外语言中使用 Llama 3.3 是安全且负责任的行为。

02.模型下载

模型链接:

https://www.modelscope.cn/models/LLM-Research/Llama-3.3-70B-Instruct

CLI下载:

modelscope download --model LLM-Research/Llama-3.3-70B-Instruct

Python SDK下载:

#模型下载
from modelscope import snapshot_download
model_dir = snapshot_download('LLM-Research/Llama-3.3-70B-Instruct')

03.模型推理

transformers推理

import transformers
import torch
from modelscope import snapshot_download
model_id = snapshot_download("LLM-Research/Llama-3.3-70B-Instruct")
pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device_map="auto",
)
messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]
outputs = pipeline(
    messages,
    max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])

Ollama:一行命令运行魔搭上的 Llama-3.3-70B-Instruct GGUF模型

  1. 设置ollama下启用
ollama serve
  1. ollama run ModelScope任意GGUF模型,指定model id即可:
ollama run modelscope.cn/lmstudio-community/Llama-3.3-70B-Instruct-GGUF

image.png

04.模型微调

这里我们介绍使用ms-swift 3.0对Llama3.3进行自我认知微调。

在开始微调之前,请确保您的环境已正确安装

# 安装ms-swift
pip install git+https://github.com/modelscope/ms-swift.git

微调脚本如下:

CUDA_VISIBLE_DEVICES=0,1 swift sft \
    --model LLM-Research/Llama-3.3-70B-Instruct \
    --dataset AI-ModelScope/alpaca-gpt4-data-zh#500 \
           AI-ModelScope/alpaca-gpt4-data-en#500 \
              swift/self-cognition#500 \
    --train_type lora \
    --lora_rank 8 \
    --lora_alpha 32 \
    --num_train_epochs 1 \
    --logging_steps 5 \
    --torch_dtype bfloat16 \
    --max_length 2048 \
    --learning_rate 1e-4 \
    --output_dir output \
    --target_modules all-linear \
    --model_name 小黄 'Xiao Huang' \
    --model_author 魔搭 ModelScope \
    --per_device_train_batch_size 1 \
    --gradient_accumulation_steps 16

训练显存占用:

image.png

推理脚本:

若出现兼容问题,请关注:https://github.com/modelscope/ms-swift

CUDA_VISIBLE_DEVICES=0 swift infer \
    --ckpt_dir output/vx-xxx/checkpoint-xxx \
    --stream true

推理效果:

image.png

相关文章
|
14天前
|
人工智能 自动驾驶 大数据
预告 | 阿里云邀您参加2024中国生成式AI大会上海站,马上报名
大会以“智能跃进 创造无限”为主题,设置主会场峰会、分会场研讨会及展览区,聚焦大模型、AI Infra等热点议题。阿里云智算集群产品解决方案负责人丛培岩将出席并发表《高性能智算集群设计思考与实践》主题演讲。观众报名现已开放。
|
6天前
|
自然语言处理 数据可视化 API
Qwen系列模型+GraphRAG/LightRAG/Kotaemon从0开始构建中医方剂大模型知识图谱问答
本文详细记录了作者在短时间内尝试构建中医药知识图谱的过程,涵盖了GraphRAG、LightRAG和Kotaemon三种图RAG架构的对比与应用。通过实际操作,作者不仅展示了如何利用这些工具构建知识图谱,还指出了每种工具的优势和局限性。尽管初步构建的知识图谱在数据处理、实体识别和关系抽取等方面存在不足,但为后续的优化和改进提供了宝贵的经验和方向。此外,文章强调了知识图谱构建不仅仅是技术问题,还需要深入整合领域知识和满足用户需求,体现了跨学科合作的重要性。
|
1月前
|
存储 人工智能 弹性计算
阿里云弹性计算_加速计算专场精华概览 | 2024云栖大会回顾
2024年9月19-21日,2024云栖大会在杭州云栖小镇举行,阿里云智能集团资深技术专家、异构计算产品技术负责人王超等多位产品、技术专家,共同带来了题为《AI Infra的前沿技术与应用实践》的专场session。本次专场重点介绍了阿里云AI Infra 产品架构与技术能力,及用户如何使用阿里云灵骏产品进行AI大模型开发、训练和应用。围绕当下大模型训练和推理的技术难点,专家们分享了如何在阿里云上实现稳定、高效、经济的大模型训练,并通过多个客户案例展示了云上大模型训练的显著优势。
|
1月前
|
存储 人工智能 调度
阿里云吴结生:高性能计算持续创新,响应数据+AI时代的多元化负载需求
在数字化转型的大潮中,每家公司都在积极探索如何利用数据驱动业务增长,而AI技术的快速发展更是加速了这一进程。
|
2天前
|
人工智能 容器
三句话开发一个刮刮乐小游戏!暖ta一整个冬天!
本文介绍了如何利用千问开发一款情侣刮刮乐小游戏,通过三步简单指令实现从单个功能到整体框架,再到多端优化的过程,旨在为生活增添乐趣,促进情感交流。在线体验地址已提供,鼓励读者动手尝试,探索编程与AI结合的无限可能。
|
6天前
|
Cloud Native Apache 流计算
PPT合集|Flink Forward Asia 2024 上海站
Apache Flink 年度技术盛会聚焦“回顾过去,展望未来”,涵盖流式湖仓、流批一体、Data+AI 等八大核心议题,近百家厂商参与,深入探讨前沿技术发展。小松鼠为大家整理了 FFA 2024 演讲 PPT ,可在线阅读和下载。
3123 10
PPT合集|Flink Forward Asia 2024 上海站
|
2天前
|
人工智能 自然语言处理 前端开发
从0开始打造一款APP:前端+搭建本机服务,定制暖冬卫衣先到先得
通义灵码携手科技博主@玺哥超carry 打造全网第一个完整的、面向普通人的自然语言编程教程。完全使用 AI,再配合简单易懂的方法,只要你会打字,就能真正做出一个完整的应用。
920 12
|
19天前
|
人工智能 自然语言处理 前端开发
100个降噪蓝牙耳机免费领,用通义灵码从 0 开始打造一个完整APP
打开手机,录制下你完成的代码效果,发布到你的社交媒体,前 100 个@玺哥超Carry、@通义灵码的粉丝,可以免费获得一个降噪蓝牙耳机。
5871 16
|
1月前
|
缓存 监控 Linux
Python 实时获取Linux服务器信息
Python 实时获取Linux服务器信息
|
12天前
|
机器学习/深度学习 人工智能 安全
通义千问开源的QwQ模型,一个会思考的AI,百炼邀您第一时间体验
Qwen团队推出新成员QwQ-32B-Preview,专注于增强AI推理能力。通过深入探索和试验,该模型在数学和编程领域展现了卓越的理解力,但仍在学习和完善中。目前,QwQ-32B-Preview已上线阿里云百炼平台,提供免费体验。