快速玩转 Mixtral 8x7B MOE大模型,阿里云机器学习 PAI 推出最佳实践

简介: 本文介绍如何在PAI平台针对Mixtral 8x7B大模型的微调和推理服务的最佳实践,助力AI开发者快速开箱。以下我们将分别展示具体使用步骤。

1.背景


Mixtral 8x7B大模型是Mixtral AI推出的基于decoder-only架构的稀疏专家混合网络(Mixture-Of-Experts,MOE)开源大语言模型。这一模型具有46.7B的总参数量,对于每个token,路由器网络选择八组专家网络中的两组进行处理,并且将其输出累加组合,在增加模型参数总量的同时,优化了模型推理的成本。在大多数基准测试中,Mixtral 8x7B模型与Llama2 70B和GPT-3.5表现相当,因此具有很高的使用性价比。

阿里云人工智能平台PAI是面向开发者和企业的机器学习/深度学习平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务。

本文介绍如何在PAI平台针对Mixtral 8x7B大模型的微调和推理服务的最佳实践,助力AI开发者快速开箱。以下我们将分别展示具体使用步骤。


2.具体步骤


2.1使用PAI-DSW轻量化微调Mixtral 8x7B MOE大模型

PAI-DSW是云端机器学习开发IDE,为用户提供交互式编程环境,同时提供了丰富的计算资源。我们在智码实验室(https://gallery.pai-ml.com/)Notebook Gallery中上线了两个微调Mixtral 8x7B MOE大模型的示例,参见下图:

image.png

上述Notebook可以使用阿里云PAI-DSW的实例打开,并且需要选择对应的计算资源和镜像。

2.2使用Swift轻量化微调Mixtral 8x7B MOE大模型

Swift是魔搭ModelScope开源社区推出的轻量级训练推理工具开源库,使用Swift进行这一大模型LoRA轻量化微调需要使用2张A800(80G)及以上资源。在安装完对应依赖后,我们首先下载模型至本地:

!apt-getupdate!echoy|apt-getinstallaria2defaria2(url, filename, d):
!aria2c--console-log-level=error-c-x16-s16 {url} -o {filename} -d {d}
mixtral_url="http://pai-vision-data-inner-wulanchabu.oss-cn-wulanchabu-internal.aliyuncs.com/mixtral/Mixtral-8x7B-Instruct-v0.1.tar"aria2(mixtral_url, mixtral_url.split("/")[-1], "/root/")
!cd/root&&mkdir-pAI-ModelScope!cd/root&&tar-xfMixtral-8x7B-Instruct-v0.1.tar-C/root/AI-ModelScopeimportosos.environ['MODELSCOPE_CACHE']='/root'

当模型下载完毕后,我们使用Swift一键拉起训练任务:

!cdswift/examples/pytorch/llm&&PYTHONPATH=../../.. \
CUDA_VISIBLE_DEVICES=0,1 \
pythonllm_sft.py \
--model_id_or_pathAI-ModelScope/Mixtral-8x7B-Instruct-v0.1 \
--model_revisionmaster \
--sft_typelora \
--tuner_backendswift \
--dtypeAUTO \
--output_dir/root/output \
--ddp_backendnccl \
--datasetalpaca-zh \
--train_dataset_sample100 \
--num_train_epochs2 \
--max_length2048 \
--check_dataset_strategywarning \
--lora_rank8 \
--lora_alpha32 \
--lora_dropout_p0.05 \
--lora_target_modulesALL \
--batch_size1 \
--weight_decay0.01 \
--learning_rate1e-4 \
--gradient_accumulation_steps16 \
--max_grad_norm0.5 \
--warmup_ratio0.03 \
--eval_steps300 \
--save_steps300 \
--save_total_limit2 \
--logging_steps10 \
--only_save_modeltrue \
--gradient_checkpointingfalse

模型训练完成后,我们将学习到的LoRA权重合并到模型Checkpoint中:

!swiftmerge-lora--ckpt_dir'/root/output/mistral-7b-moe-instruct/v3-20231215-111107/checkpoint-12'

其中,ckpt_dir参数的值需要替换成模型LoRA权重保存路径。为了测试模型训练的正确性,我们可以使用transformers库进行离线推理测试:

fromtransformersimportAutoModelForCausalLM, AutoTokenizermodel_id="/root/output/mistral-7b-moe-instruct/v3-20231215-111107/checkpoint-12-merged"tokenizer=AutoTokenizer.from_pretrained(model_id, device_map='auto')
model=AutoModelForCausalLM.from_pretrained(model_id, device_map='auto')
text="""[INST] <<SYS>>You are a helpful, respectful and honest assistant. Always answer as helpfully as possible, while being safe. Your answers should not include any harmful, unethical, racist, sexist, toxic, dangerous, or illegal content. Please ensure that your responses are socially unbiased and positive in nature.If a question does not make any sense, or is not factually coherent, explain why instead of answering something not correct. If you don't know the answer to a question, please don't share false information.<</SYS>>写一首歌的过程从开始到结束。 [/INST]"""inputs=tokenizer(text, return_tensors="pt")
outputs=model.generate(**inputs, max_new_tokens=512)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

2.3使用Deepspeed轻量化微调Mixtral 8x7B MOE大模型

我们也可以使用Deepspeed对Mixtral 8x7B MOE大模型进行LoRA轻量化微调。同样的,我们需要使用2张A800(80G)及以上资源。我们首先下载模型至本地:

!apt-getupdate!echoy|apt-getinstallaria2defaria2(url, filename, d):
!aria2c--console-log-level=error-c-x16-s16 {url} -o {filename} -d {d}
mixtral_url="http://pai-vision-data-inner-wulanchabu.oss-cn-wulanchabu-internal.aliyuncs.com/mixtral/Mixtral-8x7B-Instruct-v0.1.tar"aria2(mixtral_url, mixtral_url.split("/")[-1], "/root/")
!cd/root&&tar-xfMixtral-8x7B-Instruct-v0.1.tar

第二步,我们下载一个示例古诗生成数据集,用户可以根据下述数据格式准备自己的数据集。

!wget-chttps://pai-quickstart-predeploy-hangzhou.oss-cn-hangzhou.aliyuncs.com/huggingface/datasets/llm_instruct/en_poetry_train_mixtral.json!wget-chttps://pai-quickstart-predeploy-hangzhou.oss-cn-hangzhou.aliyuncs.com/huggingface/datasets/llm_instruct/en_poetry_test_mixtral.json

第三步,我们可以修改示例命令的超参数,并且拉起训练任务。

!mkdir-p/root/output!deepspeed/ml/code/train_sft.py \
--model_name_or_path/root/Mixtral-8x7B-Instruct-v0.1/ \
--train_pathen_poetry_train_mixtral.json \
--valid_pathen_poetry_test_mixtral.json \
--learning_rate1e-5 \
--lora_dim32 \
--max_seq_len256 \
--modelmixtral \
--num_train_epochs1 \
--per_device_train_batch_size8 \
--zero_stage3 \
--gradient_checkpointing \
--print_loss \
--deepspeed \
--output_dir/root/output/ \
--offload

当训练结束后,我们拷贝额外配置文件至输出文件夹:

!cp/root/Mixtral-8x7B-Instruct-v0.1/generation_config.json/root/output!cp/root/Mixtral-8x7B-Instruct-v0.1/special_tokens_map.json/root/output!cp/root/Mixtral-8x7B-Instruct-v0.1/tokenizer.json/root/output!cp/root/Mixtral-8x7B-Instruct-v0.1/tokenizer.model/root/output!cp/root/Mixtral-8x7B-Instruct-v0.1/tokenizer_config.json/root/output

我们同样可以使用transformers库进行离线推理测试:

importosfromtransformersimportAutoModelForCausalLM, AutoTokenizerimporttorchmodel_id="/root/output/"tokenizer=AutoTokenizer.from_pretrained(model_id)
model=AutoModelForCausalLM.from_pretrained(model_id,device_map='auto',torch_dtype=torch.float16)
text="""[INST] Write a poem on a topic 'Care for Thy Soul as Thing of Greatest Price': [/INST]"""inputs=tokenizer(text, return_tensors="pt").to('cuda')
outputs=model.generate(**inputs, max_new_tokens=20)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

如果用户需要将上述模型部署为EAS服务,需要将格式转换成safetensors格式:

state_dict=model.state_dict()
model.save_pretrained(
model_id,
state_dict=state_dict,
safe_serialization=True)

2.4使用PAI-EAS在线部署Mixtral 8x7B MOE大模型

PAI-EAS是PAI平台推出的弹性推理服务,可以将各种大模型部署为在线服务。当Mixtral 8x7B MOE大模型微调完毕后,我们可以将其部署为PAI-EAS服务。这里,我们介绍使用PAI-SDK将上述模型进行部署。首先,我们在PAI-DSW环境安装PAI-SDK:

!python-mpipinstallalipai==0.4.4.post0

在安装完成后,在在命令行终端上执行以下命令,按照引导完成配置AccessKey、PAI工作空间以及 OSS Bucket:

python-mpai.toolkit.config

我们将训练好的模型上传至OSS Bucket。在下述命令中,source_path为模型Checkpoint保存的本地路径,oss_path为上传至OSS的目标路径:

importpaifrompai.sessionimportget_default_sessionfrompai.common.oss_utilsimportuploadprint(pai.__version__)
sess=get_default_session()
model_uri=upload(
source_path="/root/output", oss_path="mixtral-7b-moe-instruct-sft-ds", bucket=sess.oss_bucket)
print(model_uri)

我们根据下述模版配置EAS服务的Config,并且进行服务的部署:

config= {
"containers": [
        {
"image": "pai-image-manage-registry.cn-wulanchabu.cr.aliyuncs.com/pai/llm-inference:vllm-0.2.4-v2",
"port": 8081,
"script": "python -m vllm.entrypoints.api_server --model /model --tensor-parallel-size 2 --gpu-memory-utilization 0.95 --port 8081 --dtype half"        }
    ],
"metadata": {
"cpu": 40,
"gpu": 2,
"instance": 1,
"memory": 256000,
"quota_id": "",
"quota_type": "Lingjun",
"resource_burstable": False,
"rpc": {
"keepalive": 500000        },
"workspace_id": ""    },
"storage": [
        {
"empty_dir": {
"medium": "memory",
"size_limit": 24            },
"mount_path": "/dev/shm"        },
        {
"mount_path": "/model",
"oss": {
"path": "oss://example-bucket/mixtral-7b-moe-instruct-sft-ds/",
"readOnly": False            },
"properties": {
"resource_type": "model"            }
        }
    ]
} 
frompai.modelimportModelm=Model().deploy(
service_name='mixtral_sdk_example_ds',
options=config)

其中,oss.path配置为mixtral模型在OSS上的目录,示例会把oss://example-bucket/mistral-7b-moe-instruct-sft/挂载至/model。metadata.quota_id、metadata.workspace_id根据当前用户的实际情况进行调整,注意确保配置的AK所属用户具备当前工作空间权限。

当服务部署完成后,使用Python脚本调用EAS服务,其中url和authorization需要改成当前EAS服务的url和token:

# coding: utf8importrequestsimportjsonimportwarningsurl='http://*****/generate'h= {
'Authorization': '*****'    }
d= {
"prompt": text,
"use_beam_search": False,
"stream": True,
"n": 1,
"temperature": 0.0,
"max_tokens": 860,
    }
text_pre=""withrequests.post(url=url, headers=h, json=d,stream=True) asr:
try:
forchunkinr.iter_lines(chunk_size=8192,
decode_unicode=False,
delimiter=b"\0"):
ifchunk:
data=json.loads(chunk.decode("utf-8"))
output=data["text"]
whileoutput[0][-1]=='�':
output[0]=output[0][:-1]
text_ex=output[0].replace(text_pre,"").replace(text,"")
iflen(text_pre)<len(output[0]):
text_pre=output[0]
print(text_ex, end="", flush=True) 
exceptExceptionasex:
print(f"{str(ex)}")

2.5使用PAI-QuickStart零代码玩转Mixtral 8x7B MOE大模型

快速开始(PAI-QuickStart)集成了国内外AI开源社区中优质的预训练模型,支持零代码实现微调和部署Mixtral 8x7B MOE大模型,用户只需要根据格式上传训练集和验证集,填写训练时候使用的超参数就可以一键拉起训练任务。Mixtral的模型卡片如下图所示:

image.png

我们可以根据实际需求上传训练集和验证集,调整超参数,例如learning_rate、sequence_length、train_iters等,如下所示:

image.png

点击“训练”按钮,PAI-QuickStart开始进行训练,用户可以查看训练任务状态和训练日志,如下所示:

image.png

如果需要将模型部署至PAI-EAS,可以在同一页面的模型部署卡面选择资源组,并且点击“部署”按钮实现一键部署。模型调用方式和上文PAI-EAS调用方式相同。

image.png




相关实践学习
使用PAI+LLaMA Factory微调Qwen2-VL模型,搭建文旅领域知识问答机器人
使用PAI和LLaMA Factory框架,基于全参方法微调 Qwen2-VL模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
9月前
|
机器学习/深度学习 人工智能 测试技术
【ICML2025】大模型后训练性能4倍提升!阿里云PAI团队研究成果ChunkFlow中选
近日,阿里云 PAI 团队、通义实验室与中国科学院大学前沿交叉科学学院合作在机器学习顶级会议 ICML 2025 上发表论文 Efficient Long Context Fine-tuning with Chunk Flow。ChunkFlow 作为阿里云在变长和超长序列数据集上高效训练解决方案,针对处理变长和超长序列数据的性能问题,提出了以 Chunk 为中心的训练机制,支撑 Qwen 全系列模型的长序列续训练和微调任务,在阿里云内部的大量的业务上带来2倍以上的端到端性能收益,大大降低了训练消耗的 GPU 卡时。
|
11月前
|
存储 人工智能 运维
MoE大模型迎来“原生战友”:昇腾超节点重构AI基础设施
大模型训练中,MoE架构逐渐成为主流,但也面临资源利用率低、系统稳定性差、通信带宽瓶颈三大挑战。传统AI集群难以满足其需求,而“昇腾超节点”通过自研高速互联协议、软硬件协同调度、全局内存统一编址及系统稳定性提升等创新,实现384张卡协同工作,大幅提升训练效率与推理性能。相比传统方案,昇腾超节点将训练效率提升3倍,推理吞吐提升6倍,助力MoE模型在工业、能源等领域的规模化应用。5月19日的鲲鹏昇腾创享周直播将深度解析相关技术细节。
645 15
|
9月前
|
弹性计算 关系型数据库 API
自建Dify平台与PAI EAS LLM大模型
本文介绍了如何使用阿里云计算巢(ECS)一键部署Dify,并在PAI EAS上搭建LLM、Embedding及重排序模型,实现知识库支持的RAG应用。内容涵盖Dify初始化、PAI模型部署、API配置及RAG知识检索设置。
自建Dify平台与PAI EAS LLM大模型
|
7月前
|
机器学习/深度学习 人工智能 测试技术
探索 Qwen2.5-Max 的智能:大规模 MoE 模型的飞跃
Qwen2.5-Max 是通义实验室推出的最先进MoE模型,在推理、知识和代码任务中表现卓越,已在超20万亿token上预训练,并通过SFT和RLHF优化。在多项基准测试中领先,如Arena-Hard达89.4,MMLU-Pro为76.1,性能超越DeepSeek V3、GPT-4o等模型,成为当前最佳开源模型。可通过Qwen Chat和API使用,适用于开发者、研究者及AI爱好者探索前沿AI能力。
1129 2
|
10月前
|
存储 分布式计算 API
基于PAI-FeatureStore的LLM embedding功能,结合通义千问大模型,可通过以下链路实现对物品标题、内容字段的离线和在线特征管理。
本文介绍了基于PAI-FeatureStore和通义千问大模型的LLM embedding功能,实现物品标题、内容字段的离线与在线特征管理。核心内容包括:1) 离线特征生产(MaxCompute批处理),通过API生成Embedding并存储;2) 在线特征同步,实时接入数据并更新Embedding至在线存储;3) Python SDK代码示例解析;4) 关键步骤说明,如客户端初始化、参数配置等;5) 最佳实践,涵盖性能优化、数据一致性及异常处理;6) 应用场景示例,如推荐系统和搜索排序。该方案支持端到端文本特征管理,满足多种语义理解需求。
304 1
|
机器学习/深度学习 人工智能 自然语言处理
云上一键部署通义千问 QwQ-32B 模型,阿里云 PAI 最佳实践
3月6日阿里云发布并开源了全新推理模型通义千问 QwQ-32B,在一系列权威基准测试中,千问QwQ-32B模型表现异常出色,几乎完全超越了OpenAI-o1-mini,性能比肩Deepseek-R1,且部署成本大幅降低。并集成了与智能体 Agent 相关的能力,够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。阿里云人工智能平台 PAI-Model Gallery 现已经支持一键部署 QwQ-32B,本实践带您部署体验专属 QwQ-32B模型服务。
|
人工智能 JSON 自然语言处理
如何用大模型评估大模型——PAI-Judge裁判员大语言模型的实现简介
阿里云人工智能平台 PAI 推出 PAI-Judge 裁判员大模型,为用户构建符合应用场景的多维度、细粒度的评测体系,支持单模型评测和双模型竞技两种模式,允许用户自定义参数,实现准确、灵活、高效的模型自动化评测,为模型迭代优化提供数据支撑。 相比通用大模型尤其在回答确定性/数学类问题、角色扮演、创意文体写作、翻译等场景下,PAI-Judge 系列模型表现优异,可以直接用于大模型的评估与质检。
|
机器学习/深度学习 人工智能 自然语言处理
云上一键部署 DeepSeek-V3 模型,阿里云 PAI-Model Gallery 最佳实践
本文介绍了如何在阿里云 PAI 平台上一键部署 DeepSeek-V3 模型,通过这一过程,用户能够轻松地利用 DeepSeek-V3 模型进行实时交互和 API 推理,从而加速 AI 应用的开发和部署。
|
机器学习/深度学习 人工智能 开发者
DeepSeek服务器繁忙?拒绝稍后再试!基于阿里云PAI实现0代码一键部署DeepSeek-V3和DeepSeek-R1大模型
阿里云PAI平台支持零代码一键部署DeepSeek-V3和DeepSeek-R1大模型,用户可轻松实现从训练到部署再到推理的全流程。通过PAI Model Gallery,开发者只需简单几步即可完成模型部署,享受高效便捷的AI开发体验。具体步骤包括开通PAI服务、进入控制台选择模型、一键部署并获取调用信息。整个过程无需编写代码,极大简化了模型应用的门槛。
611 7

热门文章

最新文章

相关产品

  • 人工智能平台 PAI