MindIE PD分离部署Q&A

简介: 使用mindie进行PD分离部署

PD分离是一种近年来兴起的推理加速部署方案,kimi、deepseek都进行了工程落地。昇腾MindIE组件也支持了PD分离部署能力,参考链接为 https://www.hiascend.com/document/detail/zh/mindie/20RC1/mindieservice/servicedev/mindie_service0140.html 。部署过程中会出现一些问题,在这里记录分享一下。

单机部署

Q:运行deploy.sh 报错 core dump

A:大概率是选择了错误了 镜像,例如A2的机器使用了A3的镜像。

Q:运行deploy.sh 后,pods的状态为UnexpectedAdmissionError

A:mindie_service_single_container.yaml配置文件中,resources/requests/huawei.com/Ascend910的值目前只能为8,小于8会触发报错。

多机部署

Q:运行deploy.sh 后,coordinator一直显示not ready

A:可能是没有配置正确的rank_table_file,导致P、D节点没有拿到device信息,不能载入模型,解决方案参考 https://zhuanlan.zhihu.com/p/1900192566378497634

Q:拉起k8s失败,输出 kubectl get configmap rings-config-mindie-server-p0...

A:可能是之前的进程没有删除干净;deployment目录下面的yaml文件的配置可能需要修改,如果是单机16卡,则npu的卡数需要改成16;可以查看 /var/log/mindx-dl/ascend-operator的日志,检查是否有json文件的格式错误。

参数配置建议

使用benchmark工具发送请求。

llama3-8B

卡数 输入输出 concurrency 发送频率 prefill_bs decode_bs
PD混部 1 257-60 7 10 100
PD分离 2+3 257-60 1000 93 2 18
目录
相关文章
|
7月前
|
Kubernetes 调度 开发者
qwen模型 MindIE PD分离部署问题定位
使用MindIE提供的PD分离特性部署qwen2-7B模型,使用k8s拉起容器,参考这个文档进行部署:https://www.hiascend.com/document/detail/zh/mindie/100/mindieservice/servicedev/mindie_service0060.html,1个Prefill,1个Decode。 最后一步测试推理请求的时候,出现报错:model instance has been finalized or not initialized。
500 1
|
9月前
|
算法 PyTorch 算法框架/工具
昇腾 msmodelslim w8a8量化代码解析
msmodelslim w8a8量化算法原理和代码解析
695 5
|
7月前
|
存储 缓存 开发者
Mooncake 最新进展:SGLang 和 LMCache 基于 Mooncake 实现高效 PD 分离框架
近期,Mooncake 项目与 SGLang、vLLM 等主流大模型推理框架实现合作和适配,这些开源大模型推理框架可以通过使用 Mooncake 发布的 whl 包,支持 pip安装,docker 镜像部署等,实现了 PD 分离框架,极大提升了模型推理效率。
|
人工智能 Java Serverless
【MCP教程系列】搭建基于 Spring AI 的 SSE 模式 MCP 服务并自定义部署至阿里云百炼
本文详细介绍了如何基于Spring AI搭建支持SSE模式的MCP服务,并成功集成至阿里云百炼大模型平台。通过四个步骤实现从零到Agent的构建,包括项目创建、工具开发、服务测试与部署。文章还提供了具体代码示例和操作截图,帮助读者快速上手。最终,将自定义SSE MCP服务集成到百炼平台,完成智能体应用的创建与测试。适合希望了解SSE实时交互及大模型集成的开发者参考。
12522 60
|
6月前
|
算法 开发者 Python
MindIE DeepSeek MTP特性定位策略
最近MindIE开始支持DeepSeek MTP(multi token prediction)特性了,用于推理加速。但是有些开发者打开MTP开关后,没有发现明显的性能提升。这篇文章提供一种定位策略。
148 1
|
7月前
|
存储 缓存 人工智能
Mooncake 最新进展:SGLang 和 LMCache 基于 Mooncake 实现高效 PD 分离框架
Mooncake 的架构设计兼具高性能和灵活性,为未来的扩展性和生态建设奠定了坚实基础。
|
6月前
|
机器学习/深度学习 存储 缓存
大模型推理显存和计算量估计方法
最近做吞吐量调试涉及到输入batch_size的设置,为了把算力和显存用起来,同时不触发out of memory,需要提前估计大模型推理过程中的显存占用
974 5
|
7月前
|
存储 算法 调度
|
7月前
|
人工智能 前端开发 Java
“最近我给有代码洁癖的同事墙裂安利了通义灵码”
通义灵码2.5.0版本现已全面支持Qwen3,采用混合专家架构,参数量仅为DeepSeek-R1的1/3,是国内首个“混合推理模型”。它在性能评测中超越了DeepSeek-R1、OpenAI-o1等国际主流模型,并全面支持MCP能力,集成国内最大MCP中文社区。作为程序员体验后发现,通义灵码可通过简单指令生成完整项目代码,包括前后端、接口调用等,大幅降低开发门槛。文中通过两个Demo展示了其强大功能:一是聚合多平台热榜数据并推送微信通知;二是基于高德和12306 MCP生成旅游攻略HTML页面。整个过程无需手动编写代码,推荐开发者尝试。
344 47

热门文章

最新文章