备案控制台

开发者社区 > ModelScope模型即服务 > 正文

ModelScope部署的Qwen1.5-110B-Chat-GPTQ-Int4，为啥推理异常慢？

ModelScope部署的Qwen1.5-110B-Chat-GPTQ-Int4，为啥推理异常慢？

展开

收起

小小爱吃香菜 2024-05-21 21:46:16 173 0

1 条回答

写回答

取消提交回答

为了利利

Int4模型不能vllm加速，前面也有开发者遇到过量化模型推理比较慢的情况。此回答整理自钉钉群“魔搭ModelScope开发者联盟群 ①”

2024-05-22 09:54:52

赞同展开评论打赏

相关问答

ModelScope登录异常

52

0

0

docker部署modelscope-funasr如何识别不同人说话？

126

0

0

modelscope-funasr能在doker服务里部署docker 服务吗？

54

1

0

在modelscope-funasr使用cosyvoice的时候碰到这个异常，怎么处理？

66

0

0

modelscope-funasr的paraformer-zh模型现在推理输出，是带时间戳的吗？

108

1

0

在modelscope-funasr中docker部署包4.5时间戳和热词可以同时实现吗？

66

1

0

请问ModelScope的swift部署本地模型有文章推荐吗？

37

0

0

ModelScope中，llama3 推理的时候 ModelType 是什么值？

36

1

0

ModelScope推理时，--max_new_tokens和--max_length有什么区别？

190

1

0

modelscope-funasr使用gpu转写服务部署指南，asr模型还是会需要导出为onnx吗？

51

0

0

ModelScope模型即服务

ModelScope旨在打造下一代开源的模型即服务共享平台，为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品，让模型应用更简单！欢迎加入技术交流群：微信公众号：魔搭ModelScope社区，钉钉群号：44837352

我要提问

热门讨论

热门文章

ModelScope qwen7b、14b、72b lora微调分别需要的显存和cpu内存是多少？

com/action/joingroup?code=v1是什么意思

ModelScope中，模型下载默认路径在哪个路径？

ModelScope有部署qwen2-72b的么，正常推理需要多大的显存？

modelscope上跑报错，提示要pip install ttsfrd，搞不定

modelscope-funasr的FunClip怎么安装的？

钉钉宜搭内如何将任务的流程表单发到工作群内，群内任意成员可以查看此任务，并选择是否接受任务？

我希望通过damo-YOLO训练1500*1500的图片

服务器上onnxruntime-gpu 调用结束，如何释放显存

ModelScope有没有人知道windows安装ttsfrd的方法或者ttsfrd源码？

展开全部

阿里云通义千问向全社会开放！

智胜未来：国内大模型+Agent应用案例精选，以及主流Agent框架开源项目推荐

Large Motion Model：多模态运动生成模型，能够同时处理文本、音乐、视频等多种模态生成相应的运动动作

CosyVoice 2.0：阿里开源升级版语音生成大模型，支持多语言和跨语言语音合成，提升发音和音色等的准确性

multi-agent：多角色Agent协同合作，高效完成复杂任务

实战阿里qwen2.5-coder 32B，如何配置Cline的Ollama API接口。

MiniCPM-o 2.6：流式全模态，端到端，多模态端侧大模型来了！

WeaveFox：蚂蚁集团推出 AI 前端智能研发平台，能够根据设计图直接生成源代码，支持多种客户端和技术栈

千问团队开源会思考的QwQ模型，这模型成精了！

通义千问Qwen征文活动获奖公布

展开全部

相关课程

更多

个性化语音合成模型微调

261

1

去学习

ModelScope社区Library技术架构介绍

229

1

去学习

相关电子书

更多

视觉AI能力的开放现状及ModelScope实战 立即下载

ModelScope助力语音AI模型创新与应用 立即下载

低代码开发师（初级）实战教程 立即下载