ModelScope的Qwen1.5-14B-Chat需要多少大显存?有2块4090,48G够吗? ValueError: The model's max seq len (32768) is larger than the maximum number of tokens that can be stored in KV cache (12896). Try increasing gpu_memory_utilization
or decreasing max_model_len
when initializing the engine. 不敢调试
对于问题1,根据错误信息,ModelScope的Qwen1.5-14B-Chat模型需要的显存超过了KV缓存能够存储的最大token数(12896)。这意味着你需要增加GPU的内存利用率(gpu_memory_utilization
)或者减少初始化引擎时的max_model_len
。
对于问题2,你有两块4090显卡,每块拥有48GB的显存。这总共提供了96GB的显存。是否足够取决于模型的具体需求和你的用例。如果模型需要更多的显存来处理更长的序列或者更多的并行任务,那么可能还是不够。在这种情况下,你可能需要考虑以下几点:
gpu_memory_utilization
的值,以便更充分地使用GPU显存。但请注意,过高的内存利用率可能会导致性能下降或稳定性问题。max_model_len
),这样可以降低显存的需求。模型卡片代码,约57G,int8 18G ;你的显存也可以的, 你试试使用swift提供的vllm部署, 我帮你调试
https://github.com/modelscope/swift/blob/main/docs/source/LLM/VLLM%E6%8E%A8%E7%90%86%E5%8A%A0%E9%80%9F%E4%B8%8E%E9%83%A8%E7%BD%B2.md 这个vllm 也是 对应的11.8 此回答整理自钉群“魔搭ModelScope开发者联盟群 ①”
ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352