备案控制台

开发者社区 ModelScope模型即服务正文

qwen-vl-chat模型可以传入多张图片吗？

如下图中的红框位置，本人使用的是官方的demo代码，除了单张本地图片和图片url可以传入，可以传入【多张图片】进行图像识别吗？

展开

收起

游客euzbdslcvoev4 2023-11-26 12:52:43 2033 版权

2 条回答

写回答

取消提交回答

小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。

Qwen-VL-Chat 模型目前并不支持一次处理多张图片的功能。
该模型仅支持一次处理一张图片，并且只能返回该图片的一份文本描述。如果您想同时处理多张图片，那么您需要多次调用该模型，并分别对每张图片进行处理。
当然，您也可以考虑自己编写一些自定义代码来处理这种情况。例如，您可以编写一段 Python 代码，将所有图片合并成一张大图，然后再将其传递给 Qwen-VL-Chat 模型进行处理。

2023-11-27 13:18:27

赞同展开评论
算精通

北京阿里云ACE会长

不可以。目前 qwen-vl-chat 模型不支持传入多张图片进行图像识别。根据官方文档，该模型仅支持传入单张本地图片或图片 URL。如果你需要进行多张图片的图像识别，

2023-11-26 18:15:29

赞同展开评论

相关问答

使用 dashscope-sdk-java 调用qwen3-max-preview模型回答问题，没有

130

0

0

vsCode今天更新之后,使用代码处的通义灵码一键修复,会自动变换模型

192

2

0

怎么使用vllm部署最新的qwen3的mbedding 和reranker模型呢

842

0

0

QWEN3_235B_A22B模型百炼API无法看图

287

1

0

qwen-plus模型回答问题不对，有两个数9.9和9.11谁大。a:9.9,b:9.11，直接回答

138

1

0

Qwen2.5-14B-Instruct-GPTQ-Int4量化模型是只能在GPU上运行吗？

407

0

0

qwen模型微调上传数据集时，如何书写数据集的本地路径？

192

0

0

通义灵码在VScode中不能切换模型，切换模型处是禁用状态

290

1

0

通义灵码使用deepseek模型时怎么指定不要使用深度思考

542

1

0

通义灵码使用deepseek-r1模型，思考都没完成还没正式回答，就中断了

293

2

0

ModelScope模型即服务

ModelScope旨在打造下一代开源的模型即服务共享平台，为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品，让模型应用更简单！欢迎加入技术交流群：微信公众号：魔搭ModelScope社区，钉钉群号：44837352

我要提问

相关文章

AI生成视频告别剪辑拼接！MAGI-1：开源自回归视频生成模型，支持一镜到底的长视频生成

开源8B参数全能扩散模型Flex.2-preview：把线稿变商稿，还能边画边改！

RAGEN：RL训练LLM推理新范式！开源强化学习框架让Agent学会多轮决策

大模型基本概念介绍

PPO最强，DPO一般？一文带你了解常见三种强化学习方法，文末推荐大模型微调神器！

热门讨论

热门文章

我希望通过damo-YOLO训练1500*1500的图片

ModelScope中，模型下载默认路径在哪个路径？

dataset的版本问题导致与modelscope不兼容

ModelScope下载速度慢怎么解决？

ModelScope中apikey在哪申请？

com/action/joingroup?code=v1是什么意思

modelscope上跑报错，提示要pip install ttsfrd，搞不定

关于模型的下载，huggingface下载速度太慢，如何在modelscope快速下载？

qwen3-32b和qwen-2.5-32b-Instruct有什么区别

ModelScope qwen7b、14b、72b lora微调分别需要的显存和cpu内存是多少？

展开全部

中企投资印度新能源“有戏”吗？

Z-Image：冲击体验上限的下一代图像生成模型

Qwen3-VL新成员 2B、32B来啦！更适合开发者体质

AgentScope：阿里开源多智能体低代码开发平台，支持一键导出源码、多种模型API和本地模型部署

Meta SAM3开源：让图像分割，听懂你的话

MNN-LLM App：在手机上离线运行大模型，阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用

智胜未来：国内大模型+Agent应用案例精选，以及主流Agent框架开源项目推荐

一文读懂“大语言模型”

智谱开源GLM-ASR：动动嘴，活就干了

Manga Image Translator：开源的漫画文字翻译工具，支持多语言翻译并嵌入原图，保持漫画的原始风格和布局

展开全部

还有其他疑问?