智谱 GLM-4.6V开源!能看、能想还能执行「百变」任务

简介: 智谱发布GLM-4.6V系列多模态大模型,含106B基础版与9B轻量版,支持128k长上下文,视觉理解达同规模SOTA。原生融合工具调用能力,打通“视觉感知-行动执行”闭环,降价50%,API低至1元/百万tokens,助力图文创作、识图购物、前端复刻等复杂场景。

今日,智谱新模型开源发布—— GLM-4.6V 系列多模态大模型,共包含两款模型:

  • GLM-4.6V(106B-A12B):面向云端与高性能集群场景的基础版
  • GLM-4.6V-Flash(9B):面向本地部署与低延迟应用的轻量版。

模型合集:

https://www.modelscope.cn/collections/GLM-46V-37fabc27818446

作为 GLM 系列在多模态方向上的一次重要迭代,GLM-4.6V 将训练时上下文窗口提升到 128k tokens,在视觉理解精度上达到同参数规模 SOTA,并首次在模型架构中将 Function Call(工具调用)能力原生融入视觉模型,打通从「视觉感知」到「可执行行动(Action)」的链路,为真实业务场景中的多模态 Agent 提供统一的技术底座。

📎Case-总-1208-2.m4v

在性能优化之外,GLM-4.6V 系列相较于 GLM-4.5V 降价 50%,API 调用价格低至输入 1 元/百万 tokens输出 3 元/百万 tokens

原生多模态工具调用

传统工具调用大多基于纯文本,在面对图像、视频、复杂文档等多模态内容时,需要多次中间转换,带来信息损失和工程复杂度。


GLM-4.6V 从设计之初就围绕 「图像即参数,结果即上下文」 ,构建了原生多模态工具调用能力:

  • 输入多模态:图像、截图、文档页面等可以直接作为工具参数,无需先转为文字描述再解析,减少链路损耗。
  • 输出多模态:对于工具返回的统计图表、渲染后网页截图、检索到的商品图片等结果,模型能够再次进行视觉理解,将其纳入后续推理链路。


模型原生支持基于视觉输入的工具调用,完整打通从感知到理解到执行的闭环。这使得 GLM-4.6V 能够应对图文混排输出、商品识别与好价推荐、以及辅助型 Agent 场景等更复杂的视觉任务。


典型场景

场景1:智能图文混排与内容创作

在内容创作与知识分发场景中,GLM-4.6V 可以从多模态输入中,自动构建高质量图文输出:无论是直接输入图文混杂的论文、研报、PPT,还是只给出一个主题,模型都能生成结构清晰、图文并茂的社交媒体内容。

  • 复杂图文理解:接收包含文本、图表、公式的文档,准确抽取结构化关键信息。
  • 多模态工具调用:在生成内容过程中,自动调用检索/搜索类工具,为每一段落寻找候选图片,或从原文中截取关键配图。
  • 图文混排输出与质量控制:对候选图片进行「视觉审核」,评估其与文字内容的相关性与质量,自动过滤无关或低质图片,输出可直接用于公众号、社交媒体或知识库的结构化图文结果。


这一流程中,多模态理解、工具调用与质量控制均由 GLM-4.6V 模型独立在同一推理链路内完成。

📎Case-推文-1208.m4v

⬆️案例1:仅输入主题,生成图文资讯

📎Case-图文-1208.m4v

⬆️案例2:输入论文,生成图文并茂的科普文章

场景2:视觉驱动的识图购物与导购 Agent

在电商购物场景中,GLM-4.6V 模型可以独立完成从「看图」、「比价」、「生成导购清单」的完整链路。

  • 意图识别与任务规划:用户上传一张街拍图并发出「搜同款」等指令时,模型识别出购物意图,并自主规划调用 image_search 等相关工具。
  • 异构数据清洗与对齐:在京东、唯品会、拼多多等平台返回的多模态、非结构化结果基础上,模型自动完成信息清洗、字段归一化与结果对齐,过滤噪声和重复项。
  • 多模态导购结果生成:最终生成一张标准化 Markdown 导购表格,包含平台与店铺来源、价格、商品缩略图、匹配度与差异说明,以及可直接跳转的购买链接。

📎Case-买同款-1208.m4v

场景3:前端复刻与多轮视觉交互开发

研究团队重点优化了 GLM-4.6V 在前端复刻与多轮视觉交互修改方面的能力,帮助开发者缩短「设计稿到可运行页面」的链路:

  • 像素级前端复刻:上传网页截图或设计稿后,模型可精准识别布局、组件与配色,生成高质量 HTML / CSS / JS 代码,实现接近像素级的页面还原。
  • 视觉交互调试:支持基于截图的多轮视觉交互。用户可以在生成的网页截图上圈选区域并发出自然语言指令(如「把这个按钮向左移一点,颜色改成深蓝」),模型自动定位并修正对应代码片段。

通过 GLM Coding Plan 的视觉 MCP 协议,这一能力可以集成进现有 IDE、设计工具或内部工程平台,大幅提升前端迭代效率。

📎Case-小红书-1208.m4v


场景4:长上下文的文档与视频理解

GLM-4.6V 将视觉编码器与语言模型的上下文对齐能力提升至128k,模型拥有了“过目不忘”的长记忆力。在实际应用中,128k上下文约等于150页的复杂文档、200页PPT或一小时视频,能够在单次推理中处理多个长文档或长视频。


在下列案例中,用户一次输入 4 家上市公司的财报,GLM-4.6V 可以跨文档统一抽取核心指标,并理解报表与图表中的隐性信号,自动汇总成一张对比分析表,在长窗口条件下依然保持关键信息不丢失。

📎Case-财报-1208.m4v

上述能力同样适用于长视频内容的理解与定位:

在长视频理解场景下,GLM-4.6V 既能对整段内容进行全局梳理,又能结合时序线索做细粒度推理,精准定位关键时间点,例如自动完成一场足球比赛的进球事件与比分时间轴总结。

📎Case-球赛-1208.m4v


同规模开源 SOTA

作为 GLM 系列在多模态方向上的一次重要迭代,GLM-4.6V 将训练时上下文窗口提升到128k tokens,在视觉理解精度上达到同参数规模 SOTA,并首次在模型架构中将 Function Call(工具调用)能力原生融入视觉模型,打通从「视觉感知」到「可执行行动(Action)」的链路,为真实业务场景中的多模态 Agent 提供统一的技术底座。


GLM-4.6V 在 MMBench、MathVista、OCRBench 等 30+ 主流多模态评测基准 上进行了验证,较上一代模型取得显著提升。在同等参数规模下,模型在多模态交互、逻辑推理和长上下文等关键能力上取得 SOTA 表现。其中 9B 版本的 GLM-4.6V-Flash 整体表现超过 Qwen3-VL-8B,106B 参数 12B 激活的 GLM-4.6V 表现比肩 2 倍参数量的 Qwen3-VL-235B。

立即体验

模型推理

使用transformers:

from modelscope import AutoProcessor, Glm4vMoeForConditionalGeneration
import torch
MODEL_PATH = "ZhipuAI/GLM-4.6V"
messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "image",
                "url": "https://upload.wikimedia.org/wikipedia/commons/f/fa/Grayscale_8bits_palette_sample_image.png"
            },
            {
                "type": "text",
                "text": "describe this image"
            }
        ],
    }
]
processor = AutoProcessor.from_pretrained(MODEL_PATH)
model = Glm4vMoeForConditionalGeneration.from_pretrained(
    pretrained_model_name_or_path=MODEL_PATH,
    torch_dtype="auto",
    device_map="auto",
)
inputs = processor.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_dict=True,
    return_tensors="pt"
).to(model.device)
inputs.pop("token_type_ids", None)
generated_ids = model.generate(**inputs, max_new_tokens=8192)
output_text = processor.decode(generated_ids[0][inputs["input_ids"].shape[1]:], skip_special_tokens=False)
print(output_text)


魔搭API-Inference

魔搭社区第一时间上线适配了GLM-4.6V 模型的API,开发者可以通过魔搭的免费API-Inference来直观体验模型的效果,调用示例代码在模型页面右侧可见:

目录
相关文章
|
10天前
|
人工智能 前端开发 测试技术
告别 GUI Agent 工程基建噩梦!阶跃星辰开源 4B 模型,本地轻松部署,玩转安卓应用
阶跃星辰开源GELab-Zero,首发4B GUI Agent模型及完整基建,支持一键部署,在多端性能达SOTA。同步推出真实场景评测基准AndroidDaily,推动GUI智能体规模化落地。
212 10
告别 GUI Agent 工程基建噩梦!阶跃星辰开源 4B 模型,本地轻松部署,玩转安卓应用
|
4天前
|
人工智能 缓存 算法
为什么你学了那么多算法,代码性能还是“一塌糊涂”?
本文针对开发者普遍存在的“学了算法却写不出高性能代码”的痛点,提供了一套系统化的“算法优化AI指令”。该指令旨在引导开发者建立“分析-设计-验证”的工程化思维,通过结构化的提问框架,让AI成为辅助性能优化的“私人教练”,从而将零散的算法知识转化为体系化的实战能力。
110 7
|
8天前
|
人工智能 前端开发 JavaScript
告别"玄学调试":用这份指令让AI成为你的"赛博华佗"
调试占用了开发者50%的时间?本文提供一套专业的AI调试指令,将大模型转化为"拥有10年经验的代码医生"。通过结构化的诊断-修复-预防流程,告别低效的"玄学调试",实现从"修好Bug"到"根治隐患"的质变。
187 6
|
5天前
|
数据采集 存储 编解码
智源RoboCOIN重磅开源!全球本体数最多、标注最精细、使用最便捷的高质量双臂机器人真机数据集来了
北京智源研究院联合多家机构发布全球首个“本体数最多、标注最精细、使用最便捷”的双臂机器人真机数据集RoboCOIN,覆盖15类机器人、18万条轨迹、421项任务,首创“层级能力金字塔”标注体系,推动具身智能迈向真实场景应用。
120 11
 智源RoboCOIN重磅开源!全球本体数最多、标注最精细、使用最便捷的高质量双臂机器人真机数据集来了
|
2月前
|
传感器 人工智能 API
仅100多元,他给视障人群装上AI“眼睛”
上海两名开发者为验证AI助盲实效,亲手打造百元AI眼镜,蒙眼实测过马路、识盲道,并开源项目鼓励更多人参与。技术导航,人心照亮。
800 6
仅100多元,他给视障人群装上AI“眼睛”
|
10天前
|
传感器 数据采集 算法
LET数据集来魔搭了!开源首批超60,000分钟全尺寸人形机器人真机数据
国内最大全尺寸人形机器人真机数据集“LET数据集”正式发布,首批开源超6万分钟高质量数据,覆盖6大真实场景,支持多模态融合与标准化应用,助力具身智能研发,已在魔搭社区开放共享。
113 1
LET数据集来魔搭了!开源首批超60,000分钟全尺寸人形机器人真机数据
|
17天前
|
机器学习/深度学习 编解码 JSON
混元OCR模型宣布开源,参数仅1B,多项核心能力SOTA
腾讯混元推出全新开源OCR模型HunyuanOCR,仅1B参数,基于原生多模态架构,实现端到端高效推理。在复杂文档解析、文字检测识别等多场景表现卓越,支持14种小语种翻译,广泛适用于票据抽取、视频字幕识别等应用,多项指标达业界SOTA水平。
296 8
|
24天前
|
人工智能 文字识别 物联网
ModelScope魔搭社区发布月报 -- 25年11月
魔搭ModelScope三周年庆!见证开源大模型从追赶到领跑,11月硬核更新不断:Qwen3-VL、MiniMax-M2等新模态齐发,AIGC生态爆发,OCR、语音、Agent全面进化。11月22日杭州AI开源生态大会,不见不散!
339 4

热门文章

最新文章