除夕夜,国产顶流压轴上线,QWEN3.5多模态开源!

简介: 加我进AI讨论学习群,公众号右下角“联系方式”文末有老金的 **开源知识库地址·全免费**---![Image](https://ucc.alicdn.com/pic/developer-ecology/p3shvhj26rigq_682da514f2d84d68857b797ebe2fbced.jpg)除夕夜,老金我刚咬了一口韭菜鸡蛋饺子。手机"叮"的一声,弹出个通知。老金我瞄

加我进AI讨论学习群,公众号右下角“联系方式”
文末有老金的 开源知识库地址·全免费


image.png

除夕夜,老金我刚咬了一口韭菜鸡蛋饺子。
手机"叮"的一声,弹出个通知。
老金我瞄了一眼——Qwen3.5,上线了。饺子差点没喷出来。

赶紧打开 chat.qwen.ai,两个模型直接挂在上面,可以用了。
阿里这帮人,大年三十放大招,连个发布会都没开,就这么安安静静地把东西甩出来了。

老金我放下筷子,扒了一晚上代码和文档,确认了一件事:
这不是小版本迭代,这是架构级别的重构。

image.png


先说结论:Qwen3.5到底升级了什么

根据老金我除夕夜扒的HuggingFace代码库、阿里云官网和chat.qwen.ai的实际体验,帮你梳理了3个核心变化。

第一个:原生多模态。
注意,是"原生",不是"拼接"。
Qwen3之前的多模态方案是语言模型+视觉模块的两段式架构。
Qwen3.5直接把视觉感知和语言推理塞进了同一个训练框架。

阿里云官网对Qwen3.5-Plus的描述是:"原生多模态合一训练,混合架构双创新突破。"
简单说,以前是两个人配合干活,现在是一个人同时搞定。

第二个:Gated Delta Networks——线性注意力机制。
官方确认,Qwen3.5采用了一种叫 Gated Delta Networks 的线性注意力,跟传统的Gated Attention做了混合架构。
传统Transformer的注意力计算量跟序列长度的平方成正比,Gated Delta Networks把这个关系拉成线性。

翻译成人话:处理长文本的速度快了,显存占用也降了。
而且不是快了一点半点——官方实测数据:

  • 在32k上下文长度下,Qwen3.5-397B-A17B的解码吞吐量是Qwen3-Max的 8.6倍
  • 在256k上下文长度下,这个数字是 19.0倍
  • 跟Qwen3-235B-A22B比,分别是3.5倍和7.2倍

老金我看到这个数据的时候饺子真喷出来了。

第三个:更大的模型家族。
目前在chat.qwen.ai上已经可以直接使用的有两个版本:

  • Qwen3.5-Plus(闭源API模型,通过阿里云百炼提供服务,支持 1M token上下文窗口)
  • Qwen3.5-397B-A17B(开源旗舰模型,3970亿参数只激活170亿)

跟之前HuggingFace代码里泄露的9B和35B-A3B相比,正式发布的模型规模大得多。
3970亿总参数,比Qwen3的旗舰235B-A22B直接翻了快一倍。

总参数量达3970亿,每次前向传播仅激活170亿参数,在保持能力的同时优化速度与成本。

语言与方言支持从119种扩展至201种,词表从15万扩大到25万,在多数语言上带来约10-60%的编码/解码效率提升。
简单说,同样的一段话,Qwen3.5能用更少的token表示,推理更快,API费用也更省。

image.png


线性注意力到底意味着什么

这块稍微展开说一下,因为这可能是Qwen3.5最关键的技术突破。
不懂技术的朋友别跳过,老金我用人话给你翻译。

传统Transformer用的是标准自注意力机制。
简单理解:AI在读一篇文章的时候,每读到一个字,都要回头看一遍前面所有的字。

如果文章有1万个字,每个字要跟其他9999个字各看一次。
字数越多,AI就越吃力——计算量是"字数的平方"级别的。

Qwen3.5用的Gated Delta Networks,核心思路是:用一个巧妙的数学方法,让AI不用每次都回头看所有内容。
结果就是:计算量从"字数的平方"降到"字数的倍数"。

听起来差别不大?我给你举个具体例子:

处理一个10分钟的视频:

  • 传统方式:可能需要64G显存的显卡才能跑
  • Gated Delta Networks:16G显存就够了

这不是快了几个百分点的问题,是能不能跑起来的问题。
很多任务以前根本跑不动,现在可以了。

Qwen3.5更聪明的地方在于:它把Gated Delta Networks(线性注意力)和Gated Attention(标准注意力)做成了 混合架构。
简单任务用线性注意力省资源,复杂任务自动切换到标准注意力保精度。
不是非此即彼,而是动态选择——什么场景用什么方案。

这也是为什么官方说的"Qwen3-Next架构"——更高稀疏度的MoE + 混合注意力 + 多token预测。

多token预测是什么意思?
传统模型一次只能"想"出一个字,Qwen3.5一次能预测多个字,生成速度又快了一截。

image.png

原生多模态为什么重要

之前的多模态模型大多是"拼接式"的。
打个比方:就像找了一个英语翻译和一个法语翻译,中间再安排一个协调员把两人的翻译对接起来。

先训一个语言模型(处理文字),再训一个视觉编码器(处理图片),最后用对齐层把两者连起来。
这种方式有个天然缺陷:视觉和语言的理解是割裂的。

Qwen3.5走的是另一条路——从预训练阶段就把文本、图像、视频放在一起训。
模型从一开始就"看"和"读"同时进行。
就像培养一个从小就双语环境长大的孩子,不需要翻译,直接理解。

阿里官方说法是"统一架构整合语言推理与视觉感知"。

这对普通用户来说意味着什么?
1、你发一张图给AI,它能真正"看懂"图里的内容,不容易出现"看到了但理解错了"的情况
2、一次对话就能同时处理图片+文字,不用分两步操作
3、成本更低——一个模型干两个模型的活,API费用直接砍半

阿里官网已经写了"效果、成本与多模态理解深度上同时超越Qwen3-Max与Qwen3-VL"。
如果这个说法成立,那Qwen3.5-Plus可能是目前性价比最高的多模态模型之一。

比如这样提问,它都能准确且快速的回答:

跑分亮了:Qwen3.5到底有多强

说技术架构大家可能没直觉,直接看跑分数据。
官方放了一大堆benchmark对比,老金我帮你提炼最关键的几个:

自然语言能力(对比GPT5.2、Claude 4.5 Opus、Gemini-3 Pro):

image.png

几个重点:

1、指令遵循(IFBench 76.5)和多语言挑战(MultiChallenge 67.6)两项全场第一。
这意味着你给它的指令它听得更准,不容易跑偏。

2、搜索Agent能力(BrowseComp 78.6)也是第一。
联网搜索信息的能力很强。

3、多语言能力(NOVA-63 59.1)第一。
201种语言不是白支持的。

4、编程和数学还是GPT5.2和Claude强一些,但差距不大。

视觉语言能力(这才是Qwen3.5的杀手锏):

image.png

乖乖,视觉能力这块Qwen3.5真的杀疯了:

  • MathVision 88.6——看图做数学题,全场最高
  • OCRBench 93.1——文字识别能力,直接碾压,比GPT5.2高出12个点
  • OmniDocBench 90.8——文档理解能力第一,对搞办公的朋友来说太实用了
  • HallusionBench 71.4——幻觉最少,看到什么说什么,不瞎编
  • AndroidWorld 66.8——能操作安卓手机,这个后面单独说

注意,这是一个3970亿参数只激活170亿的模型跑出来的成绩。
跟GPT5.2这种完整版闭源大模型对打还能在多个维度赢,开源模型能做到这个水平,老金我服了。

image.png


Visual Agent:AI能操作你的手机和电脑了

这是老金我觉得最炸裂的功能,但很多报道都没重点说。
Qwen3.5可以作为 视觉智能体,自主操作手机和电脑完成日常任务。

什么意思?你告诉它"帮我把这个Excel表格的缺失行补全",它真的能:
1、打开Excel文件
2、识别出哪些行和列需要补全
3、自动填写数据
4、保存文件

image.png

全程不需要你动手,AI自己操作界面完成。
官方展示了好几个演示:

  • 手机端:适配主流App,你说"帮我发条朋友圈",它能自己操作完成
  • 电脑端:处理跨应用的数据整理、多步骤流程自动化

AndroidWorld跑分66.8,目前公开数据里最高的。
这不是ChatGPT那种"帮你写个脚本自己跑"。
Qwen3.5是真的在操作GUI界面,像人一样点击、输入、滑动。

对于不会编程的普通用户来说,这个能力可能比会写代码更有用。

空间智能和视觉编程

除了操作手机电脑,Qwen3.5在"看"这件事上还有两个特别的能力。

空间智能:
借助对图像像素级位置信息的建模,Qwen3.5能做到:

  • 物体计数——图里有几个苹果,它能数准
  • 相对位置判断——电话亭在黄色货车的左边还是右边
  • 驾驶场景理解——看行车记录仪画面,分析为什么没在路口停车

官方展示了一个驾驶场景的例子:给它一段行车记录仪视频截帧,它能分析出"信号灯在我接近停车线时变黄,此时距离太近无法安全停车,所以选择通过路口"。
这个能力在自动驾驶和机器人导航场景里非常关键。

视觉编程:
更酷的是,Qwen3.5能把看到的东西变成代码:

  • 手绘界面草图 → 结构清晰的前端代码
  • 游戏视频 → 逻辑还原代码
  • 长视频 → 自动提炼为结构化网页

你甚至可以让他看视频手搓游戏。

image.png

如果对你有帮助,记得关注一波~


春节档:AI圈的神仙打架

Qwen3.5选在除夕夜发布,这个时间点太狠了。
这个春节档,至少还有3个重磅选手要登场。

1、DeepSeek V4——最受期待的选手,V3已经证明了DeepSeek的实力
2、GLM-5——智谱的新旗舰,之前Pony Alpha的表现已经让人刮目相看
3、MiniMax 2.2——M2.5编程能力追平Claude,2.2值得关注

老金我觉得今年春节档的竞争格局跟去年完全不同。
去年是DeepSeek V3一家独大。
今年是四五个玩家同时出牌。

对普通用户来说,这其实是好事。
竞争越激烈,开源模型的能力提升越快,API价格越便宜。

MoE架构:小身材大能量

Qwen3.5-397B-A17B这个版本号值得单独说一下。
397B是总参数量,A17B是激活参数量——3970亿参数里每次只用170亿。

什么意思?打个比方:
这就像一个公司有3970个员工,但每次处理一个任务只需要170个人同时干活。
其他人"待命",等需要的时候再上。

这就是MoE(Mixture of Experts,混合专家)架构的核心思路。
模型里有很多"专家"模块,每个token只激活其中几个。
好处是:模型容量大(知识多),但推理成本低(算得快)。

回顾一下Qwen3的数据:

Qwen3-235B-A22B(2350亿参数,激活220亿)在编程、数学、推理上已经能跟DeepSeek-R1、GPT-5正面对决。
Qwen3-30B-A3B在SWE-Bench上拿到69.6分,价格性能比吊打一众付费模型。

Qwen3.5-397B-A17B直接把总参数量拉到3970亿,是Qwen3旗舰的1.7倍。
但激活参数只有170亿,比Qwen3旗舰的220亿还少。

翻译成人话:知识储备更多了,但跑起来反而更省资源。
再加上原生多模态和线性注意力的加持,老金我认为这是2026年上半年最值得关注的开源模型之一。

image.png

现在就能用:3步上手Qwen3.5

说了这么多技术细节,老金我讲讲实际怎么用。
好消息是:你现在就可以直接体验Qwen3.5,不用等。

第1步:打开 chat.qwen.ai
浏览器直接输入 chat.qwen.ai,这是阿里官方的对话平台。
注册一个账号就能用,支持手机号和邮箱注册。
不需要科学上网,国内直接访问。

第2步:选模型和模式
页面顶部有个模型选择器,点开会看到两个选项:

  • Qwen3.5-Plus:推荐日常使用,速度快,响应快
  • Qwen3.5-397B-A17B:旗舰模型,适合复杂任务(推理、写代码、分析长文档)

不知道选哪个?选Qwen3.5-Plus就行,够用了。
需要更强的推理能力再切397B。

选好模型后,还能选三种思考模式:

  • 自动(auto):自适应思考,该深入就深入,该快就快,推荐大多数场景使用
  • 思考(thinking):遇到难题用这个,模型会进行深度推理,一步步想清楚再回答
  • 快速(fast):简单问题用这个,不消耗思考token,回答又快又省

第3步:直接对话
跟ChatGPT的用法一模一样——输入框打字,回车发送。
支持的功能包括:

  • 纯文字对话(问答、写作、翻译、编程)
  • 上传图片让它分析(产品截图、文档照片、手写笔记)
  • 上传文件让它总结(PDF、Word、代码文件)
  • 联网搜索(点击搜索按钮,它会帮你查最新信息)

完全免费,目前没有次数限制。

对,你没看错,免费的。
这也是阿里开源生态的一贯打法。

开发者进阶用法

如果你是开发者,除了网页版还有更多玩法。

场景1:API调用(1M上下文窗口)
阿里云百炼已经上线Qwen3.5-Plus的API,支持100万token的上下文窗口。
100万token是什么概念?大概相当于一次性读完一本750页的英文小说还绰绰有余。

而且API完全兼容OpenAI格式,切换成本几乎为零:

from openai import OpenAI

client = OpenAI(
    api_key="your-api-key",
    base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
)

completion = client.chat.completions.create(
    model="qwen3.5-plus",
    messages=[{"role": "user", "content": "介绍一下Qwen3.5"}],
    extra_body={
        "enable_thinking": True,
        "enable_search": False
    },
    stream=True
)

两个关键参数:

  • enable_thinking:开启推理模式,让模型先想再答,适合复杂问题
  • enable_search:开启联网搜索和Code Interpreter

场景2:Vibe Coding(跟编程工具集成)
官方明确说了,百炼API可以跟这些编程工具无缝集成:

  • Qwen Code——阿里自己的编程助手
  • Claude Code——Anthropic的CLI工具
  • Cline——VS Code插件
  • OpenClaw——开源Agent框架
  • OpenCode——开源编程工具

也就是说,你在Claude Code里把模型切成Qwen3.5-Plus,一样能用。
价格比GPT-5便宜10倍以上,对于日常编程来说性价比拉满。

场景3:多模态应用
原生多模态意味着你可以用一个模型搞定:

  • 图片内容识别+文案生成
  • 视频内容理解+摘要提取
  • 图文混排文档的解析和问答
  • GUI自动化——让AI帮你操作软件界面

以前这些任务要调3-4个不同的API,现在一个就够了。

场景4:本地部署
Qwen3.5-397B-A17B虽然总参数3970亿,但激活参数只有170亿。
等开源权重发布后,用Ollama或vLLM部署,消费级显卡也有可能跑起来。
后续如果有更小的版本(比如9B),16G显存的显卡就能流畅运行。

老金的判断

Qwen3.5除夕夜在chat.qwen.ai正式上线了。
老金我说说自己的看法。

看好的点:

  • 原生多模态是正确的方向,拼接式迟早要被淘汰
  • Gated Delta Networks解决了长序列的核心瓶颈,8.6倍/19倍的吞吐量提升不是闹着玩的
  • MoE架构在成本和性能之间找到了平衡点——3970亿参数只激活170亿,这个比例很激进
  • 视觉能力真的强——OCR、文档理解、数学视觉多项第一
  • Visual Agent能操作手机电脑,这是AI从"回答问题"到"替你干活"的关键一步
  • 阿里在开源这条路上一直很坚定,Qwen3的开源质量有目共睹
  • 完全免费使用,对普通用户来说门槛为零

值得关注的未来方向:
官方博客最后提了三个方向,老金我觉得每个都很重要:
1、跨会话持久记忆——现在的AI每次对话都是"失忆"状态,未来能记住你之前聊过什么
2、具身接口——不只是操作手机电脑屏幕,未来可能控制机器人在真实世界干活
3、自我改进机制——AI能自己变得更好,不需要人类手动更新

阿里原话是:"将当前以任务为边界的助手升级为可持续、可信任的伙伴。"

老金我的态度是谨慎乐观。
架构升级的方向是对的,除夕夜放这个大招,阿里是真的有底气。

跑分数据已经出来了,视觉能力多项碾压GPT5.2和Claude 4.5 Opus,你现在就可以去chat.qwen.ai亲自试试。

有一点可以确定:2026年的开源大模型,竞争只会越来越激烈。
对于开发者和普通用户来说,这是最好的时代。


往期推荐:

AI编程教程列表
提示词工工程(Prompt Engineering)
LLMOPS(大语言模运维平台)
AI绘画教程列表
WX机器人教程列表


每次我都想提醒一下,这不是凡尔赛,是希望有想法的人勇敢冲。
我不会代码,我英语也不好,但是我做出来了很多东西,在文末的开源知识库可见。
我真心希望能影响更多的人来尝试新的技巧,迎接新的时代。

谢谢你读我的文章。
如果觉得不错,随手点个赞、在看、转发三连吧🙂
如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章。

扫码添加下方微信(备注AI),拉你加入AI学习交流群

开源知识库地址:
https://tffyvtlai4.feishu.cn/wiki/OhQ8wqntFihcI1kWVDlcNdpznFf

图片

相关文章
|
20天前
|
人工智能 自然语言处理 Shell
🦞 如何在 OpenClaw (Clawdbot/Moltbot) 配置阿里云百炼 API
本教程指导用户在开源AI助手Clawdbot中集成阿里云百炼API,涵盖安装Clawdbot、获取百炼API Key、配置环境变量与模型参数、验证调用等完整流程,支持Qwen3-max thinking (Qwen3-Max-2026-01-23)/Qwen - Plus等主流模型,助力本地化智能自动化。
32412 120
🦞 如何在 OpenClaw (Clawdbot/Moltbot) 配置阿里云百炼 API
|
16天前
|
人工智能 安全 机器人
OpenClaw(原 Clawdbot)钉钉对接保姆级教程 手把手教你打造自己的 AI 助手
OpenClaw(原Clawdbot)是一款开源本地AI助手,支持钉钉、飞书等多平台接入。本教程手把手指导Linux下部署与钉钉机器人对接,涵盖环境配置、模型选择(如Qwen)、权限设置及调试,助你快速打造私有、安全、高权限的专属AI助理。(239字)
6882 20
OpenClaw(原 Clawdbot)钉钉对接保姆级教程 手把手教你打造自己的 AI 助手
|
14天前
|
人工智能 机器人 Linux
OpenClaw(Clawdbot、Moltbot)汉化版部署教程指南(零门槛)
OpenClaw作为2026年GitHub上增长最快的开源项目之一,一周内Stars从7800飙升至12万+,其核心优势在于打破传统聊天机器人的局限,能真正执行读写文件、运行脚本、浏览器自动化等实操任务。但原版全英文界面对中文用户存在上手门槛,汉化版通过覆盖命令行(CLI)与网页控制台(Dashboard)核心模块,解决了语言障碍,同时保持与官方版本的实时同步,确保新功能最快1小时内可用。本文将详细拆解汉化版OpenClaw的搭建流程,涵盖本地安装、Docker部署、服务器远程访问等场景,同时提供环境适配、问题排查与国内应用集成方案,助力中文用户高效搭建专属AI助手。
4854 12
|
17天前
|
人工智能 机器人 Linux
保姆级 OpenClaw (原 Clawdbot)飞书对接教程 手把手教你搭建 AI 助手
OpenClaw(原Clawdbot)是一款开源本地AI智能体,支持飞书等多平台对接。本教程手把手教你Linux下部署,实现数据私有、系统控制、网页浏览与代码编写,全程保姆级操作,240字内搞定专属AI助手搭建!
5708 21
保姆级 OpenClaw (原 Clawdbot)飞书对接教程 手把手教你搭建 AI 助手
|
16天前
|
存储 人工智能 机器人
OpenClaw是什么?阿里云OpenClaw(原Clawdbot/Moltbot)一键部署官方教程参考
OpenClaw是什么?OpenClaw(原Clawdbot/Moltbot)是一款实用的个人AI助理,能够24小时响应指令并执行任务,如处理文件、查询信息、自动化协同等。阿里云推出的OpenClaw一键部署方案,简化了复杂配置流程,用户无需专业技术储备,即可快速在轻量应用服务器上启用该服务,打造专属AI助理。本文将详细拆解部署全流程、进阶功能配置及常见问题解决方案,确保不改变原意且无营销表述。
6299 6
|
19天前
|
人工智能 JavaScript 应用服务中间件
零门槛部署本地AI助手:Windows系统Moltbot(Clawdbot)保姆级教程
Moltbot(原Clawdbot)是一款功能全面的智能体AI助手,不仅能通过聊天互动响应需求,还具备“动手”和“跑腿”能力——“手”可读写本地文件、执行代码、操控命令行,“脚”能联网搜索、访问网页并分析内容,“大脑”则可接入Qwen、OpenAI等云端API,或利用本地GPU运行模型。本教程专为Windows系统用户打造,从环境搭建到问题排查,详细拆解全流程,即使无技术基础也能顺利部署本地AI助理。
7779 17

热门文章

最新文章