凌晨,硅谷又炸了锅。
谷歌DeepMind毫无征兆地甩出Gemma 4全家桶——四款开源模型,从2B到31B,全部基于Gemini 3同源技术打造。这不是一次常规更新,而是对开源大模型格局的彻底重写。
最让同行后背发凉的数字:31B Dense模型,Elo评分1452,开源榜单第三。排它前面的两位,参数分别是它的20倍和30倍。用三十分之一的体量,打出了同等水平的成绩——参数效率这个词,被谷歌重新定义了。
另一款26B MoE更显“流氓”:260亿参数,推理时只激活38亿,Elo却冲到1441。这意味着你在手机上跑一个小模型,得到的响应质量堪比一年前的千亿级云端模型。
数学暴涨68%,编程翻倍——前代成了“计量单位”
看成绩单,Gemma 4几乎在每个维度上都把前代踩成了地板。
数学(AIME 2026):89.2% vs 21.2%——提升68个百分点,不是68%,是68个百分点。前代的分数连零头都不够。
编程(LiveCodeBench):80% vs 29.1%——代际断层,直接翻了两倍多。
智能体(t2-bench):86.4% vs 6.6%——这个差距已经不是“碾压”了,是完全不在一个世界。
多语言推理、知识问答,全线飙升40%以上。谷歌这次没有挤牙膏,是把整管牙膏炸了。
一个31B的模型,在Codeforces上拿到Elo 2150——相当于人类编程竞赛的“紫名”选手。放在一年前,这个分数只有百亿级参数的模型才能企及。
从手机到工作站:四个尺寸,全场景通吃
Gemma 4不是只服务服务器党的炫技产品,而是真正覆盖了从口袋到数据中心的全场景。
型号
参数
定位
跑什么设备
E2B
2B
端侧极致轻量
手机、树莓派
E4B
4B有效(45B总)
端侧高性能
手机、Jetson
26B MoE
26B(激活3.8B)
速度优先
工作站、Agent
31B Dense
31B
质量优先
单卡H100
E2B和E4B与谷歌Pixel团队、高通、联发科联合优化,在手机上离线运行,延迟几乎为零。有人已经在旗舰手机上跑通了全血版Gemma 4——不是蒸馏版,不是量化阉割版,是真正的“龙虾”全血。
31B的bfloat16权重可以塞进一张80GB的H100,量化后在消费级显卡(比如24GB的4090)上也能跑。26B MoE因为只激活38亿参数,token生成速度极快,适合需要低延迟的智能体场景——比如实时语音助手、自动化操作。
三个架构“暗器”:小模型如何打出大牌?
Gemma 4没有堆砌新概念,而是把几个被验证的技术打磨到了极致。谷歌明确表示:去掉了Altup等“效果不确定”的组件,只留真正有用的。
第一招:逐层嵌入(PLE)
传统Transformer里,每个token只在输入层获得一个向量,后面所有层都共用这个初始表示。这就像出门前把一天要用的所有东西塞进一个背包——又重又低效。
PLE的做法是:每一层都给token一个定制化的“小纸条”,由token身份和上下文信息共同生成。每一层都能拿到当下最需要的工具,而不是背着全天的包袱。这个设计在小模型上效果尤其显著,是2B和4B模型能打的关键。
第二招:共享KV缓存
最后N层不再自己计算Key和Value,直接复用前面层的计算结果。推理时显存占用和计算量双双下降,长上下文和端侧部署尤其受益。谷歌说这对质量的影响“微乎其微”——几乎白捡的效率提升。
第三招:交替注意力机制
滑动窗口注意力和全局全上下文注意力交替使用。小模型用512 token的滑动窗口,大模型用1024。全局层负责拉长上下文覆盖,滑动层保证局部建模效率。
三个设计的共同目标:让每一个参数都尽可能高效地被利用。这也是为什么31B能打赢600B的核心秘密。
看图、听声、读视频:一个模型全搞定
Gemma 4全系列支持图像和视频输入,E2B和E4B还额外兼容音频。
视觉编码器做了两个关键升级:
可变宽高比:不再强制裁切图片,保持原始比例
可配置token预算:70/140/280/560/1120五档可选,低预算适合快速分类,高预算适合OCR和文档解析
实测中,给模型一张网页截图,问“view recipe按钮在哪”,四个尺寸都能以JSON格式返回精确的边界框坐标。31B定位最准,E2B稍有偏差但基本可用。
视频理解同样惊艳。用一段演唱会视频测试,E4B不仅准确描述了舞台画面,还从音轨中提取了歌词主题。音频转写几乎完美,标点和断句都很自然——全程不需要额外的提示工程。
更厉害的是多模态函数调用。给一张曼谷寺庙的照片,问“这是哪个城市?帮我查一下当地天气”。模型正确识别出曼谷,并自动调用get_weather工具。这是训练阶段就内置的能力,不是靠提示词“哄”出来的。
Apache 2.0:谷歌终于放手了
这次最大的非技术新闻:Gemma 4首次采用Apache 2.0协议。
之前的Gemma系列用的是谷歌自定义许可证,里面有“有害使用”限制条款和归属要求。企业法务团队需要逐条审查才能确认是否可以商用——很多公司干脆直接跳过。
Apache 2.0一步到位:没有自定义条款,没有灰色地带,修改、分发、商用完全自由。
自Gemma初代发布以来,累计下载量超过4亿次,社区衍生版本超过10万个。Apache 2.0加持下,这个数字只会加速增长。Hugging Face CEO Clément Delangue的评价只有一句话:“这是一个巨大的里程碑。”
开源模型的规则,已经变了
Gemma 4的发布,让谷歌的双线策略彻底成型。
顶层是Gemini系列闭源模型,占据榜单前列,通过API变现。底层是Gemma系列开源模型,用同源技术喂养开发者生态,抢占本地部署、端侧推理、Agent开发的入口。一个做收入,一个做生态——彼此不冲突,反而互相放大。
对开发者来说,选择已经摆在眼前:
一个31B的体量,单卡跑出千亿参数级别的效果
Apache 2.0随便用,从手机到服务器全覆盖
微调工具链完整,上手几乎没有门槛
参数效率这条路,谷歌跑在了最前面。31B打赢20倍体量的对手,2B塞进手机口袋。
开源模型的比赛,规则已经变了。这一次,谷歌不只是参与者——它正在成为规则的制定者。