Gemini Omni 炸场：谷歌 I/O 2026 端出「视频版 Nano Banana」，一句话生成会动的世界-阿里云开发者社区

JeecgBoot AI专题研究 | 聚焦 Gemini Omni——任意输入直出视频的全能模型，兼谈 3.5 Flash、Antigravity 2.0 与 Spark 的全家桶轰炸

Gemini 全家桶

写在前面：一场没有悬念却处处是惊雷的发布会

如果说过去两年的 AI 竞赛是「你追我赶」，那么 2026 年的谷歌 I/O 更像是一次「清仓式」的火力倾泻。Sundar Pichai 和 Demis Hassabis 同台站定，把 DeepMind 攒了半年的弹药一口气全部打了出来——没有铺垫，没有循序渐进，直接上重锤。

而这一晚真正的主角只有一个名字：Gemini Omni。一个真正「全能」的大模型，可以接收任意形式的输入，生成任意内容，并且首发就支持视频输出。用谷歌人自己的话说，它就是「视频版的 Nano Banana」。

Gemini Omni 正式亮相

下面我把 Omni 这条主线讲透，再顺带把同晚发布的 3.5 Flash、Antigravity 2.0、Spark 串起来——你会发现它们其实是同一盘棋。

一、Gemini Omni：从「像」到「懂」的那一步，跨得太大了

往年的生成式模型，强项在于「拟真」——画面看起来逼真就算赢。Gemini Omni 想解决的是另一个量级的问题：让模型真正理解它在生成什么。

Hassabis 亲自登台宣布：「我们正迈出下一个重要的一步——Gemini Omni，这是一个可从任何输入创建内容的全新模型。」谷歌 AI Studio 负责人 Logan Kilpatrick 的那句注解，可能是今晚传播最广的一句话：

Introducing Gemini Omni 🟣 …… Omni is our new model that can create anything from any input — starting with video (think Nano Banana but for video).

视频版 Nano Banana

拆开看，Omni 把三件事同时拉满了：

世界理解：不再是把像素拼得好看，而是把「重力」「动能」这些物理概念真正算对。以往系统模拟物理时经常翻车，Omni 实现了一次「阶跃式」的跃迁。
任意模态输入：图片、文字、音频、视频可以任意组合喂进去，输出一段连贯的高质量视频。它是首个把「视频输出」做成首发能力的大模型。
对话式编辑：生成不是一锤子买卖，你可以接着聊——「把小提琴手传送到雪山草地」「镜头切到肩膀后方」，主体一致、物理逻辑成立、场景记忆连贯。

它不是在拼贴素材，是真的在「理解」

最「细思极恐」的演示是字母配物：C 是水豚（Capybara）、D 是迪斯科球、L 是熔岩灯。这件事的难点不在画图，而在语义联结——模型得真的把语言、图像和概念绑在一起，而不是检索素材库做拼贴。

再比如一句 prompt「用粘土动画解释蛋白质折叠」，生成的视频里氨基酸链折叠成 α 螺旋和 β 折叠的每一步都科学准确，视觉上还是精致的定格动画。这已经不是渲染引擎的活儿了，是理解。

Omni 现场演示

一句话重写画面，一句话改变世界

在台上，Hassabis 掏出一段自拍视频开始现场魔改：手掌上随手画的圈变成了黑洞，傍晚散步的街道变成了赛博朋克场景。任何东西都可以成为创造全新现实的画布。

更关键的是输入的灵活性与输出的连贯性。从一段原始演奏画面开始，第二轮「把小提琴手传送到这张雪山草地的参考图里」，场景瞬间切换、光影全部适配；第三轮「镜头切到肩膀后方」，视角旋转但演奏动作和音乐完全连续。不论场景如何变幻，画面主体都不会崩坏。

对话式编辑视频

你甚至可以创建自己的 Avatar，让 AI 版的你出现在任何场景中，说你的声音、做你没做过的事。

一个值得开发者警惕的点：当模型可以从零生成「AI 版的你」，内容真实性的验证成本会陡增。目前 Omni Flash 已正式上线，API 版未来几周开放，更强的 Omni Pro 也在路上；并且首发就接入了 Gemini App、Google Flow 和 YouTube Shorts（Shorts 用户甚至免费用）。这意味着合成视频的产能即将指数级释放——水印与溯源机制，会比模型本身更值得关注。

二、Gemini 3.5 Flash：用「Flash」干翻三个月前的「Pro」

如果说 Omni 是面向 C 端创作者的炸弹，那么 Gemini 3.5 Flash 才是砸向开发者的那一颗。

Gemini 3.5 Flash

谷歌给它的定义直白得有点狂：迄今最强的编码与智能体模型。最扎心的一句来自 Pichai 本人——「3.5 Flash 在几乎所有基准测试中全面胜出 Gemini 3.1 Pro」。要知道 3.1 Pro 是谷歌三个月前才推出的旗舰，现在一个 Flash 级别（更便宜、更快的那一档）的模型就把它碾过去了。

基准测试	能力维度	3.5 Flash 成绩
Terminal-Bench 2.1	编码	76.2%
GDPval-AA	真实世界 Agent 任务	1656 Elo
MCP Atlas	大规模工具使用	83.6%
CharXiv Reasoning	多模态理解	84.2%

3.1 Pro vs 3.5 Flash

更离谱的是速度：289 tokens/秒，独占一个性能象限，比其他前沿模型快 4 倍还多。在部分基准上，它甚至追平乃至压过了 GPT-5.5 和 Claude Opus 4.7。

智能 vs 速度

现场那个「一瞬间消化天书般学术论文，并写出带完整交互的可视化网站」的演示，本质上就是在秀长上下文理解 + 一次成型的代码生成。对做 AI 编程工具的人来说，速度从来不只是体验问题——当单位时间能跑的 token 翻 4 倍，Agent 的多步循环、自我反思、回滚重试这些「烧 token」的策略，才真正变得经济可行。

我的判断：3.5 Flash 的意义不在于某个榜单第一，而在于它把「旗舰级智能」拉到了「Flash 级成本与速度」。下个月还要发布更强的 3.5 Pro，节奏快得有些不讲道理。

三、Antigravity 2.0：93 个 Agent，12 小时，从零造出一个操作系统

3.5 Flash 的能力，几乎全靠全新的 Antigravity 2.0 才得以释放。这次它从一个 IDE 进化成了独立桌面应用，彻底转向 Agent-first 设计——主角不再是「人写代码」，而是「编排一群 Agent」。

Antigravity 2.0

最让全场屏息的 Demo：让 Antigravity 搭载 3.5 Flash，从零构建一个操作系统。

93 个子 Agent 并行工作
发起超过 15000 次模型请求，处理 26 亿个 token
12 小时后，空白项目变成功能完整的 OS 内核：调度程序、内存管理、文件系统一应俱全
每一行代码都是 Agent 写、Agent 测、Agent 审计，API 费用不到 1000 美元

93 个 Agent 造操作系统

收尾还有个名场面：在这个 AI 写出来的操作系统上跑 DOOM，第一次因为缺视频和键盘驱动失败了，工程师当场敲一句修复指令，Agent 自动补齐驱动代码，DOOM 画面随即点亮，全场沸腾。

Antigravity 2.0 的核心升级，本质都是为「让 Agent 群体长时间自治」服务的：

动态子 Agent：主 Agent 把任务拆解后分发，子 Agent 互不干扰地并行跑；
异步任务管理：长耗时操作不再阻塞主线程；
Scheduled Tasks（定时任务）：让 Agent 自动执行周期性工作，比如每天检查一次 PR、每小时跑一次健康检查；
新的斜杠命令：/goal 让 Agent 一口气跑到底，/grill-me 反过来逼 Agent 先把需求问清楚再动手，/browser 显式控制浏览器使用。

一个侧面数据很能说明趋势：谷歌内部用 Antigravity 处理 token 的速度，3 月份还是每天 5000 亿，现在已经狂飙到每天 3 万亿——半年 6 倍。

每日内部 token 处理量

给团队的提醒：/grill-me 这种「让 Agent 先澄清需求」的命令，恰恰暴露了当前 Agent 落地最大的瓶颈——不是模型不够聪明，而是人类把需求说清楚的成本太高。盲目把模糊需求丢给 Agent 群，烧的钱可能远不止 1000 美元。

四、Gemini Spark：合上笔记本，它还在替你干活

第三件大杀器是 Gemini Spark，定位非常直接：你的个人 AI Agent，即使合上笔记本电脑也不停歇。它跑在云端专用虚拟机上，7×24 小时在线，由 Gemini 3.5 + Antigravity 框架驱动，深度整合谷歌办公全家桶。

Gemini Spark

两个演示场景把「个人管家」讲透了：

工作场景：一句「帮我起草一封给团队的邮件，汇总过去一周关于 Gemini Live 发布的所有信息」，Spark 自动跨 Gmail、Docs、聊天记录抓取信息，还调用了演示者自己写的一个 ghostwriter 技能，让邮件自动匹配他的个人语气。整个过程在后台完成，人类只负责审核和发送。

生活场景：规划一场街区派对。Spark 自动建了一张 Google Sheets 的 RSVP 追踪表，直连 Gmail，谁回复了自动更新；给没报名的邻居自动起草催促邮件；最后还做了一份 Google Slides 宣传 deck，连「街区里要放充气城堡」都写了进去——全程没打开任何一个 App。

Spark 个人 AI 管家

值得单独点出的是自定义技能（skills）和语音多任务：Spark 支持你给它装技能，让它学会你的口吻、偏好和工作方式；语音输入时，它能把一段连续的语音自动拆成多个独立任务线程并行执行。

定价上，AI Ultra 订阅每月 100 美元即可用 Spark Beta；最高档 Ultra 计划从 250 美元下调到 200 美元。Spark 下周率先对美国 AI Ultra 用户开放 Beta。

注意一个范式变化：Gemini App 这次改版（代号 Neural Expressive）改为按算力计费。当 AI 替你 7×24 小时干活，你买的不再是「调用次数」，而是「算力时长」——这对所有做 AI 应用的人都是定价模型上的信号。

五、把这些拼在一起看：谷歌撕开了 ASI 的入口

单看每个产品，都只是「又一次升级」。但把它们叠在同一晚，后背会有点发凉：

Omni 把一句话变成一个会动的世界，不需要人类提供任何素材；
93 个 Agent 从零造出操作系统，不需要人类写一行代码；
Spark 7×24 小时替你工作，不需要人类打开一个 App。

三件事的共同点是：人类正在被移出回路。当 AI 不再需要人类「喂料」，而是自己理解、自己决策、自己执行、自己迭代，这条路的终点有个名字——ASI（超级智能）。半年前我们还在争论 AGI 是不是泡沫，半年后谷歌已经在用 Agent 写操作系统了。这个行业的加速度，已经超出了人类直觉能感知的范围。

想看完整现场演示？

本文的动图只是截取片段，几个关键能力的完整演示与官方说明可以从这里看起：

谷歌 I/O 2026 主题演讲回放：https://youtu.be/wYSncx9zLIU
Gemini 3.5 官方博客：https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-5/
Gemini Omni 官方博客：https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni/
Antigravity 2.0 介绍：https://antigravity.google/blog/introducing-google-antigravity-2-0

这场发布会，开发者该带走什么？

生成的边界被重画。Omni 让「一句话直出可编辑视频」成为现实，多模态不再是「看图说话」，而是「理解世界并重建世界」。内容生产链路即将被重塑，溯源与水印成为刚需。
成本结构在重写。Flash 级速度 + 旗舰级智能，意味着「让多个 Agent 并行试错」从奢侈品变成日常工具。重新审视你那些「因为太烧 token 而不敢做」的方案。
自治不等于放养。93 个 Agent 造 OS 的前提是任务清晰、可测、可审计。上 Agent 群之前，先想清楚「怎么验证它做对了」，否则烧的不只是 token，还有信任。

谷歌这一晚确实把节奏推到了新高度。但热闹之外，真正能把这些能力落到生产环境、变成稳定交付的团队，才是这波浪潮里活下来的人。

本文为 JeecgBoot AI 专题研究系列文章。

Gemini Omni 炸场：谷歌 I/O 2026 端出「视频版 Nano Banana」，一句话生成会动的世界

写在前面：一场没有悬念却处处是惊雷的发布会

一、Gemini Omni：从「像」到「懂」的那一步，跨得太大了

二、Gemini 3.5 Flash：用「Flash」干翻三个月前的「Pro」

三、Antigravity 2.0：93 个 Agent，12 小时，从零造出一个操作系统

四、Gemini Spark：合上笔记本，它还在替你干活

五、把这些拼在一起看：谷歌撕开了 ASI 的入口

想看完整现场演示？

这场发布会，开发者该带走什么？

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Gemini Omni 炸场：谷歌 I/O 2026 端出「视频版 Nano Banana」，一句话生成会动的世界

写在前面：一场没有悬念却处处是惊雷的发布会

一、Gemini Omni：从「像」到「懂」的那一步，跨得太大了

二、Gemini 3.5 Flash：用「Flash」干翻三个月前的「Pro」

三、Antigravity 2.0：93 个 Agent，12 小时，从零造出一个操作系统

四、Gemini Spark：合上笔记本，它还在替你干活

五、把这些拼在一起看：谷歌撕开了 ASI 的入口

想看完整现场演示？

这场发布会，开发者该带走什么？

热门文章

最新文章

相关电子书