Gemini Omni 炸场:谷歌 I/O 2026 端出「视频版 Nano Banana」,一句话生成会动的世界

简介: JeecgBoot AI专题研究 聚焦 Gemini Omni——任意输入直出视频的全能模型,兼谈 3.5 Flash、Antigravity 2.0 与 Spark 的全家桶轰炸![Gemini 全家桶](https://oscimg.oschina.net/oscnet/up56f3b306

JeecgBoot AI专题研究 | 聚焦 Gemini Omni——任意输入直出视频的全能模型,兼谈 3.5 Flash、Antigravity 2.0 与 Spark 的全家桶轰炸


Gemini 全家桶

写在前面:一场没有悬念却处处是惊雷的发布会

如果说过去两年的 AI 竞赛是「你追我赶」,那么 2026 年的谷歌 I/O 更像是一次「清仓式」的火力倾泻。Sundar Pichai 和 Demis Hassabis 同台站定,把 DeepMind 攒了半年的弹药一口气全部打了出来——没有铺垫,没有循序渐进,直接上重锤。

而这一晚真正的主角只有一个名字:Gemini Omni。一个真正「全能」的大模型,可以接收任意形式的输入,生成任意内容,并且首发就支持视频输出。用谷歌人自己的话说,它就是「视频版的 Nano Banana」。

Gemini Omni 正式亮相

下面我把 Omni 这条主线讲透,再顺带把同晚发布的 3.5 Flash、Antigravity 2.0、Spark 串起来——你会发现它们其实是同一盘棋。


一、Gemini Omni:从「像」到「懂」的那一步,跨得太大了

往年的生成式模型,强项在于「拟真」——画面看起来逼真就算赢。Gemini Omni 想解决的是另一个量级的问题:让模型真正理解它在生成什么

Hassabis 亲自登台宣布:「我们正迈出下一个重要的一步——Gemini Omni,这是一个可从任何输入创建内容的全新模型。」谷歌 AI Studio 负责人 Logan Kilpatrick 的那句注解,可能是今晚传播最广的一句话:

Introducing Gemini Omni 🟣 …… Omni is our new model that can create anything from any input — starting with video (think Nano Banana but for video).

视频版 Nano Banana

拆开看,Omni 把三件事同时拉满了:

  • 世界理解:不再是把像素拼得好看,而是把「重力」「动能」这些物理概念真正算对。以往系统模拟物理时经常翻车,Omni 实现了一次「阶跃式」的跃迁。
  • 任意模态输入:图片、文字、音频、视频可以任意组合喂进去,输出一段连贯的高质量视频。它是首个把「视频输出」做成首发能力的大模型。
  • 对话式编辑:生成不是一锤子买卖,你可以接着聊——「把小提琴手传送到雪山草地」「镜头切到肩膀后方」,主体一致、物理逻辑成立、场景记忆连贯。

它不是在拼贴素材,是真的在「理解」

最「细思极恐」的演示是字母配物:C 是水豚(Capybara)、D 是迪斯科球、L 是熔岩灯。这件事的难点不在画图,而在语义联结——模型得真的把语言、图像和概念绑在一起,而不是检索素材库做拼贴。

再比如一句 prompt「用粘土动画解释蛋白质折叠」,生成的视频里氨基酸链折叠成 α 螺旋和 β 折叠的每一步都科学准确,视觉上还是精致的定格动画。这已经不是渲染引擎的活儿了,是理解。

Omni 现场演示

一句话重写画面,一句话改变世界

在台上,Hassabis 掏出一段自拍视频开始现场魔改:手掌上随手画的圈变成了黑洞,傍晚散步的街道变成了赛博朋克场景。任何东西都可以成为创造全新现实的画布。

更关键的是输入的灵活性与输出的连贯性。从一段原始演奏画面开始,第二轮「把小提琴手传送到这张雪山草地的参考图里」,场景瞬间切换、光影全部适配;第三轮「镜头切到肩膀后方」,视角旋转但演奏动作和音乐完全连续。不论场景如何变幻,画面主体都不会崩坏。

对话式编辑视频

你甚至可以创建自己的 Avatar,让 AI 版的你出现在任何场景中,说你的声音、做你没做过的事。

一个值得开发者警惕的点:当模型可以从零生成「AI 版的你」,内容真实性的验证成本会陡增。目前 Omni Flash 已正式上线,API 版未来几周开放,更强的 Omni Pro 也在路上;并且首发就接入了 Gemini App、Google Flow 和 YouTube Shorts(Shorts 用户甚至免费用)。这意味着合成视频的产能即将指数级释放——水印与溯源机制,会比模型本身更值得关注。


二、Gemini 3.5 Flash:用「Flash」干翻三个月前的「Pro」

如果说 Omni 是面向 C 端创作者的炸弹,那么 Gemini 3.5 Flash 才是砸向开发者的那一颗。

Gemini 3.5 Flash

谷歌给它的定义直白得有点狂:迄今最强的编码与智能体模型。最扎心的一句来自 Pichai 本人——「3.5 Flash 在几乎所有基准测试中全面胜出 Gemini 3.1 Pro」。要知道 3.1 Pro 是谷歌三个月前才推出的旗舰,现在一个 Flash 级别(更便宜、更快的那一档)的模型就把它碾过去了。

基准测试 能力维度 3.5 Flash 成绩
Terminal-Bench 2.1 编码 76.2%
GDPval-AA 真实世界 Agent 任务 1656 Elo
MCP Atlas 大规模工具使用 83.6%
CharXiv Reasoning 多模态理解 84.2%

3.1 Pro vs 3.5 Flash

更离谱的是速度:289 tokens/秒,独占一个性能象限,比其他前沿模型快 4 倍还多。在部分基准上,它甚至追平乃至压过了 GPT-5.5 和 Claude Opus 4.7。

智能 vs 速度

现场那个「一瞬间消化天书般学术论文,并写出带完整交互的可视化网站」的演示,本质上就是在秀长上下文理解 + 一次成型的代码生成。对做 AI 编程工具的人来说,速度从来不只是体验问题——当单位时间能跑的 token 翻 4 倍,Agent 的多步循环、自我反思、回滚重试这些「烧 token」的策略,才真正变得经济可行。

我的判断:3.5 Flash 的意义不在于某个榜单第一,而在于它把「旗舰级智能」拉到了「Flash 级成本与速度」。下个月还要发布更强的 3.5 Pro,节奏快得有些不讲道理。


三、Antigravity 2.0:93 个 Agent,12 小时,从零造出一个操作系统

3.5 Flash 的能力,几乎全靠全新的 Antigravity 2.0 才得以释放。这次它从一个 IDE 进化成了独立桌面应用,彻底转向 Agent-first 设计——主角不再是「人写代码」,而是「编排一群 Agent」。

Antigravity 2.0

最让全场屏息的 Demo:让 Antigravity 搭载 3.5 Flash,从零构建一个操作系统

  • 93 个子 Agent 并行工作
  • 发起超过 15000 次模型请求,处理 26 亿个 token
  • 12 小时后,空白项目变成功能完整的 OS 内核:调度程序、内存管理、文件系统一应俱全
  • 每一行代码都是 Agent 写、Agent 测、Agent 审计,API 费用不到 1000 美元

93 个 Agent 造操作系统

收尾还有个名场面:在这个 AI 写出来的操作系统上跑 DOOM,第一次因为缺视频和键盘驱动失败了,工程师当场敲一句修复指令,Agent 自动补齐驱动代码,DOOM 画面随即点亮,全场沸腾。

Antigravity 2.0 的核心升级,本质都是为「让 Agent 群体长时间自治」服务的:

  • 动态子 Agent:主 Agent 把任务拆解后分发,子 Agent 互不干扰地并行跑;
  • 异步任务管理:长耗时操作不再阻塞主线程;
  • Scheduled Tasks(定时任务):让 Agent 自动执行周期性工作,比如每天检查一次 PR、每小时跑一次健康检查;
  • 新的斜杠命令/goal 让 Agent 一口气跑到底,/grill-me 反过来逼 Agent 先把需求问清楚再动手,/browser 显式控制浏览器使用。

一个侧面数据很能说明趋势:谷歌内部用 Antigravity 处理 token 的速度,3 月份还是每天 5000 亿,现在已经狂飙到每天 3 万亿——半年 6 倍。

每日内部 token 处理量

给团队的提醒:/grill-me 这种「让 Agent 先澄清需求」的命令,恰恰暴露了当前 Agent 落地最大的瓶颈——不是模型不够聪明,而是人类把需求说清楚的成本太高。盲目把模糊需求丢给 Agent 群,烧的钱可能远不止 1000 美元。


四、Gemini Spark:合上笔记本,它还在替你干活

第三件大杀器是 Gemini Spark,定位非常直接:你的个人 AI Agent,即使合上笔记本电脑也不停歇。它跑在云端专用虚拟机上,7×24 小时在线,由 Gemini 3.5 + Antigravity 框架驱动,深度整合谷歌办公全家桶。

Gemini Spark

两个演示场景把「个人管家」讲透了:

工作场景:一句「帮我起草一封给团队的邮件,汇总过去一周关于 Gemini Live 发布的所有信息」,Spark 自动跨 Gmail、Docs、聊天记录抓取信息,还调用了演示者自己写的一个 ghostwriter 技能,让邮件自动匹配他的个人语气。整个过程在后台完成,人类只负责审核和发送。

生活场景:规划一场街区派对。Spark 自动建了一张 Google Sheets 的 RSVP 追踪表,直连 Gmail,谁回复了自动更新;给没报名的邻居自动起草催促邮件;最后还做了一份 Google Slides 宣传 deck,连「街区里要放充气城堡」都写了进去——全程没打开任何一个 App。

Spark 个人 AI 管家

值得单独点出的是自定义技能(skills)语音多任务:Spark 支持你给它装技能,让它学会你的口吻、偏好和工作方式;语音输入时,它能把一段连续的语音自动拆成多个独立任务线程并行执行。

定价上,AI Ultra 订阅每月 100 美元即可用 Spark Beta;最高档 Ultra 计划从 250 美元下调到 200 美元。Spark 下周率先对美国 AI Ultra 用户开放 Beta。

注意一个范式变化:Gemini App 这次改版(代号 Neural Expressive)改为按算力计费。当 AI 替你 7×24 小时干活,你买的不再是「调用次数」,而是「算力时长」——这对所有做 AI 应用的人都是定价模型上的信号。


五、把这些拼在一起看:谷歌撕开了 ASI 的入口

单看每个产品,都只是「又一次升级」。但把它们叠在同一晚,后背会有点发凉:

  • Omni 把一句话变成一个会动的世界,不需要人类提供任何素材;
  • 93 个 Agent 从零造出操作系统,不需要人类写一行代码;
  • Spark 7×24 小时替你工作,不需要人类打开一个 App。

三件事的共同点是:人类正在被移出回路。当 AI 不再需要人类「喂料」,而是自己理解、自己决策、自己执行、自己迭代,这条路的终点有个名字——ASI(超级智能)。半年前我们还在争论 AGI 是不是泡沫,半年后谷歌已经在用 Agent 写操作系统了。这个行业的加速度,已经超出了人类直觉能感知的范围。


想看完整现场演示?

本文的动图只是截取片段,几个关键能力的完整演示与官方说明可以从这里看起:


这场发布会,开发者该带走什么?

  1. 生成的边界被重画。Omni 让「一句话直出可编辑视频」成为现实,多模态不再是「看图说话」,而是「理解世界并重建世界」。内容生产链路即将被重塑,溯源与水印成为刚需。
  2. 成本结构在重写。Flash 级速度 + 旗舰级智能,意味着「让多个 Agent 并行试错」从奢侈品变成日常工具。重新审视你那些「因为太烧 token 而不敢做」的方案。
  3. 自治不等于放养。93 个 Agent 造 OS 的前提是任务清晰、可测、可审计。上 Agent 群之前,先想清楚「怎么验证它做对了」,否则烧的不只是 token,还有信任。

谷歌这一晚确实把节奏推到了新高度。但热闹之外,真正能把这些能力落到生产环境、变成稳定交付的团队,才是这波浪潮里活下来的人。


本文为 JeecgBoot AI 专题研究系列文章。

目录
相关文章
|
9天前
|
人工智能 开发工具 iOS开发
Claude Code 新手完全上手指南:安装、国产模型配置与常用命令全解
Claude Code 是一款运行在终端环境中的 AI 编程助手,能够直接在命令行中完成代码生成、项目分析、文件修改、命令执行、Git 管理等开发全流程工作。它最大的特点是**任务驱动、终端原生、轻量高效、多模型兼容**,无需图形界面、不依赖 IDE 插件,能够深度融入开发者日常工作流。
3137 8
|
12天前
|
Shell API 开发工具
Claude Code 快速上手指南(新手友好版)
AI编程工具卷疯啦!Claude Code凭借任务驱动+终端原生的特性,成了开发者的效率搭子。本文从安装、登录、切换国产模型到常用命令,手把手带新手快速上手,全程避坑,30分钟独立用起来。
3199 20
|
5天前
|
人工智能 Linux BI
国内用 Claude Code 终于不用翻墙了:一行命令搞定,自动接 DeepSeek
JeecgBoot AI专题研究 一键脚本:Claude Code + JeecgBoot Skills + DeepSeek 全平台接入 一行命令装好 Claude Code + JeecgBoot Skills + DeepSeek 接入,无需翻墙使用 Claude Code,支持 Wind
2134 3
国内用 Claude Code 终于不用翻墙了:一行命令搞定,自动接 DeepSeek
|
24天前
|
人工智能 JSON 供应链
畅用7个月无影 JVS Claw |手把手教你把JVS改造成「科研与产业地理情报可视化大师」
LucianaiB分享零成本畅用JVS Claw教程(学生认证享7个月使用权),并开源GeoMind项目——将JVS改造为科研与产业地理情报可视化AI助手,支持飞书文档解析、地理编码与腾讯地图可视化,助力产业关系图谱构建。
23591 15
畅用7个月无影 JVS Claw |手把手教你把JVS改造成「科研与产业地理情报可视化大师」
|
1天前
|
人工智能 自然语言处理 文字识别
阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
Qwen3.7-Max是阿里云百炼面向智能体时代推出的新一代旗舰模型,对标GPT-5.5、Claude Opus 4.7等闭源旗舰。该模型支持百万级token上下文窗口,具备顶级推理能力、多模态搜索与视觉理解增强、流式输出低延迟响应等核心优势,覆盖编程、办公、长周期自主执行等复杂场景。同时支持OpenAI接口兼容,便于系统快速迁移。用户可通过Token Plan团队版、Coding Plan或节省计划等订阅方式灵活调用,适合企业级高要求场景使用。
|
11天前
|
人工智能 JSON BI
DeepSeek V4-Pro 接入 Claude Code 完全实战:体验、测试与关键避坑指南
Claude Code 作为当前主流的 AI 编程辅助工具,凭借强大的代码理解、工程执行与自动化能力深受开发者喜爱,但原生模型的使用成本相对较高。为了在保持能力的同时进一步降低开销,不少开发者开始寻找兼容度高、价格更友好的替代模型。DeepSeek V4 系列的发布带来了新的选择,该系列包含 V4-Pro 与 V4-Flash 两款模型,并提供了与 Anthropic 完全兼容的 API 接口,理论上只需简单修改配置,即可让 Claude Code 无缝切换为 DeepSeek 引擎。
2648 3
|
3天前
|
人工智能 自然语言处理 安全
Claude Code 全攻略:命令大全+三种模式+记忆体系+实战工作流完整手册
Claude Code 是当前最流行的终端级 AI 编程助手,能够直接在命令行中完成代码生成、项目理解、文件修改、命令执行、错误修复等全流程开发工作。它不依赖图形界面、不占用额外资源,却能深度理解项目结构,自动生成规范代码,大幅提升研发效率。
772 2
|
10天前
|
人工智能 安全 开发工具
Claude Code 官方工作原理与使用指南
Claude Code 不是传统代码补全工具,而是 Anthropic 推出的终端 AI 代理,具备代理循环、双驱动架构(模型+工具)、全局项目感知、6 种权限模式等核心能力,本文基于官方文档系统解析其工作原理与高效使用技巧。
1444 0

热门文章

最新文章