周一上线|1M 上下文成标配,GPT-5.5 更会干活;Google 拟最高 400 亿美元加码 Anthropic

简介: 先看模型这边,沉寂 15 个月后,DeepSeek 终于发布了 V4 预览版,而且照例开源。最猛的是,它直接把 1M 上下文做成了标配,量大管饱。OpenAI 那边,比 DeepSeek 早一天发布的 GPT-5.5,主打“更人性化”,在带起一众模型“稳稳接住”“懂你所想”的风潮之后,这回 GPT-5.5 不弯不绕,反倒显得清新脱俗。当然,模型的重点还是能力:Agentic Coding、Computer Use 和复杂任务处理,GPT-5.5 较之前版本都有很大提升。

这是4月27日更新的周一上线!AI 圈的信息密度确实有点爆炸,好几个重量级更新扎堆出现。

先看模型这边,沉寂 15 个月后,DeepSeek 终于发布了 V4 预览版,而且照例开源。最猛的是,它直接把 1M 上下文做成了标配,量大管饱。OpenAI 那边,比 DeepSeek 早一天发布的 GPT-5.5,主打“更人性化”,在带起一众模型“稳稳接住”“懂你所想”的风潮之后,这回 GPT-5.5 不弯不绕,反倒显得清新脱俗。当然,模型的重点还是能力:Agentic Coding、Computer Use 和复杂任务处理,GPT-5.5 较之前版本都有很大提升。

大公司动态这边,Anthropic 虽说上周没发新版模型,但上上周发布的 Opus 4.7 热度还在延续;同时,它和亚马逊、Google 接连加深合作,算力、资金一起安排上,风头无限。

下面,开始一周回顾。

本周酷玩

Flipbook:没有 HTML、没有 CSS,没有按钮,AI 实时绘制的界面

过去,无论一个网页多么精美、酷炫,从结构上看,都是由一个个按钮、文本框、图片等等资源积木搭建而成。现在,Flipbook 想要重新定义网页交互形式,它不再是固定布局,屏幕上的每个像素都由 AI 模型实时生成、流式传输到网页端,让用户看见。它像极了一个可无限放大的画布,打开任何一扇门,你都可以基于当前画面看到新的场景。

就目前而言,Flipbook 更适合做“视觉解释”类场景,比如生成一个结构图、科普图、维修手册之类的交互说明。借助优化过的视频模型,并通过 WebSocket 连接云端 GPU,它可以将画面以 1080p、24fps 的形式流式传到屏幕上。

作者坦承,Flipbook 还是处于早期概念验证 / Demo 阶段,部分演示经过加速或剪辑,但这个新的网页视觉交互方向确实有想象力:未来的软件界面可能不再是固定 UI,而是按你的需求实时长出来。

软硬结合:动动嘴就能让 Codex 写代码

Codex 开放全局的语音输入:

网友爆料 ulanzi 发布 AI Coding 语音助手搭档(下图),全向收音麦克风 + 自定义按键,现在软硬结合,Codex / Claude 干活更卖力。

周五上线

「周五上线」是一个程序梗:一旦版本上线,我们就要开始祈祷一切如期运行。该模块寓意,所有模型、产品版本更新,大吉大利。

DeepSeek-V4 预览版发布并开源,1M 上下文成为官方服务标配

北京时间 4 月 24 日,沉寂已久的 DeepSeek 全新系列模型 DeepSeek-V4 预览版正式发布,依旧选择开源模型。V4 模型主要亮点为百万级超长上下文,分为 DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 两个版本。

其中,V4-Pro 的 Agent 能力有了大幅度提升,可比肩 Claude Opus 4.6、GPT-5.4-xHigh、Gemini-3.1 等主流模型。官方表示,内部反馈 V4 使用体验优于 Sonnet 4.5,交付质量接近 Opus 4.6 非思考模式,但仍与 Opus 4.6 思考模式存在一定差距;V4-Flash 则在成本和速度上更有优势,简单 Agent 任务表现接近 Pro,但复杂任务仍有差距。

这次 V4 最大的亮点是长上下文。DeepSeek 引入了新的注意力机制,对 token 维度进行压缩,降低了长上下文对算力和显存的压力,也让 1M 上下文从 V4 开始成为官方服务标配。现在,用户可以在官网和 App 体验该版本,官方 API 也已上线,只需把 model 参数改为 deepseek-v4-prodeepseek-v4-flash 即可调用。旧模型名 deepseek-chatdeepseek-reasoner 将于 2026 年 7 月 24 日停用。

小彩蛋:DeepSeek-V4-Pro API 限时促销中,截至 2026 年 5 月 5 日,可以用原价 25% 的价钱使用模型:


OpenAI 发布 GPT-5.5,重点升级 Agentic Coding、Computer Use 和知识工作

被官方称为“目前最聪明、最直觉化的新一代模型”GPT-5.5 在美东时间 4 月 23 日正式发布。

这次 GPT-5.5 最大的亮点,是它更会干活了,不再只是一个擅长聊天的工具。OpenAI 表示,GPT-5.5 在 Agentic Coding、Computer Use、知识工作和早期科学研究上都有显著的能力提升,尤其适合处理长周期、多步骤的复杂任务。

在 Codex 编程场景中,GPT-5.5 能很好地理解大型代码库结构、调用关系,可定位模糊 bug、制定修复计划、调用工具验证结果,最后将改动写入到周边代码中。

从官方披露的评测看,GPT-5.5 在 Terminal-Bench 2.0 上达到 82.7%,在 SWE-Bench Pro 上达到 58.6%,并且相比 GPT-5.4 使用更少 tokens 完成同类 Codex 任务。OpenAI 还提到,GPT-5.5 在真实服务中的单 token 延迟与 GPT-5.4 基本持平,但能力显著提高。

目前,GPT-5.5 已面向 ChatGPT Plus、Pro、Business、Enterprise 用户以及 Codex 推出;GPT-5.5 Pro 面向 Pro、Business 和 Enterprise 用户推出。

一句话总结:GPT-5.5 的重点不是“更会聊天”,而是更像一个能长期推进任务的 AI 工程同事。

小彩蛋:OpenAI 在 GPT-5.5 发布后,同步推出了一个 Bio Bug Bounty,面向有 AI 红队、安全或生物安全经验的研究者开放申请。

Claude Code 承认近期质量下滑,官方发布修复公告

据官方称,不少用户反馈 Claude Code 降智。本周,Claude 官方发布修复公告,承认 Claude Code 的体验确实受到了影响,但强调不是底层模型本身退步,而是在 Claude Code / Agent SDK 外层工程链路出了问题。现在,问题已经修复。

此外,官方表示已经重置了所有订阅用户的使用限制。后续 Anthropic 会加强内部 dogfooding,并扩大评测集,尤其是针对系统提示词变化,做更细的隔离测试。

Cursor 3 新增 /multitask,支持多 Agent 并行干活

美东时间 4 月 24 日,Cursor 正式推出了新界面里的 /multitask 功能。

以前,你给 Cursor 提多个需求,它会依序排队处理;现在,它可以多线程操作,启动异步 subagents,把任务拆解掉,并行跑需求。

这个功能很适合“多线任务”,一边修 bug,一边补测试,一边改文档,一边检查依赖。对开发者来说,Cursor 正从“一个 AI 程序员”往“一个 AI 小团队”靠近。

随之而来的问题,就变成了:你会不会拆任务、会不会审查 Agent 的产出。

腾讯混元开源 Hy3 preview,主打推理、Agent 和性价比

腾讯混元团队开源了 Hy3 preview。该模型规模为 295B,总激活参数约 21B,定位为具备较强推理和 Agent 能力的高性价比模型。

从官方公开信息看,Hy3 preview 重点面向 Coding Agent、推理和搜索等场景,是一个全面、不“偏科”的推理模型。此外,腾讯在官方介绍中表示,相关模型已经用于元宝、CodeBuddy、WorkBuddy、QQ、QQ浏览器、腾讯文档等产品,并在微信公众号、腾讯新闻、腾讯自选股、和平精英、腾讯客服等多个产品陆续上线中。

小彩蛋:本次「随手测测」将采用腾讯混元公示的测试 prompt 来测试相关模型能力。

xAI 推出 Grok 语音 API,补齐“能听会说”的能力

xAI 推出了两项 Grok 语音 API:Speech to Text 和 Text to Speech。

在语音识别转文字部分,Grok 可实时转录、说话人分离、多声道识别。此外,它支持 25 种以上语言。在文字转语音部分,Grok 支持用标签控制声音情绪(如笑、叹气),能识别声音场景(如低语),对文字停顿部分进行语音适配,可调整整体语速和音量。

Kimi K2.6 发布,主打开源 Coding 和长程 Agent 任务

北京时间 4 月 20 日深夜,月之暗面发布了 Kimi K2.6,重点强化代码能力、长程任务执行和 Agent Swarm 多 Agent 协作能力。

这次新版的 Kimi K2.6 关键词是能长期干活。官方给出了几个比较夸张的案例:比如模型连续运行 12 小时,调用 4,000 多次工具,在 Mac 上用 Zig 优化 Qwen3.5-0.8B 推理速度,把速度从约 15 tok/s 提升到约 193 tok/s;还用 13 小时重构一个开源金融撮合引擎,修改 4,000 多行代码,把吞吐量大幅拉高。

Qwen 3.6-Max 预览版正式发布,优化 Agent 编程能力

北京时间 4 月 20 日,Qwen 3.6-Max 预览版正式发布。据了解,相比 Qwen3.6-Plus,Qwen3.6-Max-Preview显著提升 Agent 编程能力、以及更强的世界知识和指令遵循、更优的真实场景 Agent 与知识可靠性表现。

Qwen3.6-Max-Preview 可通过阿里云百炼 API 调用使用,模型名为 qwen3.6-max-preview,用户也可以在 Qwen Studio 体验。


Google Gemma 4 支持可变宽高比和可变分辨率

Google Gemma 团队在美东时间 4 月 24 日表示,Gemma 4 现已支持可变宽高比和可变分辨率。

这对多模态模型很实用,因为现实世界中,图片并不总是标准尺寸:截图、海报、表格、手机长图、横版照片,各种尺寸不统一的图片都会混在一起。如果模型只能按照固定的比例来处理图片,容易在裁剪、缩放时丢失信息。

Gemma 4 支持可变宽高比后,就能更自然地处理特别宽,或是特别长的图片;同时,开发者还可以手动设置图像处理的视觉 token 预算,在细节和成本之间做取舍。对 UI 截图理解、文档图片分析、视觉问答这类任务来说,这种能力会更贴近真实使用场景。


开源雷达

Obscura:Rust 编写的 AI Agent 专用无头浏览器

一个叫 Obscura 的开源项目近期受到关注。

它的定位很明确:给 AI Agent 和网页抓取任务用的轻量浏览器引擎。它不是为了替代常用的浏览器,而是为了让 Agent 更快、更省资源地打开网页、执行 JavaScript、抓取网页内容,完成自动化操作而设计的。

Obscura 还提供 stealth 模式,支持指纹随机化、隐藏自动化特征、拦截追踪脚本等能力。

简单说,它不是给人浏览网页的浏览器,而是给 Agent “上网干活”用的。

地址:https://github.com/h4ckf0r0day/obscura


Notchi:跑在苹果笔记本刘海里的 Claude 小精灵

这是一个运行在 MacBook 刘海里的 Claude Code 状态栏。

它是一个支持 MacBook Pro 2021 款及以上机型的 Claude Code 状态栏,会实时响应 Claude Code 的工作状态,包括思考中、执行中、报错和完成等状态。Notchi 会把不同 Claude Code 会话映射成独立的 Claude 小精灵,并通过动画、表情、音效来和你互动。点击 Claude 图标,会展开对话面板,显示会话时长、活动流与 API 用量信息。从此 Claude Code 不再是在终端里哼哧哼哧搬砖的沉默工人,而是住进了 MacBook 刘海里的小精灵。

地址:https://github.com/sk-ruban/notchi

OpenClaw Managed Agents:开源版 Claude Managed Agents

这是一个开源的 Agent 服务框架,目标是做 Claude Managed Agents / ChatGPT Workspace Agents 的开放替代品。

简单说,它把 OpenClaw 包成了一个可通过 API 调用的 Agent 平台。它具备 Claude Managed Agent 的四个标准模块:Agent、Environment、Session、Event。用户可创建 Agent,配置模型、系统提示词、工具和 MCP 服务;再开启 Session,把任务发进去,并通过事件流拿到模型回复、工具调用和执行状态。每个活跃 Session 都会跑在独立 Docker 容器里,方便隔离和恢复。

它的一大亮点是,不绑定模型和云服务。OpenClaw Managed Agents 支持 Anthropic、OpenAI、Gemini、DeepSeek、Mistral、xAI、Bedrock、OpenRouter 等多个模型,也可以部署在任何支持 Docker 的服务器上。

地址:https://github.com/stainlu/openclaw-managed-agents

Hermes WebUI:给长期工作的个人 Agent 加一个网页界面

这是一个给 Hermes Agent 用的自托管网页界面。作为可长期运行在服务器上的个人 Agent,Hermes Agent 支持记忆、Skill、定时任务等功能,可接收多平台消息作为输入;现在,Hermes WebUI 则是给这套能力加了一个显示器,让它在浏览器中直观被看到。

Hermes WebUI 的界面是三栏结构:左侧是管理会话,中间主要是聊天,右侧是工作区文件结构。有了这个 UI 界面,模型配置、profile、workspace、token 使用情况也都能在页面端直接看到了。

项目本身很轻量级,用 Python 和 JS 就能跑。

地址:https://github.com/nesquena/hermes-webui

DESIGN.md:让 AI 写前端时,不再乱用配色和风格

Google Labs 开源了 DESIGN.md,这是一个给 Coding Agent 用的设计规范格式。

作用简单,它把品牌色、字体、字号、间距、圆角、按钮样式、设计理念等前端实现内容,整理成一个 Markdown 文件,让 Codex、Claude Code、Cursor 这类 AI 编程工具按照约定生成对应前端页面。

以前 AI 写前端,每次都自由发挥,一会儿按钮是蓝的,一会儿背景又变成渐变紫,现在它可以按照我们的约定来生成页面风格和配色了。

DESIGN.md 还提供 CLI 工具,可以快速检查设计规范、对比版本变化,并导出成 Tailwind theme 或设计 token。

---
name: Heritage
colors:
  primary: "#1A1C1E"
  secondary: "#6C7278"
  tertiary: "#B8422E"
  neutral: "#F7F5F2"
typography:
  h1:
    fontFamily: Public Sans
    fontSize: 3rem
  body-md:
    fontFamily: Public Sans
    fontSize: 1rem
  label-caps:
    fontFamily: Space Grotesk
    fontSize: 0.75rem
rounded:
  sm: 4px
  md: 8px
spacing:
  sm: 8px
  md: 16px
---

## Overview

Architectural Minimalism meets Journalistic Gravitas. The UI evokes a
premium matte finish — a high-end broadsheet or contemporary gallery.

## Colors

The palette is rooted in high-contrast neutrals and a single accent color.

- **Primary (#1A1C1E):** Deep ink for headlines and core text.
- **Secondary (#6C7278):** Sophisticated slate for borders, captions, metadata.
- **Tertiary (#B8422E):** "Boston Clay" — the sole driver for interaction.
- **Neutral (#F7F5F2):** Warm limestone foundation, softer than pure white.

地址:https://github.com/google-labs-code/design.md

Browser Harness:让 AI 边上网、边工作的极简浏览器底座

Browser Use 团队开源了 Browser Harness,一个极简的浏览器控制框架。它直接基于 Chrome DevTools Protocol,让 LLM 可连接真实浏览器,完成网页操作任务。

它的有趣之处在于“self-healing”。如果 Agent 在执行任务时,发现现有工具不够用,比如缺少上传文件、点击某类元素、处理某个页面流程的函数,它可以自己修改 helpers.py,把缺的能力补上,然后继续执行任务。

项目非常轻量级,核心代码是几百行 Python。它不想提前写死网页任务规则,而是把更多自由度交给模型:遇到问题,就让 Agent 自己补工具、记流程、继续干。

地址:https://github.com/browser-use/browser-harness


Agent Skills:让 AI 编程助手学会“可复用技能”

Google Gemini 团队的 Addy Osmani 开源了一个面向 AI Coding 的技能包。它的核心思路很简单,让 AI 别一上来就写代码。

先明确需求,再拆解任务,挨个实现子任务,最后测试、审查、上线。

这个项目提供了 20 个 Skill,覆盖需求定义、任务拆解、增量开发、测试、调试、代码审查、安全、性能、CI/CD 和发布等环节。

地址:https://github.com/addyosmani/agent-skills

大厂动静

SpaceX 拟 600 亿美元收购 Cursor

有报道称,SpaceX 获得了在今年晚些时候以 600 亿美元收购 Cursor 的权利,即便最终不收购,也会选择支付 100 亿美元推进双方深度合作,共同打造面向编程和知识工作的 AI 系统。

苹果接班人话题升温,John Ternus 再次站到聚光灯下

苹果硬件工程负责人 John Ternus 被传将接替库克,成为下一代苹果公司领导人。以下为其 LinkedIn 页面:

John Ternus 作为 Mac 转向自研芯片过程中的关键人物之一,长期参与苹果硬件产品线管理。自 2001 年加入苹果,他负责过 iPhone、Mac、iPad、Apple Watch、AirPods、Vision Pro 等几乎所有核心硬件产品线。

Google 拟最高 400 亿美元投资 Anthropic

据 Reuters 报道,Google 母公司 Alphabet 将向 Anthropic 最高投资 400 亿美元,进一步加深与这家 AI 创业公司的合作。

Anthropic 表示,Google 已承诺先按 3,500 亿美元估值,向其投入 100 亿美元现金,用于支持其计算能力扩张;如果 Anthropic 达成相关业绩目标,Google 还将追加 300 亿美元投资。

Anthropic 与 Amazon 扩大合作,未来十年投入超 1,000 亿美元买算力

Anthropic 和 Amazon 宣布扩大合作,签署了一项新的算力协议。

根据协议,Anthropic 将在未来十年向 AWS 技术投入超过 1,000 亿美元,来获得最高 5GW 的算力容量,用于训练和部署 Claude。这次合作覆盖 Amazon 自研芯片 Graviton、Trainium2 到 Trainium4。

除了算力合作之外,Amazon 还将继续加码投资 Anthropic:本次新增投资 50 亿美元,未来最多还可追加 200 亿美元。此前,Amazon 已经向 Anthropic 投资 80 亿美元。

FILCO 机械键盘成为过去式,厂商倒闭黯然离场

陪伴了一代代程序员的老牌机械键盘 FILCO 本周宣布终止全部经营活动。如果你手头还持有经典圣手系列,那它可能会成为绝版。

黑话梗图

ChatGPT 示范图

上图由 ChatGPT 官方给出,随后网友基于此生成了大量自己的“Stay curious”图。(向左滑,查看网友生成图

以下为网友制作的梗图,希望你能轻松愉悦地度过这一周:

相关文章
|
9天前
|
人工智能 开发工具 iOS开发
Claude Code 新手完全上手指南:安装、国产模型配置与常用命令全解
Claude Code 是一款运行在终端环境中的 AI 编程助手,能够直接在命令行中完成代码生成、项目分析、文件修改、命令执行、Git 管理等开发全流程工作。它最大的特点是**任务驱动、终端原生、轻量高效、多模型兼容**,无需图形界面、不依赖 IDE 插件,能够深度融入开发者日常工作流。
3136 8
|
12天前
|
Shell API 开发工具
Claude Code 快速上手指南(新手友好版)
AI编程工具卷疯啦!Claude Code凭借任务驱动+终端原生的特性,成了开发者的效率搭子。本文从安装、登录、切换国产模型到常用命令,手把手带新手快速上手,全程避坑,30分钟独立用起来。
3198 20
|
5天前
|
人工智能 Linux BI
国内用 Claude Code 终于不用翻墙了:一行命令搞定,自动接 DeepSeek
JeecgBoot AI专题研究 一键脚本:Claude Code + JeecgBoot Skills + DeepSeek 全平台接入 一行命令装好 Claude Code + JeecgBoot Skills + DeepSeek 接入,无需翻墙使用 Claude Code,支持 Wind
2129 3
国内用 Claude Code 终于不用翻墙了:一行命令搞定,自动接 DeepSeek
|
24天前
|
人工智能 JSON 供应链
畅用7个月无影 JVS Claw |手把手教你把JVS改造成「科研与产业地理情报可视化大师」
LucianaiB分享零成本畅用JVS Claw教程(学生认证享7个月使用权),并开源GeoMind项目——将JVS改造为科研与产业地理情报可视化AI助手,支持飞书文档解析、地理编码与腾讯地图可视化,助力产业关系图谱构建。
23591 15
畅用7个月无影 JVS Claw |手把手教你把JVS改造成「科研与产业地理情报可视化大师」
|
1天前
|
人工智能 自然语言处理 文字识别
阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
Qwen3.7-Max是阿里云百炼面向智能体时代推出的新一代旗舰模型,对标GPT-5.5、Claude Opus 4.7等闭源旗舰。该模型支持百万级token上下文窗口,具备顶级推理能力、多模态搜索与视觉理解增强、流式输出低延迟响应等核心优势,覆盖编程、办公、长周期自主执行等复杂场景。同时支持OpenAI接口兼容,便于系统快速迁移。用户可通过Token Plan团队版、Coding Plan或节省计划等订阅方式灵活调用,适合企业级高要求场景使用。
|
11天前
|
人工智能 JSON BI
DeepSeek V4-Pro 接入 Claude Code 完全实战:体验、测试与关键避坑指南
Claude Code 作为当前主流的 AI 编程辅助工具,凭借强大的代码理解、工程执行与自动化能力深受开发者喜爱,但原生模型的使用成本相对较高。为了在保持能力的同时进一步降低开销,不少开发者开始寻找兼容度高、价格更友好的替代模型。DeepSeek V4 系列的发布带来了新的选择,该系列包含 V4-Pro 与 V4-Flash 两款模型,并提供了与 Anthropic 完全兼容的 API 接口,理论上只需简单修改配置,即可让 Claude Code 无缝切换为 DeepSeek 引擎。
2645 3
|
3天前
|
人工智能 自然语言处理 安全
Claude Code 全攻略:命令大全+三种模式+记忆体系+实战工作流完整手册
Claude Code 是当前最流行的终端级 AI 编程助手,能够直接在命令行中完成代码生成、项目理解、文件修改、命令执行、错误修复等全流程开发工作。它不依赖图形界面、不占用额外资源,却能深度理解项目结构,自动生成规范代码,大幅提升研发效率。
771 2
|
10天前
|
人工智能 安全 开发工具
Claude Code 官方工作原理与使用指南
Claude Code 不是传统代码补全工具,而是 Anthropic 推出的终端 AI 代理,具备代理循环、双驱动架构(模型+工具)、全局项目感知、6 种权限模式等核心能力,本文基于官方文档系统解析其工作原理与高效使用技巧。
1443 0

热门文章

最新文章