review-verdict-revise-verify:语义也需要一道闸门

简介: 本文提出“语义闸口”理念:在AI生成Web UI的流程中,将负载安全逻辑从模型移至确定性编排,通过模式库、契约库与验证工具集三层Harness,锁住语义边界——确保“意思不漂移、样式可演进”,实现端到端可信。(239字)

Wu 等(2026)在论文审查领域做了一个闭环系统:

review → verdict → revise → verify

论文提交后,先审查、再裁决、再修订、再验证——四轮之后才允许进入下一环节。

这个闭环的核心设计,不是让 AI 自由裁量。

而是把**"负载承载的安全逻辑"从模型手里拿走,放到确定性编排**中。


一、审查可以交给 Agent,但裁决不能

审查可以交给 Agent。

判断可以交给 Agent。

修复也可以交给 Agent。


但——

什么时候停止?
什么时候阻断?
什么绝对不能改?


这些由硬逻辑说了算。

不由模型说了算。


这意味着:概率性生成的不确定性,被确定性规则锁在边界之内。Agent 在边界里面发挥理解力,边界本身不容谈判。


二、Code-Text-Code 的启示

《Specification-Based Code-Text-Code Reengineering》在代码层验证了一件事:

在转换链条中插入一层受控的规范层,把意思和语法解耦。

源代码和目标代码的语法完全不同,但中性文本规范把"意思"固定下来——无论怎么转换,意思不会漂移。


我在语义层做同样的事。

设计意图 → 语义契约 → Agent 生成 Web UI


设计意图是设计师脑子里的"这个场景下不能做什么":

  • 删除账户必须是红色空心
  • 必须二次确认
  • 文案必须说明不可恢复

Agent 生成 Web UI 时,样式可以变,框架可以变,但语义必须先被规范锁住。


两者都在做同一件事:在生成之前,先把意思固定下来。

论文用自然语言规范来解耦代码语法和代码语义。我用 YAML 语义契约来解耦 Web UI 样式和 Web UI 语义。


样式可以变,但语义必须被规范锁住。

不能变的(硬逻辑)

可以变的(AI Agent)

Critical 不能变成严重

文案措辞可以微调

删除不能变成确认

按钮大小可以调整

四种错误不能共用同一种红色

动画效果可以替换


三、Agent = Model + Harness

阿里云原生在拆解 Agent 底座时,给了一个等式:

Agent = Model + Harness

Model 是大脑。Harness 是缰绳。


没有 Harness 的 Agent 是脱缰的——它能跑,但不知道往哪跑,更不知道什么不能跑。

这比"安全对齐"更诚实。安全对齐试图让模型"自己知道什么该做、什么不该做",但概率性生成的不确定性决定了,模型不可能 100% 自律。


Harness 不依赖模型的自律。它在外部给模型套上一层规矩——

你不需要懂为什么,你只需要按规矩执行。


Harness 的核心是约束基建。规矩必须:

  • 可审计——写了什么、什么时候改的、谁改的,有迹可循
  • 可进化——业务变了,规矩跟着变,版本化管理,Diff 可见


阿里云在业务逻辑层和数据层做了这件事。

但当 Agent 的输出流向 Web UI 时,约束链断了。


四、约束链的断层

想象一条流水线:

数据层定义了字段语义
业务层定义了规则语义
策略层定义了模型标签语义
Agent 生成了一段文案、一个按钮、一个错误提示
用户看到了


数据层有约束:status_code=500 → "服务器错误"

业务层有约束:"服务器错误" → 值班员立即响应

策略层有约束:"Critical" → 情绪权重最高


但到生成 Web UI 这一步,约束链断了。


Agent 把 status_code=500 渲染成界面时,可能写成:

  • "Something went wrong"(语义降级)
  • 按钮做成蓝色实心(样式错误)
  • 四种错误全部用红色(分级缺失)

后端的规矩再严密,语义层没有约束,等于零。

这不是前端的锅。前端按设计稿实现了,设计稿按规范画了,但规范写在文档里,Agent 生成内容时没读。


Agent 按概率生成,每次输出的文案、颜色、样式可能不同——语义在生成过程中漂移了。

约束链止于业务逻辑层,语义层是空白。

这是端到端可信的缺口。


五、语义闸口:在转换链条中插入受控的规范层

这个解耦方法在语义层有三个实现环节。

发现意思在哪里可能跑偏——模式库

不是截图记笔记。

是按组件类型做结构化归档:

组件类型

语义属性

典型漂移

Alert

type: success/info/warning/error

多种错误共用红色

Button

type + danger + ghost

高危操作做成普通样式

Modal

type: confirm/info/success/error

拒绝和终止混为一谈

Progress

status: wait/process/finish/error

阶段标签模糊

当 Agent 生成的输出与组件手册中的语义定义出现偏差时,记录为模式。


把意思写成机器能懂的规矩——契约库

规矩不是写在文档里让人读。

是写在代码里让机器执行。

# contract/ACT-001.yaml
组件: Button
组件手册依据:
  Props:
    - type: primary / default / dashed / link / text
    - danger: true / false
    - ghost: true / false
绝对不能碰的红线:
  - 禁止: semantic_domain=destructive 时,type 不是 primary 或 danger=false
  - 禁止: 缺少 Modal.confirm 二次确认
颜色背后的意思:
  destructive_action:
    组件手册映射:
      Button: { type: "primary", danger: true, ghost: true }
      Modal: { type: "confirm", okType: "danger" }

删除按钮的 type 必须是 primarydanger 必须是 trueghost 必须是 true——这些不是建议,是约束。

契约买的不是"生成能力",是**"可审查性"**。


证明意思没有被跑偏——验证工具集

输入一段文案或 Web UI 描述,自动判断是否符合契约,给出通过/不通过。

不是人眼走查,是机器自动审查。

不是"感觉好多了",是有明确的测试标准和通过准则:

  • 单元测试:单组件语义合规性 → 准确率 ≥ 90%
  • 集成测试:多组件语义一致性 → 100% 匹配
  • 回归测试:规范迭代后兼容性 → 通过率 100%


三个环节叠加,形成语义层的 Harness:

发现漂移(模式库)
裁决契约(契约库)
修订生成(Prompt 注入)
验证锁定(验证工具集)

意思在生成之前被固定,样式在规范之内被允许漂移。

这才是端到端可信——从决策到呈现,每一层都有约束、每一层都可审计。


六、为什么现在必须做

以前 Web UI 是人画的。

设计师画什么,前端做什么,语义不会变。

现在 Web UI 是 Agent 生成的。

同一个需求,Agent 每次生成的文案、颜色、样式可能不同——语义一致性从"确定性"变成了"概率性"。


传统设计系统管的是像素级一致性:

  • 颜色
  • 字体
  • 间距


但 Agent 生成时,像素对了,语义可能错了:

像素对了

语义错了

颜色是红色

但四种错误全部用红色,没有分级

文案是中文

但 Critical 变成了严重,情绪降级

按钮有圆角

但删除做成了蓝色实心,没有二次确认

这些不是视觉回归能捕获的问题。

视觉回归检查"长什么样"。

语义闸口检查"意味着什么"。


Agent 时代,约束基建必须从业务逻辑层延伸到语义层。

否则后端的规矩再严密,Web UI 的语义没有闸口,用户看到的仍然是"意思跑偏了"的界面。


一句话

Agent = Model + Harness。

Harness 不能只套在业务逻辑层,必须延伸到语义层——从决策到呈现,每一层都有约束、每一层都可审计。

review-verdict-revise-verify 的闭环不是论文审查专属,是任何概率性生成系统的通用原则:负载承载的安全逻辑,必须放在确定性编排中。

语义也需要一道闸门。

相关文章
|
9天前
|
缓存 测试技术 API
Qwen 3.7 Plus 与 Max 实测:性价比与多模态能力差异解析(2026)
2026 年 6 月 1 日,阿里悄无声息地发布了 Qwen 3.7 Plus,距 Qwen 3.7 Max 上线刚好 11 天。同样的 1M 上下文,同样的 35 小时自治上限。但价格才是头条:Plus 是 0.40/M输入,Max是 2.50/M——便宜约 6 倍——并且还能看图、看视频。Vision Arena 上 Plus 已经排到 #16。所以这周真正值得讨论的问题不是”要不要为视觉能力买单”,而是”Max 凭什么用 6 倍价格换来 2 个百分点的 benchmark 领先”。
|
10天前
|
JavaScript 定位技术 API
CodeGraph 爆火:编程 Agent 需要的不是更多上下文,而是一张提前画好的代码地图
CodeGraph 是一款爆火的本地代码智能工具,通过 tree-sitter 解析 AST 构建结构化知识图谱(存于 SQLite),为编程 Agent 提前生成“代码地图”。它显著降低 Agent 在中大型项目中的探索成本——实测工具调用减少71%、Token 降57%、速度提升46%,支持19+语言及主流框架路由识别,完全离线、无需 API Key。
779 11
CodeGraph 爆火:编程 Agent 需要的不是更多上下文,而是一张提前画好的代码地图
|
10天前
|
人工智能 运维 JavaScript
阿里云Qoder CN(原通义灵码)全解析 产品形态、版本划分与技术适配说明
在AI辅助开发与智能办公工具持续普及的当下,阿里云旗下原通义灵码正式更名为Qoder CN,同时延伸出QoderWork CN、Qoder CN CLI、Qoder CN Mobile等多款配套产品,形成覆盖代码开发、日常办公、终端交互、移动端使用的完整工具矩阵。Qoder CN核心定位为AI智能编码助手,深度适配主流代码编辑器、集成开发环境以及终端场景;QoderWork CN则偏向桌面端综合办公辅助,二者面向不同使用场景,划分了多个版本档位,搭配差异化资源配额、功能权限与计费规则,同时兼容多款主流大模型。
806 7
|
10天前
|
存储 安全 Java
AgentScope Java 2.0:打造分布式、企业级智能体底座
AgentScope 2.0 面向分布式部署、稳定运行、权限安全等企业级需求全面升级,打造支持多租户隔离与长期稳定运行的企业级智能体底座。
|
10天前
|
JSON 缓存 安全
通过 CC Switch 本地路由让 Codex CLI 接入 DeepSeek 等第三方模型
CC Switch 通过本地路由(`127.0.0.1:15721`)实现协议转换:将 Codex 的 Responses API 请求自动映射为 DeepSeek 等厂商的 Chat Completions 接口,兼容流式响应与工具调用,无需修改 Codex 源码,安全隔离 API Key。(239字)
2149 4
通过 CC Switch 本地路由让 Codex CLI 接入 DeepSeek 等第三方模型
|
10天前
|
人工智能 弹性计算 安全
阿里云618活动时间、活动入口、优惠活动详细解读
2026年阿里云618创新加速季已全面开启,作为年度力度最大的云产品促销活动,本次大促覆盖轻量应用服务器、ECS云服务器、GPU云服务器、数据库、AI算力、安全服务、CDN等全品类产品,推出5亿元算力补贴、新用户限时秒杀、普惠满减、企业专享、免费试用、云大使返佣等多重福利,个人开发者、中小企业、AI团队均可享受专属低价。本文将系统梳理2026年阿里云618活动的完整时间节点、官方参与入口、各类优惠细则、使用规则、热门产品推荐及实操代码,帮助用户精准参与、高效省钱,以最低成本完成上云部署。
1838 6
|
10天前
|
数据采集 人工智能 前端开发
让 Coding Agent 从黑盒到透明:阿里云 Agent 观测审计数据采集实践
AI Agent 规模化落地带来执行黑盒、行为难追溯、成本难度量三大难题。阿里云基于 OTel 标准,面向 Coding Agent、个人通用助理和框架型 Agent,推出 LoongSuite Pilot、插件及探针等无侵入采集方案,让 Agent 实现可看见、可分析、可审计、可治理。
774 153
|
10天前
|
人工智能 运维 自然语言处理
阿里云百炼Qwen3.7-Max模型详解:综合能力、核心优势与订阅计划参考指南
2026年,大模型技术持续向通用化、高性能、场景化方向迭代,阿里云百炼作为一站式大模型服务平台,持续推出迭代升级的模型产品,Qwen3.7-Max便是当前主力旗舰级大模型之一。该模型依托深度优化的底层架构与大规模训练数据,在文本理解、逻辑推理、多模态交互、代码生成、长文本处理等多个维度实现能力升级,同时搭配灵活的订阅计划体系,能够适配个人开发者、中小企业、大型企业、政企机构等不同类型用户的使用需求。
628 2

热门文章

最新文章