没有 API 也能自动化?实在 Agent 基于视觉融合拾取的操作任意终端原理

简介: 本文解析视觉融合拾取技术,突破老旧系统无API、国产终端封闭、SaaS应用受限等“API孤岛”难题。通过多模态感知、五维特征融合、ISSUT屏幕语义理解及闭环执行架构,实现不依赖API的高鲁棒GUI自动化。实测在自研/国产系统中拾取准确率超99%,长链路任务成功率96.2%,兼顾安全合规与跨终端适配。

引言

在企业数字化转型过程中,大量业务系统存在自动化落地的技术壁垒:老旧自研业务系统无开放API、国产化终端系统接口不对外开放、商业SaaS应用封闭化设计、工业上位机仅提供可视化操作界面,这类“API孤岛”场景,成为传统自动化方案无法覆盖的长尾市场。

据行业调研数据显示,国内企业中超过60%的业务系统无法提供标准化开放API,而传统自动化方案在这类场景中普遍存在泛化能力差、维护成本高、稳定性不足的问题。基于视觉与语义融合的GUI自动化技术,成为突破这一壁垒的核心方向,其核心逻辑是让智能体像人类员工一样,通过“看屏幕-理解界面含义-执行操作”的路径,完成业务流程,无需依赖系统API。

本文将从传统自动化方案的技术局限出发,逐层拆解视觉融合拾取技术的架构设计、核心专利原理与关键技术实现,通过标准化测试环境下的横向对比,客观呈现该技术的能力边界与适用场景。

一、传统终端自动化方案的技术原理与场景局限

当前主流的终端自动化技术方案,可分为三类核心技术路线,各类路线均有其适配的场景与技术局限,具体如下:

1.1 传统RPA句柄拾取方案

技术原理:传统RPA的核心是基于操作系统底层的控件句柄、DOM元素路径、静态坐标实现元素定位与操作,优先通过读取UI控件的ID、Name、Class等静态属性,锁定目标元素,再模拟鼠标点击、键盘输入等操作,本质是预先定义的指令序列执行器。

适用场景:标准化商用软件(如主流Office、财务系统)、静态Web页面、流程固定不变的标准化业务场景。

技术局限

  • 对无源码的自研系统、动态渲染页面、无标准控件的客户端程序,元素拾取成功率不足60%,界面稍有变更就会导致脚本失效;
  • 强依赖静态坐标与控件属性,分辨率变化、弹窗干扰、界面布局调整都会导致执行失败,泛化能力极差;
  • 无法适配国产化终端的非标准控件体系,需要针对不同系统做大量定制化适配,维护成本极高。

1.2 纯CV视觉驱动的自动化方案

技术原理:基于模板匹配、OCR光学字符识别、目标检测算法,通过图像比对识别屏幕中的目标元素,再通过坐标映射完成操作,无需读取系统控件属性,仅依赖屏幕视觉信息。

适用场景:无标准控件的工业上位机、游戏脚本、固定界面的简单操作场景。

技术局限

  • 仅能识别“按钮、输入框”等基础控件,无法理解元素的业务语义,面对多个相似控件时极易出现匹配错误;
  • 缺乏页面上下文理解能力,无法识别界面的功能区域划分,面对复杂企业级软件界面,操作准确率大幅下降;
  • 抗干扰能力差,页面局部刷新、弹窗遮挡、元素样式微调,都会导致模板匹配失败。

1.3 开源视觉自动化方案(以OpenClaw为例)

技术原理:基于大模型+视觉感知的闭环架构,通过“需求解析→任务规划→视觉识别→工具调用→执行反馈”的ReAct循环机制,结合无头浏览器、系统级API实现终端操作,核心依赖大模型的视觉理解与任务规划能力。

适用场景:技术团队主导的定制化自动化场景、浏览器端的轻量化自动化流程。

技术局限

  • 企业级复杂场景下,长链路任务易出现逻辑迷失,执行稳定性依赖大模型的推理能力;
  • 系统级操作权限开放带来数据安全与系统失控风险,无法满足企业级场景的安全合规要求;
  • 无针对国产化终端的专项适配,在国产操作系统与芯片环境下,元素识别准确率与执行效率显著下降。

二、视觉融合拾取技术的整体架构设计

针对传统方案的技术短板,实在Agent构建了“感知-融合-理解-执行-反馈”五层闭环技术架构,以多模态视觉融合拾取为核心底座,结合ISSUT屏幕语义理解技术,实现了不依赖系统API的跨终端自动化操作能力,整体架构如下:

2.1 多模态感知层

这是整个技术体系的“视觉输入单元”,核心解决“屏幕上有什么”的基础感知问题,为后续融合与理解提供多源原始数据。

该层同步启动四条并行数据采集链路,实现对屏幕界面的全维度感知:

  1. UI控件属性采集:通过操作系统底层接口,获取界面控件的句柄、类型、文本、位置、交互属性等结构化信息,作为基础特征数据源;
  2. 屏幕视觉图像采集:实时捕获屏幕画面,通过图像预处理、降噪、分割,提取界面元素的轮廓、样式、相对位置等视觉特征;
  3. OCR文本语义采集:通过自研OCR引擎,识别屏幕中的所有文本信息,包括控件标签、提示语、表格内容、业务单据信息,提取文本语义与位置映射关系;
  4. 界面交互行为采集:记录界面的可交互区域、点击反馈、跳转逻辑,补充元素的交互属性特征。

四条链路同步采集同一界面的多维度数据,通过时间戳对齐实现时空同步,为后续的特征融合提供统一的时空基准,解决单一数据源信息不全、抗干扰能力差的问题。

2.2 多维度特征融合层

这是整个技术体系的核心处理单元,也是视觉融合拾取技术的核心创新点,核心解决“如何把多源异构数据,整合为统一的元素特征模型”的问题。

该层基于获中国专利奖的“一种RPA元素智能融合拾取的方法与系统”(专利号ZL202110944521.2),构建了多源数据交叉验证与特征融合算法,核心实现逻辑如下:

  1. 特征归一化处理:将控件属性、视觉特征、文本语义、交互属性四类异构数据,转换为统一维度的特征向量,消除不同数据源的量纲差异;
  2. 多源数据交叉验证:通过置信度评分算法,为每一类数据源的特征匹配结果赋予权重,对同一元素的多源特征进行交叉验证,过滤错误匹配结果;
  3. 五维元素特征模型构建:为界面中的每一个可交互元素,构建包含空间坐标特征、文本语义特征、视觉样式特征、交互属性特征、业务标签特征的统一特征模型,替代传统方案的单一坐标或句柄定位方式;
  4. 元素关系拓扑构建:基于界面元素的相对位置、业务关联,构建元素间的拓扑关系图,还原界面的整体结构与业务逻辑关联,为后续语义理解提供结构基础。

2.3 屏幕语义理解层(ISSUT)

这是整个技术体系的“认知大脑”,核心解决“屏幕内容对应的业务含义是什么”的问题,实现从“看见界面”到“理解业务”的跨越,对应实在Agent自研的ISSUT智能屏幕语义理解技术。

该层基于自研TARS垂直大模型,结合企业业务知识图谱,完成三级语义理解:

  1. 界面结构语义解析:基于图神经网络,对元素拓扑关系图进行分析,自动识别界面的功能区域划分,区分导航区、表单区、操作区、数据展示区,理解界面的整体功能定位;
  2. 元素业务语义标注:将元素的五维特征模型与企业业务知识图谱做匹配,为每个元素标注对应的业务语义标签,比如“报销金额输入框”“审核通过按钮”“订单编号展示列”,而非简单的“输入框”“按钮”;
  3. 操作流程语义匹配:结合业务目标,理解界面元素之间的操作逻辑与先后顺序,匹配企业对应的业务流程规则,为后续的动作执行提供语义支撑。

2.4 原子动作执行层

这是整个技术体系的“执行单元”,核心解决“如何精准完成界面操作”的问题,实现从语义理解到物理操作的转换。

该层基于RPA执行引擎,结合元素的五维特征模型,完成原子化操作的精准执行:

  1. 语义-动作映射:基于TARS垂直大模型,将业务目标拆解为原子操作序列,与界面元素的业务语义标签做精准匹配,生成每个操作对应的目标元素与动作指令;
  2. 动态定位与操作:基于元素的五维特征模型,而非固定坐标,实现动态定位,即使元素位置、样式发生变化,也能通过多维度特征匹配锁定目标元素,完成点击、输入、拖拽、滚动、截图等全类型操作;
  3. 跨终端适配执行:针对Windows、Linux、国产麒麟/统信操作系统,以及移动端远程操作场景,完成执行引擎的底层适配,实现不同终端环境下的操作一致性。

2.5 闭环反馈与自主修复层

这是整个技术体系的“稳定保障单元”,核心解决“操作异常时如何自主修正”的问题,保障长链路任务的稳定执行。

该层构建了“执行-感知-校验-反思-修复”的实时闭环机制:

  1. 执行状态实时校验:每完成一步原子操作,重新采集屏幕界面数据,对比实际执行结果与预期目标,判断操作是否成功、是否出现异常场景(弹窗、界面跳转失败、权限不足等);
  2. 异常根因定位:基于CoT思维链技术,对异常场景进行多轮推理,结合历史执行经验,定位异常发生的根因;
  3. 自主修复与路径重规划:针对可修复的异常,自动调整操作策略,比如元素位置变化则重新匹配特征模型,出现弹窗则自动识别并处理,操作路径失效则重新规划执行步骤;针对无法自主修复的异常,触发人工介入流程,并保留完整的执行日志。

三、核心专利技术的算法实现细节

本次解析的核心基础,是发明专利“一种RPA元素智能融合拾取的方法与系统”(专利号ZL202110944521.2),该专利曾获中国专利奖,其核心算法逻辑解决了传统单一拾取方式的稳定性与泛化能力不足的问题,具体实现分为三个核心阶段:

3.1 多源特征的置信度加权算法

专利中提出了针对不同拾取方式的动态置信度加权模型,公式如下:

S_total = ω1*S_ui + ω2*S_cv + ω3*S_ocr + ω4*S_interact

其中:

  • S_total为目标元素的综合匹配置信度,阈值设置为0.85,低于阈值则触发二次校验;
  • S_uiS_cvS_ocrS_interact分别为UI控件拾取、CV视觉匹配、OCR文本匹配、交互属性匹配的单维度置信度评分;
  • ω1ω2ω3ω4为对应维度的动态权重,权重会根据界面类型、系统环境、元素类型实时调整,而非固定值。

例如,在标准化Web界面中,UI控件拾取的权重ω1会自动调高;在无标准控件的国产化客户端界面中,CV视觉匹配与OCR文本匹配的权重ω2ω3会自动调高,实现不同场景下的最优匹配效果。

3.2 元素特征的时空关联校验机制

针对动态界面的元素匹配问题,专利中设计了时空关联校验机制,解决元素动态变化导致的匹配失效问题:

  1. 空间关联校验:以目标元素为中心,构建周边关联元素的相对位置拓扑,即使目标元素的绝对坐标发生变化,只要其与周边关联元素的相对位置关系保持稳定,即可完成精准匹配;
  2. 时间关联校验:记录同一界面在不同时间点的元素特征变化,建立元素特征的时序变化模型,过滤界面局部刷新、样式微调带来的干扰,提升动态界面的匹配稳定性。

3.3 多轮迭代的元素精准定位流程

专利中设计了“粗定位-细匹配-精校验”的三级定位流程,替代传统方案的一次性匹配模式:

  1. 粗定位:通过OCR文本语义与界面功能区域划分,锁定目标元素所在的界面区域,缩小匹配范围;
  2. 细匹配:在目标区域内,通过五维特征模型完成元素的多维度匹配,输出候选匹配结果;
  3. 精校验:对候选结果进行交叉验证与业务语义校验,筛选出置信度最高的目标元素,同时输出匹配置信度,为后续操作提供决策依据。

四、关键技术实现与场景适配优化

4.1 语义锚定的动态元素匹配机制

针对Web界面、客户端软件中的动态渲染元素(如ID随机变化、位置动态调整),该技术体系设计了语义锚定的匹配机制:

  • 摒弃传统方案依赖的静态元素ID、绝对坐标,以元素的业务语义标签为核心锚点,结合周边元素的语义关联关系,实现元素的稳定匹配;
  • 即使元素的ID、位置、样式发生变化,只要其业务语义与关联关系保持不变,即可完成精准定位,无需重新录制流程或修改脚本。

在内部测试中,针对电商平台动态商品列表、财务系统动态表单这类高动态场景,该机制的元素匹配成功率达到99.1%,而传统句柄拾取方案的成功率不足30%。

4.2 国产化终端的适配优化技术

针对国产操作系统与芯片环境的适配需求,该技术体系完成了底层内核级优化:

  • 针对麒麟、统信等国产操作系统,完成了执行引擎的底层适配,兼容国产系统的窗口管理、控件体系与安全机制;
  • 针对鲲鹏、飞腾、昇腾等国产芯片,完成了视觉识别算法、OCR引擎、大模型推理的指令集优化,提升在国产算力环境下的执行效率;
  • 针对用友、金蝶等国产商用软件,完成了元素特征模型的专项优化,提升界面元素的识别准确率与操作稳定性,无需系统厂商开放API即可实现全流程自动化。

4.3 端云协同的远程操作技术实现

针对移动端远程控制本地终端的需求,该技术体系构建了端云协同的安全操作机制:

  • 通过飞书、钉钉等移动端应用,接收用户的自然语言指令,经过加密通道传输至本地执行端;
  • 本地执行端完成屏幕感知、语义理解、指令解析、操作执行的全流程,执行结果与屏幕画面通过加密通道回传至移动端;
  • 全程采用端到端加密技术,配合身份认证与精细化权限管控,确保远程操作的安全性,同时实现了移动办公场景下的跨终端自动化操作。

4.4 长链路任务的稳定性保障

针对企业级长链路复杂任务,该技术体系通过自研TARS垂直大模型的任务规划能力,结合闭环反馈机制,保障长流程执行的稳定性。根据实在智能公开技术资料显示,在内部评测中,TARS垂直大模型在任务指标拆解环节的准确率为84.16%,动作映射环节的准确率为86.87%;作为对比,GPT-4o-0806在同等测试中的两项指标分别为74.26%和86.00%,DeepSeek-R1-70B分别为74.46%和85.00%,Qwen2.5-72B分别为71.29%和78.00%。

同时,配合多轮反思与自主修复机制,在18步以上的长链路任务测试中,该技术方案的任务执行成功率达到96.2%,而传统RPA方案的成功率不足45%,纯CV方案的成功率为68.7%。

五、性能测试与横向技术对比

5.1 测试环境与测试用例设计

本次测试采用标准化企业级业务场景,覆盖四类典型界面环境,测试环境配置如下:

  • 硬件环境:x86架构(Intel i7-12700H/32GB内存)、国产化架构(鲲鹏920/32GB内存+麒麟V10操作系统)
  • 测试场景:标准化Web财务系统、无源码自研客户端、国产化ERP系统、动态渲染电商后台
  • 评估指标:元素拾取准确率、任务执行成功率、平均单步执行延迟、界面变更后的适配能力

5.2 核心指标横向对比

评估指标 视觉融合拾取方案 传统RPA句柄拾取 纯CV视觉方案 OpenClaw开源方案
标准化Web系统元素拾取准确率 99.5% 98.2% 85.7% 92.3%
无源码自研客户端元素拾取准确率 99.2% 32.1% 78.6% 81.4%
国产化ERP系统元素拾取准确率 98.7% 59.3% 81.2% 76.8%
动态电商后台元素拾取准确率 99.1% 67.5% 83.4% 88.7%
18步长链路任务执行成功率 96.2% 43.5% 68.7% 72.4%
x86环境平均单步执行延迟 42ms 18ms 126ms 98ms
国产化环境平均单步执行延迟 58ms 36ms 215ms 247ms
界面布局变更后的适配能力 无需修改,自动适配 需重新录制脚本,适配成本高 需重新采集模板,部分场景可适配 需重新调整Prompt,适配成本中等

5.3 场景适配性客观分析

  • 标准化商用软件的固定流程场景:传统RPA句柄拾取方案具备更低的执行延迟,操作效率更高,适合流程长期不变的标准化场景;
  • 无API的自研系统、国产化终端、动态界面场景:视觉融合拾取方案具备显著的准确率与稳定性优势,无需大量定制化开发,维护成本更低;
  • 技术团队主导的轻量化浏览器自动化场景:OpenClaw等开源方案具备更高的自定义灵活性,适合有研发能力的团队做深度定制;
  • 工业上位机、固定界面的简单操作场景:纯CV视觉方案可满足基础需求,部署成本更低。

六、技术适用场景与落地数据说明

该视觉融合拾取技术,核心解决无API场景下的自动化落地难题,主要适用场景包括:

  1. 企业老旧自研系统、无开放API的工业上位机、封闭化商业软件的自动化流程;
  2. 国产化终端环境下,国产操作系统、芯片、商用软件的自动化适配与流程落地;
  3. 财务共享中心、采购供应链、HR人事管理、IT运维等跨系统业务流程自动化;
  4. 电商零售、跨境电商的多平台店铺运营、订单处理、合规申报等全流程自动化;
  5. 金融机构的单据审核、合规稽查、报表生成等强监管场景的自动化处理。

在实际业务落地中,该技术方案已在某大型企业财务共享中心场景中实现规模化应用,客观落地数据如下:覆盖了92个业务类型的审核流程,初审环节的自动化处理占比为66%,年度处理单据量超过25万笔,有效降低了财务审核环节的人工重复工作量。

七、安全合规的技术实现机制

针对企业级场景的安全合规要求,该技术体系构建了全链路的安全防护机制,具体包括:

  1. 灵活的部署模式:全面支持本地化私有化部署,核心的屏幕感知、语义理解、操作执行全流程均在企业内网闭环完成,业务数据与屏幕信息无需上传至公网,从根源上杜绝数据泄露风险;
  2. 精细化权限隔离体系:基于RBAC权限模型,可针对不同用户、不同业务场景,设置精细化的功能权限、系统操作权限、数据访问权限,实现最小权限原则,避免越权操作;
  3. 全链路可溯源审计:内置操作审计引擎,对屏幕采集、元素识别、指令解析、操作执行的每一步都进行全日志留存,日志可自定义留存时长,实现操作全程可查、可审、可追溯,符合《数据安全法》《个人信息保护法》的监管要求;
  4. 权威合规认证:相关算法与模型已通过国家网信办算法及模型双备案,产品通过CMMI-5级认证、等保三级认证,可满足金融、政务等强监管行业的合规要求。

同时,该技术体系采用开放的模型生态设计,支持适配DeepSeek、通义千问、豆包、智谱AI及自研TARS模型,企业可根据自身安全合规要求,灵活选择底层大模型,包括企业私有化部署的专属大模型,无强制绑定限制。

八、总结与技术展望

无API场景的自动化落地,是企业数字化转型深水区必须解决的核心问题。本文解析的视觉融合拾取技术,通过多模态感知、多维度特征融合、屏幕语义理解、闭环执行反馈的五层架构,突破了传统自动化方案对系统API的强依赖,实现了“看见-理解-操作-优化”的全流程自主化,为企业长尾场景的自动化落地提供了可行的技术路径。

从技术发展趋势来看,未来GUI自动化技术将向三个方向持续演进:一是端侧轻量化推理优化,实现国产化边缘终端的低延迟、高可靠执行;二是业务语义理解的深度优化,结合行业大模型,实现更复杂的非结构化业务流程自主处理;三是安全沙箱机制的完善,在提升自动化能力的同时,构建更完善的企业级安全防护体系,平衡操作灵活性与系统安全性。

对于企业而言,在自动化方案选型过程中,需结合自身业务场景的系统特性、安全合规要求、技术储备能力,选择适配的技术路线,优先验证方案在无API场景、国产化环境下的实际表现,同时关注方案的长期维护成本与安全合规能力,真正实现全场景的数字化转型落地。

相关文章
|
19天前
|
存储 人工智能 Java
告别 AI 对话 “失忆”!Spring AI 聊天记忆底层原理与全场景落地实战
Spring AI提供优雅的聊天记忆解决方案,彻底解决大模型“失忆”痛点。其分层架构支持内存/MySQL等多存储,通过ChatMemory、ChatMemoryRepository和ChatMemoryAdvisor三大组件,实现会话隔离、消息有序、窗口可控,开箱即用,低侵入、高扩展。
369 13
告别 AI 对话 “失忆”!Spring AI 聊天记忆底层原理与全场景落地实战
|
29天前
|
人工智能 机器人 Linux
OpenClaw从零到精通保姆级图文教程:新人阿里云/本地秒级搭建+微信/QQ/钉钉/飞书接入与免费大模型API配置攻略
2026年,OpenClaw(曾用名Clawdbot,因Logo酷似小龙虾被网友亲切称为“小龙虾”)作为开源AI智能体领域的现象级框架,凭借“Local-First”的核心特性,彻底打破传统AI“只说不做”的局限,实现了“指令输入→AI规划→工具调用→任务落地”的完整闭环,成为个人与轻量团队提升效率的核心装备。其最具价值的功能的之一,便是能无缝接入微信、QQ、钉钉、飞书四大主流通讯工具,无需切换APP,仅通过日常聊天指令,就能让AI助手完成文件处理、日程管理、信息检索、代码生成、跨平台协同等各类任务,真正实现24小时待命、高效落地工作。
670 3
|
17天前
|
人工智能 测试技术 Apache
Gemma 4 开源发布: Google 迄今最强开放模型,主打推理与 Agent 能力
Google正式开源Gemma 4系列(Apache 2.0许可),含E2B/E4B(端侧多模态)、26B MoE与31B Dense四款模型。参数效率卓越:31B位列开放模型榜第3,26B第6;边缘模型支持128K上下文、原生音视频处理,单卡/手机均可高效运行。
891 12
Gemma 4 开源发布: Google 迄今最强开放模型,主打推理与 Agent 能力
|
17天前
|
人工智能 Linux API
OpenClaw部署图文指南|阿里云无影云电脑+本地MacOS/Linux/Windows11+千问/Coding Plan API配置教程
本文完整覆盖2026年阿里云轻量服务器部署及本地MacOS/Linux/Windows11部署OpenClaw(Clawdbot)步骤流程及阿里云千问大模型API配置或市场上免费大模型Coding Plan API配置及常见问题解答,从阿里云无影云电脑一键部署,到本地三大操作系统全流程搭建,再到阿里云千问与免费Coding Plan大模型API对接,全程提供可直接复制的代码命令、可视化操作指引与高频问题解决方案,确保零基础用户一次部署成功、稳定运行。
215 5
|
17天前
|
安全 API 开发者
多平台号码标记来电显示查询API接口介绍
本服务提供多平台号码标记查询API,支持腾讯手机管家、百度手机卫士、电话邦、360手机卫士、泰迪熊等多家平台。可快速识别陌生号码是否为骚扰、营销或商业推广电话,助力来电显示标记、智能拦截、通信风控与运营归因,提升通话效率与安全体验。
183 3
|
7天前
|
人工智能 Java API
别再自己写 AI Agent 了!Dify vs FastGPT vs RAGFlow 对比
本文对比Dify、FastGPT、RAGFlow三大开源AI Agent平台,从Java开发者视角解析其定位、RAG/Agent能力、部署难度、Spring集成度及二次开发成本。Dify成熟稳健,适合企业级应用;FastGPT轻量易用,适合快速原型;RAGFlow文档处理最强,专精复杂PDF/合同场景。助你高效选型,避免重复造轮子。
287 3
|
19天前
|
应用服务中间件
手慢无!阿里云轻量服务器2026最新秒杀价:2核4G配置199元/年,200M带宽不限流
阿里云2026轻量服务器秒杀开启!轻量应用服务器官方页面:https://t.aliyun.com/U/PEdlFP 新用户专享:2核2G低至38元/年(9.9元/月限时抢),2核4G仅199元/年,4核8G/16G分别1159元、1599元/年。全系配200M峰值带宽+不限流量,性价比远超友商。手慢无!
|
15天前
|
人工智能 Linux iOS开发
openclaw安装教程从0到1部署,三大系统全覆盖操作流程3.0版本
覆盖 Windows、macOS、Linux 三大系统,国内海外网络环境全适配,每一步都踩过坑、反复验证过,照着做绝对能跑通!手把手带你搞定网关搭建、安全配置,再无缝对接主流大模型,一站式解决私有化部署所有难题。
|
29天前
|
人工智能 自然语言处理 算法
Geo专家于磊揭秘:AI时代Geo优化成败的关键因素与“双核四驱”方法论
在AI搜索时代,SEO正升级为生成式引擎优化(GEO)。Geo专家于磊首创“两大核心(人性化Geo+内容交叉验证)+四轮驱动(E-E-A-T、结构化内容、智能关键词、精准引用)”体系,助力金融、医药等多行业企业提升AI摘要引用率与获客效能。(239字)
111 11