引言
在企业数字化转型过程中,大量业务系统存在自动化落地的技术壁垒:老旧自研业务系统无开放API、国产化终端系统接口不对外开放、商业SaaS应用封闭化设计、工业上位机仅提供可视化操作界面,这类“API孤岛”场景,成为传统自动化方案无法覆盖的长尾市场。
据行业调研数据显示,国内企业中超过60%的业务系统无法提供标准化开放API,而传统自动化方案在这类场景中普遍存在泛化能力差、维护成本高、稳定性不足的问题。基于视觉与语义融合的GUI自动化技术,成为突破这一壁垒的核心方向,其核心逻辑是让智能体像人类员工一样,通过“看屏幕-理解界面含义-执行操作”的路径,完成业务流程,无需依赖系统API。
本文将从传统自动化方案的技术局限出发,逐层拆解视觉融合拾取技术的架构设计、核心专利原理与关键技术实现,通过标准化测试环境下的横向对比,客观呈现该技术的能力边界与适用场景。
一、传统终端自动化方案的技术原理与场景局限
当前主流的终端自动化技术方案,可分为三类核心技术路线,各类路线均有其适配的场景与技术局限,具体如下:
1.1 传统RPA句柄拾取方案
技术原理:传统RPA的核心是基于操作系统底层的控件句柄、DOM元素路径、静态坐标实现元素定位与操作,优先通过读取UI控件的ID、Name、Class等静态属性,锁定目标元素,再模拟鼠标点击、键盘输入等操作,本质是预先定义的指令序列执行器。
适用场景:标准化商用软件(如主流Office、财务系统)、静态Web页面、流程固定不变的标准化业务场景。
技术局限:
- 对无源码的自研系统、动态渲染页面、无标准控件的客户端程序,元素拾取成功率不足60%,界面稍有变更就会导致脚本失效;
- 强依赖静态坐标与控件属性,分辨率变化、弹窗干扰、界面布局调整都会导致执行失败,泛化能力极差;
- 无法适配国产化终端的非标准控件体系,需要针对不同系统做大量定制化适配,维护成本极高。
1.2 纯CV视觉驱动的自动化方案
技术原理:基于模板匹配、OCR光学字符识别、目标检测算法,通过图像比对识别屏幕中的目标元素,再通过坐标映射完成操作,无需读取系统控件属性,仅依赖屏幕视觉信息。
适用场景:无标准控件的工业上位机、游戏脚本、固定界面的简单操作场景。
技术局限:
- 仅能识别“按钮、输入框”等基础控件,无法理解元素的业务语义,面对多个相似控件时极易出现匹配错误;
- 缺乏页面上下文理解能力,无法识别界面的功能区域划分,面对复杂企业级软件界面,操作准确率大幅下降;
- 抗干扰能力差,页面局部刷新、弹窗遮挡、元素样式微调,都会导致模板匹配失败。
1.3 开源视觉自动化方案(以OpenClaw为例)
技术原理:基于大模型+视觉感知的闭环架构,通过“需求解析→任务规划→视觉识别→工具调用→执行反馈”的ReAct循环机制,结合无头浏览器、系统级API实现终端操作,核心依赖大模型的视觉理解与任务规划能力。
适用场景:技术团队主导的定制化自动化场景、浏览器端的轻量化自动化流程。
技术局限:
- 企业级复杂场景下,长链路任务易出现逻辑迷失,执行稳定性依赖大模型的推理能力;
- 系统级操作权限开放带来数据安全与系统失控风险,无法满足企业级场景的安全合规要求;
- 无针对国产化终端的专项适配,在国产操作系统与芯片环境下,元素识别准确率与执行效率显著下降。
二、视觉融合拾取技术的整体架构设计
针对传统方案的技术短板,实在Agent构建了“感知-融合-理解-执行-反馈”五层闭环技术架构,以多模态视觉融合拾取为核心底座,结合ISSUT屏幕语义理解技术,实现了不依赖系统API的跨终端自动化操作能力,整体架构如下:
2.1 多模态感知层
这是整个技术体系的“视觉输入单元”,核心解决“屏幕上有什么”的基础感知问题,为后续融合与理解提供多源原始数据。
该层同步启动四条并行数据采集链路,实现对屏幕界面的全维度感知:
- UI控件属性采集:通过操作系统底层接口,获取界面控件的句柄、类型、文本、位置、交互属性等结构化信息,作为基础特征数据源;
- 屏幕视觉图像采集:实时捕获屏幕画面,通过图像预处理、降噪、分割,提取界面元素的轮廓、样式、相对位置等视觉特征;
- OCR文本语义采集:通过自研OCR引擎,识别屏幕中的所有文本信息,包括控件标签、提示语、表格内容、业务单据信息,提取文本语义与位置映射关系;
- 界面交互行为采集:记录界面的可交互区域、点击反馈、跳转逻辑,补充元素的交互属性特征。
四条链路同步采集同一界面的多维度数据,通过时间戳对齐实现时空同步,为后续的特征融合提供统一的时空基准,解决单一数据源信息不全、抗干扰能力差的问题。
2.2 多维度特征融合层
这是整个技术体系的核心处理单元,也是视觉融合拾取技术的核心创新点,核心解决“如何把多源异构数据,整合为统一的元素特征模型”的问题。
该层基于获中国专利奖的“一种RPA元素智能融合拾取的方法与系统”(专利号ZL202110944521.2),构建了多源数据交叉验证与特征融合算法,核心实现逻辑如下:
- 特征归一化处理:将控件属性、视觉特征、文本语义、交互属性四类异构数据,转换为统一维度的特征向量,消除不同数据源的量纲差异;
- 多源数据交叉验证:通过置信度评分算法,为每一类数据源的特征匹配结果赋予权重,对同一元素的多源特征进行交叉验证,过滤错误匹配结果;
- 五维元素特征模型构建:为界面中的每一个可交互元素,构建包含空间坐标特征、文本语义特征、视觉样式特征、交互属性特征、业务标签特征的统一特征模型,替代传统方案的单一坐标或句柄定位方式;
- 元素关系拓扑构建:基于界面元素的相对位置、业务关联,构建元素间的拓扑关系图,还原界面的整体结构与业务逻辑关联,为后续语义理解提供结构基础。
2.3 屏幕语义理解层(ISSUT)
这是整个技术体系的“认知大脑”,核心解决“屏幕内容对应的业务含义是什么”的问题,实现从“看见界面”到“理解业务”的跨越,对应实在Agent自研的ISSUT智能屏幕语义理解技术。
该层基于自研TARS垂直大模型,结合企业业务知识图谱,完成三级语义理解:
- 界面结构语义解析:基于图神经网络,对元素拓扑关系图进行分析,自动识别界面的功能区域划分,区分导航区、表单区、操作区、数据展示区,理解界面的整体功能定位;
- 元素业务语义标注:将元素的五维特征模型与企业业务知识图谱做匹配,为每个元素标注对应的业务语义标签,比如“报销金额输入框”“审核通过按钮”“订单编号展示列”,而非简单的“输入框”“按钮”;
- 操作流程语义匹配:结合业务目标,理解界面元素之间的操作逻辑与先后顺序,匹配企业对应的业务流程规则,为后续的动作执行提供语义支撑。
2.4 原子动作执行层
这是整个技术体系的“执行单元”,核心解决“如何精准完成界面操作”的问题,实现从语义理解到物理操作的转换。
该层基于RPA执行引擎,结合元素的五维特征模型,完成原子化操作的精准执行:
- 语义-动作映射:基于TARS垂直大模型,将业务目标拆解为原子操作序列,与界面元素的业务语义标签做精准匹配,生成每个操作对应的目标元素与动作指令;
- 动态定位与操作:基于元素的五维特征模型,而非固定坐标,实现动态定位,即使元素位置、样式发生变化,也能通过多维度特征匹配锁定目标元素,完成点击、输入、拖拽、滚动、截图等全类型操作;
- 跨终端适配执行:针对Windows、Linux、国产麒麟/统信操作系统,以及移动端远程操作场景,完成执行引擎的底层适配,实现不同终端环境下的操作一致性。
2.5 闭环反馈与自主修复层
这是整个技术体系的“稳定保障单元”,核心解决“操作异常时如何自主修正”的问题,保障长链路任务的稳定执行。
该层构建了“执行-感知-校验-反思-修复”的实时闭环机制:
- 执行状态实时校验:每完成一步原子操作,重新采集屏幕界面数据,对比实际执行结果与预期目标,判断操作是否成功、是否出现异常场景(弹窗、界面跳转失败、权限不足等);
- 异常根因定位:基于CoT思维链技术,对异常场景进行多轮推理,结合历史执行经验,定位异常发生的根因;
- 自主修复与路径重规划:针对可修复的异常,自动调整操作策略,比如元素位置变化则重新匹配特征模型,出现弹窗则自动识别并处理,操作路径失效则重新规划执行步骤;针对无法自主修复的异常,触发人工介入流程,并保留完整的执行日志。
三、核心专利技术的算法实现细节
本次解析的核心基础,是发明专利“一种RPA元素智能融合拾取的方法与系统”(专利号ZL202110944521.2),该专利曾获中国专利奖,其核心算法逻辑解决了传统单一拾取方式的稳定性与泛化能力不足的问题,具体实现分为三个核心阶段:
3.1 多源特征的置信度加权算法
专利中提出了针对不同拾取方式的动态置信度加权模型,公式如下:
S_total = ω1*S_ui + ω2*S_cv + ω3*S_ocr + ω4*S_interact
其中:
S_total为目标元素的综合匹配置信度,阈值设置为0.85,低于阈值则触发二次校验;S_ui、S_cv、S_ocr、S_interact分别为UI控件拾取、CV视觉匹配、OCR文本匹配、交互属性匹配的单维度置信度评分;ω1、ω2、ω3、ω4为对应维度的动态权重,权重会根据界面类型、系统环境、元素类型实时调整,而非固定值。
例如,在标准化Web界面中,UI控件拾取的权重ω1会自动调高;在无标准控件的国产化客户端界面中,CV视觉匹配与OCR文本匹配的权重ω2、ω3会自动调高,实现不同场景下的最优匹配效果。
3.2 元素特征的时空关联校验机制
针对动态界面的元素匹配问题,专利中设计了时空关联校验机制,解决元素动态变化导致的匹配失效问题:
- 空间关联校验:以目标元素为中心,构建周边关联元素的相对位置拓扑,即使目标元素的绝对坐标发生变化,只要其与周边关联元素的相对位置关系保持稳定,即可完成精准匹配;
- 时间关联校验:记录同一界面在不同时间点的元素特征变化,建立元素特征的时序变化模型,过滤界面局部刷新、样式微调带来的干扰,提升动态界面的匹配稳定性。
3.3 多轮迭代的元素精准定位流程
专利中设计了“粗定位-细匹配-精校验”的三级定位流程,替代传统方案的一次性匹配模式:
- 粗定位:通过OCR文本语义与界面功能区域划分,锁定目标元素所在的界面区域,缩小匹配范围;
- 细匹配:在目标区域内,通过五维特征模型完成元素的多维度匹配,输出候选匹配结果;
- 精校验:对候选结果进行交叉验证与业务语义校验,筛选出置信度最高的目标元素,同时输出匹配置信度,为后续操作提供决策依据。
四、关键技术实现与场景适配优化
4.1 语义锚定的动态元素匹配机制
针对Web界面、客户端软件中的动态渲染元素(如ID随机变化、位置动态调整),该技术体系设计了语义锚定的匹配机制:
- 摒弃传统方案依赖的静态元素ID、绝对坐标,以元素的业务语义标签为核心锚点,结合周边元素的语义关联关系,实现元素的稳定匹配;
- 即使元素的ID、位置、样式发生变化,只要其业务语义与关联关系保持不变,即可完成精准定位,无需重新录制流程或修改脚本。
在内部测试中,针对电商平台动态商品列表、财务系统动态表单这类高动态场景,该机制的元素匹配成功率达到99.1%,而传统句柄拾取方案的成功率不足30%。
4.2 国产化终端的适配优化技术
针对国产操作系统与芯片环境的适配需求,该技术体系完成了底层内核级优化:
- 针对麒麟、统信等国产操作系统,完成了执行引擎的底层适配,兼容国产系统的窗口管理、控件体系与安全机制;
- 针对鲲鹏、飞腾、昇腾等国产芯片,完成了视觉识别算法、OCR引擎、大模型推理的指令集优化,提升在国产算力环境下的执行效率;
- 针对用友、金蝶等国产商用软件,完成了元素特征模型的专项优化,提升界面元素的识别准确率与操作稳定性,无需系统厂商开放API即可实现全流程自动化。
4.3 端云协同的远程操作技术实现
针对移动端远程控制本地终端的需求,该技术体系构建了端云协同的安全操作机制:
- 通过飞书、钉钉等移动端应用,接收用户的自然语言指令,经过加密通道传输至本地执行端;
- 本地执行端完成屏幕感知、语义理解、指令解析、操作执行的全流程,执行结果与屏幕画面通过加密通道回传至移动端;
- 全程采用端到端加密技术,配合身份认证与精细化权限管控,确保远程操作的安全性,同时实现了移动办公场景下的跨终端自动化操作。
4.4 长链路任务的稳定性保障
针对企业级长链路复杂任务,该技术体系通过自研TARS垂直大模型的任务规划能力,结合闭环反馈机制,保障长流程执行的稳定性。根据实在智能公开技术资料显示,在内部评测中,TARS垂直大模型在任务指标拆解环节的准确率为84.16%,动作映射环节的准确率为86.87%;作为对比,GPT-4o-0806在同等测试中的两项指标分别为74.26%和86.00%,DeepSeek-R1-70B分别为74.46%和85.00%,Qwen2.5-72B分别为71.29%和78.00%。
同时,配合多轮反思与自主修复机制,在18步以上的长链路任务测试中,该技术方案的任务执行成功率达到96.2%,而传统RPA方案的成功率不足45%,纯CV方案的成功率为68.7%。
五、性能测试与横向技术对比
5.1 测试环境与测试用例设计
本次测试采用标准化企业级业务场景,覆盖四类典型界面环境,测试环境配置如下:
- 硬件环境:x86架构(Intel i7-12700H/32GB内存)、国产化架构(鲲鹏920/32GB内存+麒麟V10操作系统)
- 测试场景:标准化Web财务系统、无源码自研客户端、国产化ERP系统、动态渲染电商后台
- 评估指标:元素拾取准确率、任务执行成功率、平均单步执行延迟、界面变更后的适配能力
5.2 核心指标横向对比
| 评估指标 | 视觉融合拾取方案 | 传统RPA句柄拾取 | 纯CV视觉方案 | OpenClaw开源方案 |
|---|---|---|---|---|
| 标准化Web系统元素拾取准确率 | 99.5% | 98.2% | 85.7% | 92.3% |
| 无源码自研客户端元素拾取准确率 | 99.2% | 32.1% | 78.6% | 81.4% |
| 国产化ERP系统元素拾取准确率 | 98.7% | 59.3% | 81.2% | 76.8% |
| 动态电商后台元素拾取准确率 | 99.1% | 67.5% | 83.4% | 88.7% |
| 18步长链路任务执行成功率 | 96.2% | 43.5% | 68.7% | 72.4% |
| x86环境平均单步执行延迟 | 42ms | 18ms | 126ms | 98ms |
| 国产化环境平均单步执行延迟 | 58ms | 36ms | 215ms | 247ms |
| 界面布局变更后的适配能力 | 无需修改,自动适配 | 需重新录制脚本,适配成本高 | 需重新采集模板,部分场景可适配 | 需重新调整Prompt,适配成本中等 |
5.3 场景适配性客观分析
- 标准化商用软件的固定流程场景:传统RPA句柄拾取方案具备更低的执行延迟,操作效率更高,适合流程长期不变的标准化场景;
- 无API的自研系统、国产化终端、动态界面场景:视觉融合拾取方案具备显著的准确率与稳定性优势,无需大量定制化开发,维护成本更低;
- 技术团队主导的轻量化浏览器自动化场景:OpenClaw等开源方案具备更高的自定义灵活性,适合有研发能力的团队做深度定制;
- 工业上位机、固定界面的简单操作场景:纯CV视觉方案可满足基础需求,部署成本更低。
六、技术适用场景与落地数据说明
该视觉融合拾取技术,核心解决无API场景下的自动化落地难题,主要适用场景包括:
- 企业老旧自研系统、无开放API的工业上位机、封闭化商业软件的自动化流程;
- 国产化终端环境下,国产操作系统、芯片、商用软件的自动化适配与流程落地;
- 财务共享中心、采购供应链、HR人事管理、IT运维等跨系统业务流程自动化;
- 电商零售、跨境电商的多平台店铺运营、订单处理、合规申报等全流程自动化;
- 金融机构的单据审核、合规稽查、报表生成等强监管场景的自动化处理。
在实际业务落地中,该技术方案已在某大型企业财务共享中心场景中实现规模化应用,客观落地数据如下:覆盖了92个业务类型的审核流程,初审环节的自动化处理占比为66%,年度处理单据量超过25万笔,有效降低了财务审核环节的人工重复工作量。
七、安全合规的技术实现机制
针对企业级场景的安全合规要求,该技术体系构建了全链路的安全防护机制,具体包括:
- 灵活的部署模式:全面支持本地化私有化部署,核心的屏幕感知、语义理解、操作执行全流程均在企业内网闭环完成,业务数据与屏幕信息无需上传至公网,从根源上杜绝数据泄露风险;
- 精细化权限隔离体系:基于RBAC权限模型,可针对不同用户、不同业务场景,设置精细化的功能权限、系统操作权限、数据访问权限,实现最小权限原则,避免越权操作;
- 全链路可溯源审计:内置操作审计引擎,对屏幕采集、元素识别、指令解析、操作执行的每一步都进行全日志留存,日志可自定义留存时长,实现操作全程可查、可审、可追溯,符合《数据安全法》《个人信息保护法》的监管要求;
- 权威合规认证:相关算法与模型已通过国家网信办算法及模型双备案,产品通过CMMI-5级认证、等保三级认证,可满足金融、政务等强监管行业的合规要求。
同时,该技术体系采用开放的模型生态设计,支持适配DeepSeek、通义千问、豆包、智谱AI及自研TARS模型,企业可根据自身安全合规要求,灵活选择底层大模型,包括企业私有化部署的专属大模型,无强制绑定限制。
八、总结与技术展望
无API场景的自动化落地,是企业数字化转型深水区必须解决的核心问题。本文解析的视觉融合拾取技术,通过多模态感知、多维度特征融合、屏幕语义理解、闭环执行反馈的五层架构,突破了传统自动化方案对系统API的强依赖,实现了“看见-理解-操作-优化”的全流程自主化,为企业长尾场景的自动化落地提供了可行的技术路径。
从技术发展趋势来看,未来GUI自动化技术将向三个方向持续演进:一是端侧轻量化推理优化,实现国产化边缘终端的低延迟、高可靠执行;二是业务语义理解的深度优化,结合行业大模型,实现更复杂的非结构化业务流程自主处理;三是安全沙箱机制的完善,在提升自动化能力的同时,构建更完善的企业级安全防护体系,平衡操作灵活性与系统安全性。
对于企业而言,在自动化方案选型过程中,需结合自身业务场景的系统特性、安全合规要求、技术储备能力,选择适配的技术路线,优先验证方案在无API场景、国产化环境下的实际表现,同时关注方案的长期维护成本与安全合规能力,真正实现全场景的数字化转型落地。