Lux 上手指南:让 AI 直接操作你的电脑

简介: Lux 是一款能直接操作计算机的AI基础模型,通过视觉理解与动作预测,实现自然语言指令下的自动化任务。它无需依赖API,可像真人一样点击、输入、滚动,完成浏览器操作等复杂工作,准确率超越主流模型,是迈向“意图即执行”的重要突破。(238字)

Lux 要是一个专门用于计算机操作的基础模型。和那些只会生成文字的 AI 不同,Lux 能看懂屏幕内容并理解自然语言描述的任务目标,然后实时操控计算机完成工作。

比如说你对电脑说"打开浏览器,访问 xxx",然后它就真的执行了:鼠标移动、图标点击、网址输入、页面滚动,整个过程和真人操作没什么区别。

Lux 的技术实现

Lux 不依赖 API 接口所以能在任何应用中工作:浏览器、编辑器、邮件客户端、表格软件都行。它的核心技术是计算机视觉配合动作预测

  • 捕获屏幕截图
  • 解析 UI 组件
  • 预测下一步操作(点击、输入、滚动)
  • 循环执行直到任务结束

在 300 个实际场景的测试中,Lux 的表现超过了 Google Gemini CUA、OpenAI Operator 和 Anthropic Claude。

工作机制

Lux 运行在一个持续的动作-观察循环里:

 目标 → 视觉分析 → 执行动作 → 获取反馈 → 循环

用户用自然语言下达指令,比如:"打开浏览器并打开 xxx",然后Lux 会截取当前屏幕画面并根据截图内容判断下一步该做什么:

  • 点击某个按钮
  • 输入文字
  • 移动光标
  • 滚动页面
  • 触发快捷键

然后执行相应的动作并捕获新的屏幕状态。

这个循环会一直跑下去直到任务完成,可以把它想象成一个坐在你电脑前干活的 AI 助手。

环境配置

在使用 Lux 之前需要完成安装和权限设置。

步骤 1:权限授予

Lux 需要的权限和普通自动化工具一样:屏幕录制权限辅助功能权限

执行命令:

 oagi agent permission

macOS 系统系统会弹出权限请求:

  • 辅助功能
  • 屏幕录制

系统设置 — 隐私与安全 里批准这些权限,完成后重启终端。

步骤 2:API 认证

打开 agiopen生成新的 API 密钥。新注册用户有 $10 免费额度,够跑几十次代理任务了。

配置环境变量

 export OAGI_API_KEY=sk-...  
 export OAGI_BASE_URL=https://api.agiopen.org

步骤 3:桌面环境准备

Lux 直接读取屏幕内容,所以工作区越干净UI 元素识别就越准确。

推荐配置如下

  • 单个大窗口的浏览器
  • 空白起始页
  • 桌面整洁
  • 背景简洁

不推荐的配置

  • 窗口又小又乱
  • 多个程序互相遮挡
  • 复杂的桌面壁纸

环境混乱的话Lux 可能会重试操作或者点错位置。

步骤 4:第一次运行

 oagi agent run "Go to https://agiopen.org" --model "lux-actor-1"

你会看到鼠标自己动、键盘自己敲字,整个过程完全自动化。

实际案例

假设要让 Lux 完成这样一个任务:

启动浏览器,搜索 "OpenAGI Lux model documentation" 浏览搜索结果

命令是:

 oagi agent run "Open a browser, search for OpenAGI Lux model documentation, and scroll through the results." --model "lux-actor-1"

Lux 会依次:

  1. 识别浏览器图标
  2. 点击启动
  3. 找到搜索框
  4. 输入关键词
  5. 按回车
  6. 检测页面可滚动区域
  7. 逐步向下翻页

全程靠视觉理解和动作预测完成。

总结

Lux 不只是个模型,它代表了一个方向:让计算机能直接响应人的意图,而不是通过一系列点击来间接表达。

如果你曾经希望电脑能"替你把事情做了"Lux 把这个想法变成了现实。

https://avoid.overfit.cn/post/084c91d2d2df493f8daa93b25268a6c8

作者:Civil Learning

目录
相关文章
|
2月前
|
机器学习/深度学习 传感器 算法
BipedalWalker实战:SAC算法如何让机器人学会稳定行走
本文探讨基于Soft Actor-Critic(SAC)算法的下肢假肢自适应控制。传统方法依赖精确建模,难以应对复杂环境变化。SAC通过最大熵强化学习,使假肢在仿真中自主探索、学习稳定步态,具备抗干扰与容错能力。结合生物工程视角,将神经网络映射为神经系统,奖励函数关联代谢效率,实现从试错到自然行走的演化。相位图分析显示极限环形成,标志动态稳定步态建立,能效曲线表明后期动作更节能。研究为智能假肢迈向临床应用提供新思路。
253 117
BipedalWalker实战:SAC算法如何让机器人学会稳定行走
|
28天前
|
人工智能 运维 安全
SOC 2.0 来了:不是加人加班,而是加“智能”!——智能化安全运营中心的建设之道
SOC 2.0 来了:不是加人加班,而是加“智能”!——智能化安全运营中心的建设之道
154 15
|
2月前
|
缓存 并行计算 算法
TensorRT 和 ONNX Runtime 推理优化实战:10 个降低延迟的工程技巧
模型性能优化关键在于细节:固定输入形状、预热、I/O绑定、精度量化、图优化与CUDA Graph等小技巧,无需重构代码即可显著降低延迟。结合ONNX Runtime与TensorRT最佳实践,每个环节节省几毫秒,累积提升用户体验。生产环境实测有效,低延迟从此有据可依。
270 9
|
14天前
|
消息中间件 人工智能 NoSQL
AgentScope x RocketMQ:打造企业级高可靠 A2A 智能体通信基座
Apache RocketMQ 推出轻量级通信模型 LiteTopic,专为 AI 时代多智能体协作设计。它通过百万级队列支持、会话状态持久化与断点续传能力,解决传统架构中通信脆弱、状态易失等问题。结合 A2A 协议与阿里巴巴 AgentScope 框架,实现高可靠、低延迟的 Agent-to-Agent 通信,助力构建稳定、可追溯的智能体应用。现已开源并提供免费试用,加速 AI 应用落地。
245 36
AgentScope x RocketMQ:打造企业级高可靠 A2A 智能体通信基座
|
22天前
|
存储 SQL JSON
打通可观测性的“任督二脉”:实体与关系的终极融合
阿里云推出图查询能力,基于 graph-match、graph-call、Cypher 三重引擎,实现服务依赖、故障影响、权限链路的秒级可视化与自动化分析,让可观测从‘看板时代’迈向‘图谱时代’。
238 39
|
14天前
|
人工智能 安全 数据可视化
面向业务落地的AI产品评测体系设计与平台实现
在AI技术驱动下,淘宝闪购推进AI应用落地,覆盖数字人、数据分析、多模态创作与搜推AI化四大场景。面对研发模式变革与Agent链路复杂性,构建“评什么、怎么评、如何度量”的评测体系,打造端到端质量保障平台,并规划多模态评测、可视化标注与插件市场,支撑业务持续创新。
260 38
|
29天前
|
JSON 数据挖掘 API
小红书笔记详情API接口指南
小红书笔记详情API可获取指定笔记的完整信息,涵盖内容、作者及互动数据,适用于内容分析与数据挖掘。接口采用GET请求,支持Bearer Token认证,返回JSON格式数据。代码具备完善封装、类型注解、异常处理与重试机制,需官方授权后使用,并遵守平台规范。(238字)
|
29天前
|
机器学习/深度学习 人工智能 自然语言处理
Z-Image:冲击体验上限的下一代图像生成模型
通义实验室推出全新文生图模型Z-Image,以6B参数实现“快、稳、轻、准”突破。Turbo版本仅需8步亚秒级生成,支持16GB显存设备,中英双语理解与文字渲染尤为出色,真实感和美学表现媲美国际顶尖模型,被誉为“最值得关注的开源生图模型之一”。
2212 9
|
3天前
|
机器学习/深度学习 人工智能 自然语言处理
少样本链式思维:让AI推理像名侦探一样聪明
你有没有发现,有些AI能像福尔摩斯一样推理解题,而有些却像没头苍蝇乱撞?关键就在于能否让AI学会「思考过程」!通过少样本链式思维技术,让AI从「直接蒙答案」升级为「步步推理」,轻松解决数学、逻辑等复杂问题。想知道如何让你的AI变成推理高手?这里有答案。 #人工智能 #AI推理 #提示工程 #机器学习
|
27天前
|
存储 网络协议 数据挖掘
阿里云服务器通用算力型实例解析:u1/u2i/u2a性能特点与适用场景对比及选择参考
通用算力型实例作为阿里云推出的主打高性价比的云服务器实例,属于企业级实例,采用固定CPU调度模式。是很多用户在中小型Web应用、开发测试环境、轻量级数据分析等场景的首选实例。目前通用算力型实例已推出u1、u2i、u2a三大实例规格,不过有的用户并不是很清楚他们之间的区别,本文将通过深度对比三大实例的技术架构、性能指标、适用场景及收费标准,以供大家选购和参考。