逐际动力开源 FluxVLA Engine:专为具身智能打造的标准化VLA工程底座

简介: 逐际动力开源FluxVLA Engine——面向具身智能的标准化VLA工程底座。它以统一配置、标准接口、模块解耦、加速部署为核心,解决数据碎片化、代码高耦合、仿真-真机迁移难三大瓶颈,支持VLM/VLA全栈任务,开箱即用部署于UR、ALOHA、TRON2等多平台。

VLA(视觉语言动作模型)已成为具身智能开发的主流范式。对于探索前沿技术的科研人员,以及推进落地的应用开发者而言,可灵活调用的模块化结构与标准化的工程底座,是 VLA 从实验室走向真实物理世界的关键基础。

为此,逐际动力LimX Dynamics 开发并正式开源FluxVLA Engine,一个面向具身智能科研创新、应用开发与落地的标准化VLA工程底座FluxVLA Engine统一配置、标准接口、模块解耦、加速部署为核心设计理念,将数据处理、模型训练、仿真评测到真机部署的每个环节标准化,大幅降低了 VLA 全研发周期的工程门槛。

👉 GitHub 仓库地址:

https://github.com/FluxVLA/FluxVLA

👉 文档与快速上手教程:

https://fluxvla.limxdynamics.com/

Model Scope权重:

https://modelscope.cn/models/LimXDynamics/FluxVLAEngine


解决三大工程瓶颈,推动VLA走向真实世界

在具身智能落地的研发链路中,以下三类结构性壁垒在当前的科研和工程实践中普遍存在:

数据格式碎片化:训练、仿真与部署阶段通常依赖不同的数据格式与处理逻辑。不同方法之间缺乏统一数据规范,导致数据格式需要反复转换与适配,工程成本远高于算法本身。

代码架构高耦合:数据处理、模型定义与训练评测逻辑往往深度绑定。无论是替换视觉编码器,还是接入新任务或新数据集,均需对现有框架代码进行深入修改,既耗费时间,也容易引入新的错误,造成“换个模型就要重新造轮子”的困境。

仿真到真机的迁移鸿沟:仿真环境中的理想条件无法覆盖真实系统中的延迟、噪声与硬件约束,导致模型在真实机器人上的性能显著下降,难以完成从算法验证到物理执行的闭环。


FluxVLA Engine:具身智能研发的标准化VLA工程底座

FluxVLA Engine 从工程体系层面对上述瓶颈逐一拆解,针对关键环节给出系统化解决方案。核心目标是:

以统一配置与标准化接口,将数据、训练、仿真到真机部署的每个环节规范化,为创新者提供可自由替换和组合的模块,无需每次从头适配。

FluxVLA Engine工程框架图


统一配置 + 标准接口:低门槛、高效率的开发体验

统一配置文件管理全流程(Unified):FluxVLA Engine采用 All-in-one 配置机制,通过单一配置文件,统一管理数据、模型、训练、评测、推理与部署参数。用户无需维护多套脚本与配置,即可切换各类模型。

模块化设计,标准化输入输出(Modular): FluxVLA Engine的核心设计是将海量数据处理、模型调用与部署相关模块解耦,并以标准化接口贯穿全流程。无论更换数据集、替换模型,还是从仿真切换到真机,格式与接口均可保持一致,无需重复适配。用户可以在不修改训练逻辑的情况下,单独替换视觉编码器、语言主干或动作头,也可以接入自定义数据集或新硬件平台,各模块之间互不干扰,便于灵活构建属于自己的VLA模型。

开箱即用的真机部署(Deployable):训练完成后的模型可直接导出,并通过标准化流程部署到真实机器人平台。

📎0bc3hucraaafhmanoio2tzuvkpodca6qkeaa.f10002.mp4

使用示例:半小时即可跑通训练流程


从 VLM 到 VLA,从仿真到真机,全功能覆盖

支持 VLMVLA 全栈任务:原生支持视觉语言模型(VLM)视觉语言动作模型(VLA),兼顾感知理解与动作训练。训练-仿真评测-真机部署均在同一框架完成,无需切换工具。

包括视觉跟踪、感知、精细化操作在内的多种训练模型

接入主流模型与仿真器:模型层统一接口,全面支持各类主流 VLM/VLA/WAM模型(如Qwen、GR00T、Pi全系列以及DreamZero等);仿真层无缝接入 Isaac Sim、LIBERO 等主流仿真器,告别繁琐的环境配置。

FLuxVLA Engine在LIBERO中的性能


兼容多元真机硬件:支持包括 UR 机械单臂、ALOHA 双臂系统,以及逐际动力自研多形态具身机器人TRON 2 等在内的多硬件平台,装上就能用!未来还会支持更多硬件。

FLuxVLA Engine可一键部署在多种真机硬件平台上

面向真实部署的系统优化:不仅能跑,更能稳定运行

推理加速:通过底层推理引擎优化和算子融合,FluxVLA Engine 实现5-10倍推理速度提升,让机器人可以更快地响应环境变化,实现更流畅的实时控制。


轨迹平滑:FluxVLA Engine 集成了实时控制(RTC)等最新的轨迹平滑方法,有效规避模型输出的动作轨迹抖动,确保真机部署后机器人执行动作稳定、流畅。


持续迭代,共建开放生态,加速具身智能走向物理世界

FluxVLA Engine 源自逐际动力在具身智能和通用机器人研发和工程交付中的长期积累,是一套经过反复验证的基建设施。面向具身智能持续演进的技术浪潮,逐际动力不仅开源 FluxVLA Engine,更将以企业级的资源与服务来进行维护与迭代,目标是将其从工程平台发展为一个开放的具身智能技术生态平台。

未来,陆续集成更多先进方法,包括:

强化学习(RL):支持结合强化学习的 VLA 训练范式,让机器人在交互中持续优化自身行为。

世界模型(World Models):更多元的世界模型,让机器人能够对未来状态进行预测与规划,提升复杂任务的泛化能力。

构建开源社群:构建全球开发者社群,共同将最新研究成果(如灵巧手、基于 3D 的 VLA 等)融入 FluxVLA Engine,让平台生长成为不断焕发生命力的生态系统。


点击直达模型链接https://modelscope.cn/models/LimXDynamics/FluxVLAEngine



目录
相关文章
|
25天前
|
人工智能 弹性计算 数据可视化
阿里云OpenClaw部署实操教程:轻量应用服务器+百炼免费大模型
OpenClaw(“小龙虾”)是一款开源AI智能体,不仅能聊天,更能自动处理文件、运行代码、收发邮件等任务。本教程教你用阿里云轻量服务器+百炼免费大模型,零代码10分钟部署专属AI数字员工!
590 25
|
2月前
|
机器学习/深度学习 JSON 文字识别
0.9B 小模型,OCR 大能力——GLM-OCR 模型实战教程
智谱开源多模态OCR模型GLM-OCR,基于GLM-V架构,融合CogViT视觉编码器与GLM-0.5B语言解码器,支持公式、表格、代码等复杂文档识别,性能达OmniDocBench榜首(94.62分),仅0.9B参数,轻量高效,开箱即用。
2032 3
|
11天前
|
存储 人工智能 安全
Hermes Agent爆火,聊聊与OpenClaw 到底区别在哪
本文对比近期爆火的Hermes Agent与OpenClaw两大AI Agent框架,从设计理念、记忆系统、技能生成、安全机制等维度解析差异,分析适用场景与互补用法,帮你快速判断哪款更适合自己的自动化需求。
1500 10
|
2月前
|
人工智能 API 机器人
OpenClaw 用户部署和使用指南汇总
本文档为OpenClaw(原MoltBot)官方使用指南,涵盖一键部署(阿里云轻量服务器年仅68元)、钉钉/飞书/企微等多平台AI员工搭建、典型场景实践及高频问题FAQ。同步更新产品化修复进展,助力用户高效落地7×24小时主动执行AI助手。
27313 211
|
2月前
|
数据采集 人工智能 达摩院
达摩院开源RynnBrain:首个支持移动操作的具身大脑基础模型
达摩院发布首个可移动操作的具身基础模型RynnBrain,首创时空记忆与物理空间推理能力,支持视频/图像/文本多模态输入及区域、轨迹等具身输出。开源MOE架构RynnBrain-30B-A3B(仅3B激活参数),在16项基准全面SOTA,并推出全新评测集RynnBrain-Bench。
533 8
|
3月前
|
机器人 数据挖掘 数据处理
LingBot-VLA 具身大模型全面开源
蚂蚁灵波团队开源具身大模型LingBot-VLA:在GM-100真机评测中跨本体成功率提升至17.3%(+4.3%),RoboTwin 2.0仿真任务成功率超Pi0.5达9.92%;基于20,000小时多构型真机数据预训练,支持高效微调与跨平台迁移,代码、模型、数据、基准全开源。(239字)
565 0
LingBot-VLA 具身大模型全面开源
|
3月前
|
机器人 API 数据安全/隐私保护
只需3步,无影云电脑一键部署Moltbot(Clawdbot)
本指南详解Moltbot(Clawdbot)部署全流程:一、购买无影云电脑Moltbot专属套餐(含2000核时);二、下载客户端并配置百炼API Key、钉钉APP KEY及QQ通道;三、验证钉钉/群聊交互。支持多端,7×24运行可关闭休眠。
6625 58
|
4月前
|
传感器 数据采集 算法
LET数据集来魔搭了!开源首批超60,000分钟全尺寸人形机器人真机数据
国内最大全尺寸人形机器人真机数据集“LET数据集”正式发布,首批开源超6万分钟高质量数据,覆盖6大真实场景,支持多模态融合与标准化应用,助力具身智能研发,已在魔搭社区开放共享。
496 1
LET数据集来魔搭了!开源首批超60,000分钟全尺寸人形机器人真机数据
|
8天前
|
文字识别 API
跳出 SOTA 内卷,我们发了个“好用至上”的文档解析模型
MinerU2.5-Pro发布:不改1.2B模型架构,专注数据工程革新——通过多样性-难度感知采样、跨模型一致性验证、渲染校验迭代标注与三阶段分层训练,显著提升复杂表格、公式及非常规排版解析能力,在OmniDocBench v1.6达95.69分(SOTA),践行“好用至上”理念。
135 7

热门文章

最新文章