【CVPR 2018】用狗的数据训练AI,华盛顿大学研发模拟狗行为的AI系统

简介: 一般的机器学习系统都是以人的视角建立,但华盛顿大学和艾伦人工智能研究所的研究人员试图用狗的行为数据训练AI系统。研究人员通过传感器等设备采集了一只爱斯基摩犬的运动数据,并以此来训练AI系统实现三个目标:1、像狗一样行动,预测未来动作;2、像狗一样计划任务;3、从狗行为中学习。

我们已经训练机器学习系统来识别物体,进行导航,或识别面部表情,但尽管可能很难,机器学习甚至没有达到可以模拟的复杂程度,例如,模拟一只狗。那么,这个项目的目的就是做到这一点——当然是用一种非常有限的方式。通过观察一只非常乖巧的狗的行为,这个AI学会了如何像狗一样行动的基础知识。

这是华盛顿大学和艾伦人工智能研究所合作的研究,论文发表在今年6月举办的CVPR。

b86bfd564cff3dd332c2ba0f259a3dc7f3ca0897

摘要

我们研究了如何直接建模一个视觉智能体(visually intelligent agent)。计算机视觉通常专注于解决与视觉智能相关的各种子任务。但我们偏离了这种标准的计算机视觉方法;相反,我们试图直接建模一个视觉智能的agent。我们的模型将视觉信息作为输入,并直接预测agent的行为。为此,我们引入了DECADE数据集,这是一个从狗的视角搜集的狗的行为数据集。利用这些数据,我们可以模拟狗的行为和动作规划方式。在多种度量方法下,对于给定的视觉输入,我们成功地对agent进行了建模。此外,与图像分类任务训练的表示相比,我们的模型学习到的表示能编码不同的信息,也可以推广到其他领域。特别是,通过将这种狗的建模任务作为表示学习,我们在可行走表面预测(walkable surface estimation)和场景分类任务中得到了非常好的结果。

理解视觉数据:模仿狗,学习狗

为什么做这个研究?虽然已经有很多工作在研究模拟感知的子任务,例如识别一个物体并将其捡拾起来,但是“理解视觉数据,达到可以让agent在视觉世界中采取行动并执行任务的程度”,这样的研究很少。换句话说,不是模拟眼睛的行为,而是模拟控制眼睛的主体。

那么为什么选择狗?因为狗是非常复杂的智能体,研究者说:“它们的目标和动机往往是没法预知的。”换句话说,狗狗很聪明,但我们不知道它们在想什么。

作为对这一研究领域的初步尝试,该团队希望通过密切监视狗狗的行为,并将狗狗的运动和行动与所它看到的环境相对应,来观察是否能够建立一个能够准确预测这些行动的系统。

89efae008e71852537fe13b03c0e7fccec10a346

将一套传感器装在一直爱斯基摩犬身上,收集数据

为了达到这一目的,研究者把一套基础传感器装在一只名叫Kelp M. Redmon的爱斯基摩犬身上。他们在Kelp的头部装上一个GoPro相机6个惯性测量单元(分别在腿、尾巴和身体上)用以判断物体的位置,一个麦克风以及一个把这些数据绑在一起的Arduino开发板

他们花了许多小时记录狗狗的活动——在不同的环境中行走,取东西,在狗公园玩耍,吃东西——并把狗的动作与它看到的环境同步。结果是形成了一个在狗的环境中以狗自身为视角的行为数据集(Dataset of Ego-Centric Actions in a Dog Environment),简称为DECADE数据集。研究者用这个数据集来训练一个新的AI智能体。

对这个agent,给定某种感官输入——例如一个房间或街道的景象,或一个飞过的球——以预测狗在这种情况下会做什么。当然,不用说特别细节,哪怕只是弄清楚它的身体如何移动,移向哪里,已经是一项相当重要的任务。

华盛顿大学的Hessam Bagherinezhad是研究人员之一,他解释道:“它学会了如何移动关节以走路,学会了再走路或跑步是如何避开障碍物。”“它学会了追着松鼠跑,跟随者主人走,追逐飞起来的狗玩具(玩飞盘游戏时)。这些都是计算机视觉和机器人技术的一些基本AI任务(例如运动规划、可步行的表面、物体检测、物体跟踪、人物识别),我们一直试图通过为每个任务收集单独的数据来解决。

87949d526e0c326fe99603bab2837e0f7be3f916

研究提出三个问题:(1) 模仿狗的行为:根据狗之前的行为图像,预测狗接下来的行为;(2) 像狗一样规划行动;(3)从狗的行为学习:例如,预测一个可供行走的区域。

这些任务可以产生一些相当复杂的数据:例如,狗模型必须知道,就像真的狗狗一样,当它需要从一个地点移动到另一地点的时候,它可以在哪些地方行走。它不能在树上或汽车上行走,也不能在沙发上行走(取决于房子)。因此,这个模型也学会了这一点,它可以作为一个计算机视觉模型单独部署,用以找出一个宠物(或一个有足机器人)在一张给定图像中可以到达的位置。

c90e13dd779ca027e14d1e3ed44fc167a18a1577


研究人员说,这只是一个初步的实验,虽然取得了成功,但结果有限。后续研究可能会考虑引入更多的感官(例如嗅觉),或者看看一只狗(或许多狗)的模型可以如何推广到其他狗身上。他们的结论是:“我们希望这项工作为我们更好地理解视觉智能和其他生活在我们世界里的智能生物铺平道路。”


原文发布时间为:2018-04-13

本文作者:肖琴

本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”。

原文链接:【CVPR 2018】用狗的数据训练AI,华盛顿大学研发模拟狗行为的AI系统

相关文章
|
4月前
|
人工智能 监控 安全
提效40%?揭秘AI驱动的支付方式“一键接入”系统
本项目构建AI驱动的研发提效系统,通过Qwen Coder与MCP工具链协同,实现跨境支付渠道接入的自动化闭环。采用多智能体协作模式,结合结构化Prompt、任务拆解、流程管控与安全约束,显著提升研发效率与交付质量,探索大模型在复杂业务场景下的高采纳率编码实践。
599 26
提效40%?揭秘AI驱动的支付方式“一键接入”系统
|
4月前
|
人工智能 自然语言处理 前端开发
最佳实践2:用通义灵码以自然语言交互实现 AI 高考志愿填报系统
本项目旨在通过自然语言交互,结合通义千问AI模型,构建一个智能高考志愿填报系统。利用Vue3与Python,实现信息采集、AI推荐、专业详情展示及数据存储功能,支持响应式设计与Supabase数据库集成,助力考生精准择校选专业。(239字)
491 12
|
4月前
|
人工智能 运维 Java
Spring AI Alibaba Admin 开源!以数据为中心的 Agent 开发平台
Spring AI Alibaba Admin 正式发布!一站式实现 Prompt 管理、动态热更新、评测集构建、自动化评估与全链路可观测,助力企业高效构建可信赖的 AI Agent 应用。开源共建,现已上线!
5779 79
|
4月前
|
存储 人工智能 搜索推荐
LangGraph 记忆系统实战:反馈循环 + 动态 Prompt 让 AI 持续学习
本文介绍基于LangGraph构建的双层记忆系统,通过短期与长期记忆协同,实现AI代理的持续学习。短期记忆管理会话内上下文,长期记忆跨会话存储用户偏好与决策,结合人机协作反馈循环,动态更新提示词,使代理具备个性化响应与行为进化能力。
830 10
LangGraph 记忆系统实战:反馈循环 + 动态 Prompt 让 AI 持续学习
|
4月前
|
机器学习/深度学习 人工智能 监控
面向智慧牧场的牛行为识别数据集(5000张图片已划分、已标注) | AI训练适用于目标检测任务
本数据集包含5000张已标注牛行为图片,涵盖卧、站立、行走三类,适用于YOLO等目标检测模型训练。数据划分清晰,标注规范,场景多样,助力智慧牧场、健康监测与AI科研。
面向智慧牧场的牛行为识别数据集(5000张图片已划分、已标注) | AI训练适用于目标检测任务
|
4月前
|
机器学习/深度学习 人工智能 JSON
PHP从0到1实现 AI 智能体系统并且训练知识库资料
本文详解如何用PHP从0到1构建AI智能体,涵盖提示词设计、记忆管理、知识库集成与反馈优化四大核心训练维度,结合实战案例与系统架构,助你打造懂业务、会进化的专属AI助手。
500 6
|
4月前
|
人工智能 JSON 安全
Claude Code插件系统:重塑AI辅助编程的工作流
Anthropic为Claude Code推出插件系统与市场,支持斜杠命令、子代理、MCP服务器等功能模块,实现工作流自动化与团队协作标准化。开发者可封装常用工具或知识为插件,一键共享复用,构建个性化AI编程环境,推动AI助手从工具迈向生态化平台。
855 1
|
4月前
|
存储 人工智能 自然语言处理
拔俗AI产投公司档案管理系统:让数据资产 “活” 起来的智能助手
AI产投档案管理系统通过NLP、知识图谱与加密技术,实现档案智能分类、秒级检索与数据关联分析,破解传统人工管理效率低、数据孤岛难题,助力投资决策提效与数据资产化,推动AI产投数字化转型。
241 0
|
4月前
|
人工智能 算法 数据安全/隐私保护
拔俗AI多模态心理风险预警系统:用科技守护心理健康的第一道防线
AI多模态心理风险预警系统通过语音、文本、表情与行为数据,智能识别抑郁、焦虑等心理风险,实现早期干预。融合多源信息,提升准确率,广泛应用于校园、企业,助力心理健康服务从“被动响应”转向“主动预防”,为心灵筑起智能防线。(238字)
527 0