ICCV 2021 |首届 SoMoF 人体序列预测比赛冠军方案分享

简介: ICCV 2021 |首届 SoMoF 人体序列预测比赛冠军方案分享

111.gif

近日阿里巴巴淘系技术多媒体算法团队的同学,以大幅领先第二名的成绩获得了在 ICCV2021 上举办的第一届室外场景下的人体轨迹预测比赛( SoMoF


Challenge )的冠军,同时比赛论文被该 Workshop 接收。


作为计算机视觉领域的三大顶级会议之一, ICCV 是每年学界的重要事件。ICCV 全称为 International Conference on Computer Vision ,中文为国际计算机视觉大会。这个会议是由 IEEE 主办的全球最高级别学术会议,每两年在世界范围内召开一次,在业内具有极高的评价。而由斯坦福大学主办的第一届 SoMoF Challenge 以人体轨迹预测这一既有广阔应用前景又极具挑战的任务为主题,吸引了来自众多高校和工业界的参赛者。


本次Challenge中我们通过改进图卷积网络,应用轨迹信息作为输入,通过设计新颖的训练和数据处理策略,获得了2D数据集PoseTrack和3D数据集3DPW两个子任务上的冠军,并且在两个数据集上分别领先第二名5%和13%。


比赛地址:https://somof.stanford.edu/workshops/iccv21

论文地址:https://openaccess.thecvf.com/content/ICCV2021W/SoMoF/papers/Wang_Simple_Baseline_for_Single_Human_Motion_Forecasting_ICCVW_2021_paper.pdf


背景


随着计算机视觉研究的不断深入,许多识别类任务,如动作认别,姿态识别取得了重大的进展。为了进一步拓宽计算机视觉的应用场景,越来越多的研究者将注意力从“识别”类任务转移到“预测”类任务上。人体动作序列预测就是其中一个颇受关注的方向。

概括来说,动作序列预测要做的是,根据给定图像序列中的人体关节点的2D或3D坐标,预测接下来若干帧图像序列中的关节点的位置。值得一提的是,接下来若干帧的图像信息是不可见的。1.gif动作序列预测是一个很有应用前景,也极具挑战的研究方向。它的应用场景广泛,包括自动驾驶,人机交互,安防,AI健身教练等。举个例子,如果一辆行进中的自动驾驶汽车,通过观察斑马线上路人过马路时的画面,能够预测接下来他们的行动轨迹,那就能及时停车或者前进,减小交通事故发生的概率

2.jpg

同时这还是一个很有挑战的方向。由于室外场景的复杂性,人们自身行动的随意性,周围人和物的多变性,以及预测类任务本身自带的不确定性,都会增加未来时刻动作序列预测的难度。


本次比赛中,我们通过采用在解决手淘场景下的人体/人手姿态估计时提炼出的技术积累,结合动作序列任务本身的特性,设计了新的网络结构,采用了新颖的训练和数据处理策略,在此次比赛中获得了第一名的结果,具体方法将在下文介绍。



网络结构


我们的网络输入只有关节点的坐标序列。对于实验所用到的两个数据集来说,PoseTrack上,使用的是14个关节点的2D图像坐标,在3DPW数据集上,使用的是24个关节点的3D世界坐标。



实验中我们尝试增加了图像信息,效果都有所下降,原因可能是关节点本身已经是图像信息对关节点预测最有效最精简的信息,额外的图像信息分散了网络的关注点,反倒不利于网络的学习。


网络结构我们采用的是GCN结构。在输入的关节点序列进网络前,先经过一个DCT变换,将时域信息转换到频域。在GCN的最后,经过iDCT变换,将频域信息转换回到时域中,即为预测的结果。


GCN相比RNN/LSTM的优势是,所有帧的预测结果可以一次预测出来,不需要一帧一帧的连续多帧预测。

3.jpg


相关文章
|
2月前
|
存储 人工智能 前端开发
从零到一构建PACS:如何设计一套能处理海量影像的企业级后端系统
开发医院PACS系统是跨医学影像标准(DICOM/HL7/IHE)、分布式架构、高性能前后端、海量存储与AI集成的复杂工程,需兼顾合规性、稳定性与临床体验。
296 1
|
2月前
|
人工智能 弹性计算 机器人
零技术也能玩转龙虾AI!OpenClaw(Clawdbot)保姆级部署流程(阿里云/本地+集成QQ机器人+免费API配置)
2026年,OpenClaw(原Clawdbot)凭借开源免费、功能灵活、可扩展性强的优势,成为AI自动化领域的“国民级工具”。它打破了传统AI“只说不做”的局限,既能接管电脑完成文件整理、报表生成等重复任务,更能集成QQ实现智能交互——自动回复消息、管理群聊、定时提醒,甚至通过QQ远程操控设备,成为个人和小团队的“全能助手”。
746 1
|
2月前
|
监控 安全 数据处理
基于控制障碍函数(CBF)的多无人机编队避障路径规划研究附MATLAB代码
✅作者简介:热爱科研的Matlab仿真开发者,擅长毕业设计辅导、数学建模、数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。 🍎 往期回顾关注个人主页:Matlab科研工作室 👇 关注我领取海量matlab电子书和数学建模资料 🍊个人信条:格物致知,完整Matlab代码获取及仿真咨询内容私信。 🔥 内容介绍 一、多无人机编队应用需求与挑战 广泛的应用场景:多无人机编队在诸多领域展现出巨大潜力。在军事领域,可执行侦察、监视、攻击等任务,通过编队协同提高作战效能;在民用方面,诸如测绘、物流配送、大型活动安保等场景中,多无人机编队能够凭借集体优势,高效完成任务。例如,
|
机器学习/深度学习 自然语言处理 算法
大模型微调PPO原理——零基础吃透RLHF核心算法
本文通俗解析PPO算法——RLHF微调的核心技术:以“人类反馈→奖励模型→策略优化”三步闭环,辅以“近端约束”保障稳定,让大模型不仅答得对,更答得让人满意。零基础也能轻松理解+上手实操。
|
6月前
|
API
拼多多商品列表API使用指南
拼多多商品列表API是拼多多开放平台的核心接口,支持关键词搜索、类目筛选、价格与销量排序,并提供分页查询功能,便于高效获取海量商品基本信息,适用于电商数据分析与商品聚合等场景。
|
7月前
|
缓存 JSON 自然语言处理
跨国采购 item_search 接口对接全攻略:从入门到精通
本文详解跨境电商多平台商品搜索接口(item_search)的标准化对接方案,覆盖Amazon、eBay、Lazada、速卖通等平台。从业务场景出发,剖析选品、比价、供应商筛选等核心需求,提出“统一接口+差异化适配”框架,实现关键词搜索、多条件筛选与数据标准化。通过抽象基类封装认证、参数映射、响应解析等共性流程,结合多语言处理、汇率转换与重试机制,构建高效稳定的全球采购搜索系统,助力企业提升决策效率与市场竞争力。(238字)
|
10月前
|
消息中间件 人工智能 机器人
vx自动回复机器人,ai自动回复机器人,微信自动回复脚本插件
这个微信自动回复机器人包含主程序、配置管理、工具函数和单元测试模块。主程序使用itchat库实现微信登录和消息处理
|
11月前
|
人工智能 自然语言处理 机器人
盘点集成DeepSeek大模型的智能语音机器人,看看哪款更适合你
对话式AI将降低高达25%的客服座席离职率,集成DeepSeek等大模型的智能语音机器人正成企业标配。其核心是实现7x24小时高效服务、优化成本并提供人性化交互。选型需聚焦AI模型能力、业务场景匹配度与数据安全。合力亿捷、阿里云等是市场主流选择,选对智能语音机器人是企业提升沟通效率、构筑核心竞争力的战略投资。
423 0
|
存储 缓存 Java
程序员必懂!上下文切换到底是怎么回事?
大家好,我是小米,一个喜欢分享技术的程序员。今天聊聊社招面试中的高频考点——上下文切换。它指CPU在多个任务间切换时保存和恢复状态的过程,常见于进程、线程切换及中断处理。上下文切换有CPU时间开销、缓存失效、内存开销等代价。优化方法包括减少线程数量、选择合适的并发模型、优化锁使用等。理解这些不仅能提升面试表现,还能写出更高效的代码。欢迎关注我的微信公众号“软件求生”,获取更多技术干货!
576 6

热门文章

最新文章