CVPR阿里优秀论文 | 基于时间尺度选择的在线行为预测

简介: 在线行为预测指的是当一个动作还未执行完之前,算法使用已经观测到的这些片段来预测该动作的类别。

在线行为预测指的是当一个动作还未执行完之前,算法使用已经观测到的这些片段来预测该动作的类别。这个问题有几个关键点:首先,它是“在线”的,这表示算法得足够快,以实现在线应用;其次,算法需要在动作发生的早期(比如只完成了10%)便进行类别预测;此外,算法处理的是未分割的视频,这意味着视频可能包含多个动作实例,比如下图的视频序列就包含了多个动作。

1.JPG

针对在线行为识别这一问题,我们可以使用在时间维度上滑动窗口的设计。传统滑动窗口方法往往采用一个固定的窗口尺度,或者采用多个尺度多次往返扫描。而在线行为预测这一问题中,如果使用多次扫描的话,会影响算法的运行效率;但是如果只用单一固定尺度的话,选择一个合适的时间窗口尺度却很不容易。

这是因为在行为预测任务中,当前正在发生的动作的已观测部分的长度在不同的时间点是在变化的。在动作发生的早期,我们需要使用比较小的时间窗口尺度,因为太大的窗口会包含很多来自于之前动作的帧,这些噪声信息会干扰对当前动作类别的识别。而在动作发生的后期,我们可以使用大的窗口尺度来尽可能覆盖该动作已执行的片段,以达到更好的预测准确率。这意味着在不同阶段使用一个固定的窗口尺度是不合适的。

在这篇论文中,作者提出了一个“尺度选择网”(scale selection network)来在不同时刻点动态的选择当前最合适的窗口尺度。该网络的基本结构如下图所示。

2.jpg

尺度选择网在时间维度上采用一维的卷积来建模不同帧之间的运动动态信息。为了得到一系列不同的时间尺度,该网络采用了扩张卷积(dilated convolution)的设计。通过设计一个层状的(hierarchical)扩张卷积网络的架构,在网络中,不同卷积层的节点拥有不同的感知窗口范围。比如,第1个卷积层的感知范围是2,第2层是4,第3层则是8,等等。

在如上的网络架构中,我们得到了一系列的感知尺度范围。针对在线行为识别不同时间点尺度变化的问题,我们需要在每个时间点来动态选择当前合适的时间窗口尺度。这篇文章设计了一个尺度回归子网络来预测每个时间点需要的尺度大小,该子网络如下图所以。

3.jpg

尺度回归子网络通过聚合网络中所有卷积层的信息,并将聚合的信息输入一个全连接网络中,来估计当前动作的当前帧到该动作起始帧之间的距离(s)。得到的s则可用于代表当前动作已经执行的部分,因此它可以用于作为预测当前动作类别合适的时间窗口尺度。

得到合适的窗口尺度(s)后,我们可以找到该尺度对应的卷积层。前面我们提到,在尺度选择网中,不同的层对应不同的感知尺度,因此我们找到最匹配的这一层,然后我们就可以使用这层的信息来预测动作类别(c)。这篇论文设计了一个类别预测子网络,在这个子网络中,合适的卷积层的信息被输入全连接网络用于行为预测。如下图所示,假定第3卷积层最匹配窗口尺度s,那么则聚合第1到第3层的信息。注意论文不仅仅使用了第3层信息,还融合了其下面的层,这是因为这种skip connection设计可以让网络收敛得更快,同时多尺度的信息融合,也能提高行为预测的准确率。

4.jpg

因为在视频序列的每个时间点上,网络都回归并采用最合适的时间窗口尺度,因此该方法可以得到可靠的预测准确率。值得一提的是,虽然尺度选择网有多个子网络,比如时间序列建模的一维卷积子网络,尺度回归子网络,以及行为预测子网络,但是所有这些子网络均集成在同一个网络架构中,因此整个网络可以端到端进行训练。

作者使用了两个公开数据集来测试尺度选择网的效果,在两个数据集上都取得了很好的实验结果。实验结果如下图所示,其中SSNet是本文所提出的尺度选择网;而SSNet-GT则表示使用Ground Truth尺度来进行行为预测;FS-Net(S)则表示在所有时间点均采用同一个固定的尺度(S)用于行为预测。ST-LSTM则是本文作者之前发表在T-PAMI上的“Skeleton-Based Action Recognition Using Spatio-Temporal LSTM Networkwith Trust Gates”。Attention Net是作者发表在CVPR17的“Global Context-Aware Attention LSTM Networks for 3D ActionRecognition”。JCR-RNN是MSRA和PKU发表在ECCV16上的“Online Human Action Detection using Joint Classification-RegressionRecurrent Neural Networks”。可以看到,本文提出的SSNet的实验结果优于其他方法,并且准确率也接近使用Ground Truth尺度的结果。
5.jpg

相关文章
|
开发工具 git 开发者
|
关系型数据库 MySQL Go
MySQL数据库安装(超详细完整步骤)
MySQL数据库安装(超详细完整步骤)
2040 1
|
8月前
|
网络虚拟化
管理型交换机通过VLAN划分实现不同IP跨网段通信配置方法
管理型交换机应用场景丰富,如果要实现不同IP跨网段通信(比如172.22.106.X和192.168.100.X实现通信),通过VLAN划分是可以满足,下面分享基于弱三层交换机RTL9301方案核心模块SW-24G4F-301EM配置方法!
1285 2
|
机器学习/深度学习 人工智能 测试技术
仅7B的模型数学推理能力完虐70B?MIT哈佛推出行动思维链COAT让LLM实现自我反思并探索新策略
Satori 是由 MIT 和哈佛大学等机构联合推出的 7B 参数大型语言模型,专注于提升推理能力,具备强大的自回归搜索和自我纠错功能。
553 6
仅7B的模型数学推理能力完虐70B?MIT哈佛推出行动思维链COAT让LLM实现自我反思并探索新策略
|
关系型数据库 MySQL Linux
MySQL数据库下载安装教程(Windows&Linux)
本文档详细介绍了MySQL的安装步骤,包括安装前的准备工作、下载安装包、Windows和Linux系统下的具体安装流程,以及如何配置MySQL服务、设置环境变量、启动服务和连接数据库等关键操作。
|
JavaScript API 开发者
掌握ArkTS,打造HarmonyOS应用新视界:从“Hello World”到状态管理,揭秘鸿蒙UI开发的高效秘诀
【10月更文挑战第19天】ArkTS(ArkUI TypeScript)是华为鸿蒙系统中用于开发用户界面的声明式编程语言,结合了TypeScript和HarmonyOS的UI框架。本文介绍ArkTS的基本语法,包括组件结构、模板和脚本部分,并通过“Hello World”和计数器示例展示其使用方法。
764 1
|
Windows
Windows——如何在文件资源管理器地址栏快速打开Vscode
Windows——如何在文件资源管理器地址栏快速打开Vscode
534 4
|
机器学习/深度学习 并行计算 测试技术
BiTCN:基于卷积网络的多元时间序列预测
该文探讨了时间序列预测中模型架构的选择,指出尽管MLP和Transformer模型常见,但CNN在预测领域的应用较少。BiTCN是一种利用两个时间卷积网络来编码历史和未来协变量的模型,提出于《Parameter-efficient deep probabilistic forecasting》(2023年3月)。它包含多个由扩张卷积、GELU激活函数、dropout和全连接层组成的临时块,有效地处理序列数据。实验表明,BiTCN在具有外生特征的预测任务中表现优于N-HiTS和PatchTST。BiTCN的效率和性能展示了CNN在时间序列预测中的潜力。
991 1