训练速度远超3D CNN,提速3倍!Facebook首发「时空版」Transformer

简介: Facebook AI推出了全新的视频理解架构TimeSformer,这也是第一个完全基于Transformer的视频架构。视频剪辑上限可达几分钟,远远超过当下最好的3D CNN,且成本更低。

微信图片_20220112234752.jpg

 新智元报道  

来源:Facebook AI编辑:LQ

【新智元导读】Facebook AI推出了全新的视频理解架构TimeSformer,这也是第一个完全基于Transformer的视频架构。视频剪辑上限可达几分钟,远远超过当下最好的3D CNN,且成本更低。

TimeSformer即Time-Space Transformer,这是第一个完全基于Transformer的视频架构,近年来已经成为许多自然语言处理(NLP)应用程序的主要方法,包括机器翻译和通用语言理解。 


微信图片_20220112234755.png 

论文链接:https://arxiv.org/pdf/2102.05095.pdf

 

TimeSformer 在几个难度系数比较高的动作识别基准上获得了最好的效果,包括 Kinetics-400动作识别数据集。此外,与现代3D 卷积神经网络(CNN)相比,TimeSformer 的训练速度提高了大约3倍,推理所需计算量不到原来的十分之一。这是支持需要实时或按需处理视频的应用程序的重要一步。

 

此外,TimeSformer具有可伸缩性,可以用来训练更长的视频剪辑中的更大模型。这使得人工智能系统可以理解视频中更复杂的人类行为,例如涉及多个原子步骤的活动(修理汽车,准备食物等)。许多需要理解复杂人类行为的人工智能应用程序都能从中获益。


微信图片_20220112234757.png


TimeSformer 与先进的3D 卷积神经网络在 Kinetics-400(左)和 Kinetics-600(右)动作识别基准上的视频分类精度。TimeSformer在两个数据集上都实现了最高的准确度。


分时空注意力


传统的视频分类模型利用3D 卷积滤波器。虽然这些滤波器在捕捉局部时空区域内的短期模式方面有效,但是它们不能对超出其接受域的时空依赖关系进行建模。

 

然而,TimeSformer完全建立在Transformer使用的自注意机制之上,这使得捕获整个视频的时空依赖性成为可能。


为了将Transformer应用于视频,TimeSformer将输入视频解释为从单个帧中提取的图像块的时空序列。这种格式类似于NLP中使用的格式,即Transformer将句子视为从单个单词计算出来的特征向量序列。


正如NLP Transformer通过将每个单词与句子中的所有其他单词进行比较来推断其含义一样,这一模型通过将每个patch与视频中的其他patch进行明确的比较来捕捉每个patch的语义。这使得捕获相邻patch之间的短期依赖以及远距离patch之间的长期相关成为可能。

 

传统的3D卷积神经网络由于需要在视频的所有时空位置上使用大量的滤波器,所以计算成本也很高。


TimeSformer 通过1)将视频分解成一小组不重叠的patch,2)应用一种自注意的形式,避免对所有patch进行详尽的比较,从而保持了较低的计算成本。我们称这种方案为「分时空注意力」。这个想法是依次应用时间注意力和空间注意力。

 

当应用时间注意力时,每个patch(例如,下图中蓝色正方形)仅与其他帧中同一空间位置的补丁(绿色的正方形)进行比较。如果视频包含 t 帧,则只对每个patch进行 t次时间的比较。

 

当应用空间注意力时,每个patch仅与同一框架内的patch(红色补丁)进行比较。因此,如果 n 是每一帧中的patch数,分时空注意力在每个patch中只能执行(t + n)次比较,而联合时空注意力穷举法则需要(t * n)次比较。此外,该研究发现分时空注意不仅比联合时空注意更有效率,而且更准确。


微信图片_20220112234800.png


TimeSformer 具有可伸缩性,可以在非常长的剪辑上运行(例如,跨越102秒时间范围的96帧序列) ,以便执行超长时间范围的建模。这与目前的3D CNN有很大不同,后者仅限于处理最多几秒的片段,而且是识别长时间活动的关键要求。


例如,看一段演示如何制作法式吐司的视频。人工智能模型一次分析几秒钟可能会识别一些原子动作(例如,打鸡蛋或者把牛奶倒进碗里)。但是对每个个体行为进行分类并不足以对复杂的活动进行分类(许多食谱都涉及到打蛋)。TimeSformer 可以在更长的时间范围内分析视频,揭示原子动作之间的清晰的依赖关系(例如,将牛奶和打碎的鸡蛋混合)。

 


微信图片_20220112234802.png


TimeSformer 的效率使得它能够训练高空间分辨率的模型(例如,帧高达560x560像素)和超长视频(高达96帧)。这些图表显示视频分类成本(TFLOPs)作为空间分辨率(左)和视频长度(右)的函数。通过这些图,我们可以观察到,分散的时空注意力比耗尽的时空联合注意力节省了大量的计算能力,特别是当应用于大帧或长视频时。在实际应用中,当空间帧分辨率达到448像素或帧数增加到32帧时,联合时空注意会导致 GPU 内存溢出,有效地使其不适用于大帧或长视频


微信图片_20220112234805.png


该图提供了 TimeSformer 学习的自注意力热度图的可视化。第一行显示原始帧,第二行根据自注意力对视频分类的重要性(被认为不重要的像素变暗)对每个像素的颜色进行加权。如图所示,TimeSformer 学习关注视频中的相关区域,以执行复杂的时空推理。 


TimeSformer视频剪辑上限可达几分钟


 

为了训练视频理解模型,现在最好的3D CNN只能使用几秒钟长的视频片段。有了TimeSformer,我们可以训练更长的视频剪辑,最长可达几分钟。这可能极大地促进机器理解视频中复杂的长动作的研究,这对于许多理解研究人类行为的人工智能应用程序来说是重要的一步。

 

此外,TimeSformer的低推理成本是支持未来实时视频处理应用的一个重要步骤,如 AR/VR,或基于可穿戴摄像机拍摄的视频智能助手。TimeSformer降低了成本,这将使更多的研究人员能够解决视频分析问题,从而加快这一领域的进展。

参考资料:

https://ai.facebook.com/blog/timesformer-a-new-architecture-for-video-understanding/

相关文章
|
6月前
|
机器学习/深度学习 自然语言处理 异构计算
Python深度学习面试:CNN、RNN与Transformer详解
【4月更文挑战第16天】本文介绍了深度学习面试中关于CNN、RNN和Transformer的常见问题和易错点,并提供了Python代码示例。理解这三种模型的基本组成、工作原理及其在图像识别、文本处理等任务中的应用是评估技术实力的关键。注意点包括:模型结构的混淆、过拟合的防治、输入序列长度处理、并行化训练以及模型解释性。掌握这些知识和技巧,将有助于在面试中展现优秀的深度学习能力。
214 11
|
6月前
|
机器学习/深度学习 编解码
LeViT-UNet:transformer 编码器和CNN解码器的有效整合
LeViT-UNet:transformer 编码器和CNN解码器的有效整合
163 0
|
6月前
|
机器学习/深度学习 算法 TensorFlow
文本分类识别Python+卷积神经网络算法+TensorFlow模型训练+Django可视化界面
文本分类识别Python+卷积神经网络算法+TensorFlow模型训练+Django可视化界面
119 0
文本分类识别Python+卷积神经网络算法+TensorFlow模型训练+Django可视化界面
|
2月前
|
机器学习/深度学习 数据采集 数据可视化
深度学习实践:构建并训练卷积神经网络(CNN)对CIFAR-10数据集进行分类
本文详细介绍如何使用PyTorch构建并训练卷积神经网络(CNN)对CIFAR-10数据集进行图像分类。从数据预处理、模型定义到训练过程及结果可视化,文章全面展示了深度学习项目的全流程。通过实际操作,读者可以深入了解CNN在图像分类任务中的应用,并掌握PyTorch的基本使用方法。希望本文为您的深度学习项目提供有价值的参考与启示。
|
3月前
|
机器学习/深度学习
CNN网络编译和训练
【8月更文挑战第10天】CNN网络编译和训练。
89 20
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
算法金 | 秒懂 AI - 深度学习五大模型:RNN、CNN、Transformer、BERT、GPT 简介
**RNN**,1986年提出,用于序列数据,如语言模型和语音识别,但原始模型有梯度消失问题。**LSTM**和**GRU**通过门控解决了此问题。 **CNN**,1989年引入,擅长图像处理,卷积层和池化层提取特征,经典应用包括图像分类和物体检测,如LeNet-5。 **Transformer**,2017年由Google推出,自注意力机制实现并行计算,优化了NLP效率,如机器翻译。 **BERT**,2018年Google的双向预训练模型,通过掩码语言模型改进上下文理解,适用于问答和文本分类。
154 9
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
一文介绍CNN/RNN/GAN/Transformer等架构 !!
一文介绍CNN/RNN/GAN/Transformer等架构 !!
210 5
|
6月前
|
机器学习/深度学习 数据可视化 数据挖掘
R语言深度学习卷积神经网络 (CNN)对 CIFAR 图像进行分类:训练与结果评估可视化
R语言深度学习卷积神经网络 (CNN)对 CIFAR 图像进行分类:训练与结果评估可视化
|
6月前
|
机器学习/深度学习 自然语言处理 并行计算
神经网络结构——CNN、RNN、LSTM、Transformer !!
神经网络结构——CNN、RNN、LSTM、Transformer !!
304 0
|
6月前
|
机器学习/深度学习 并行计算 算法
模型压缩部署神技 | CNN与Transformer通用,让ConvNeXt精度几乎无损,速度提升40%
模型压缩部署神技 | CNN与Transformer通用,让ConvNeXt精度几乎无损,速度提升40%
143 0