时序分析五边形战士!清华提出TimesNet:预测、填补、分类、检测全面领先|ICLR 2023(2)

简介: 时序分析五边形战士!清华提出TimesNet:预测、填补、分类、检测全面领先|ICLR 2023

3 TimesNet


基于上述思路,我们提出了TimesNet模型,通过模块化结构将复杂时序变化分解至不同周期,并通过将原始一维时间序列转化至二维空间实现了周期内与周期间变化的统一建模


在这一节中,我们将先介绍将时序数据扩展至二维空间的方法,再介绍模型的整体架构。

 

3.1 时序变化:1D->2D

 


时序折叠的流程如上图所示,主要分为以下两步:

 

(1)周期提取

对于一个时间长度为、通道维度为的一维时间序列,可以由时间维度的快速傅立叶变换(FFT)直接提取周期信息,即:


 

其中,代表了中每个频率分量的强度,强度最大的个频率对应着最显著的个周期长度

 

(2)序列折叠1D->2D

对于选定的个周期,分别对原始的一维时间序列进行折叠,该过程可以形式化为:


 

其中,为在序列末尾补0,使得序列长度可以被整除。


通过上述操作,我们得到了一组二维张量,其中对应周期为的二维时序变化。


3.2 模型设计


TimesNet的整体架构如图所示:

 

 

整体上,TimesNet由堆叠的TimesBlock组成。输入序列首先经过嵌入层得到深度特征。对于第层TimesBlock,其输入为,输出为:



具体地,如下图所示,每个TimesBlock包含以下子过程:


 

(1)折叠时间序列(1D->2D):TimesBlock首先对输入的一维时序特征提取周期,再将之转换成为二维时序变化,即在上一节中涉及的内容:

(2)提取二维时序变化表征(2D Representation):如前分析,转换得到的二维时序变化具有2D局部性,因此可以直接使用2D卷积提取特征。此处,我们选用了经典的Inception模型,即:


值得注意的是,因为我们已经将1D时序特征转换至2D空间,所以我们还可以利用计算机视觉领域的许多前沿模型,例如ResNeXt、ConvNeXt以及基于Attention的Swin Transformer等等。这使得时间序列分析可以与视觉骨干网络协同并进。

(3)展开时间序列(2D->1D):为了后续多周期融合,我们将二维时序变化表征展开至一维度空间:

 

 

Trunc(⋅)表示将步骤(1)中Padding(⋅)操作补充的0去除。


(4)自适应融合(1D Aggregation)为融合多周期信息,我们将提取到的二维时序表征进行加权求和,选用的求和权重即为步骤(1)中得到的对应频率强度:



通过将1D时间序列转化至2D空间的设计,TimesNet实现了「多个周期分别提取二维时序变化,再进行自适应融合」的时序变化建模过程。


4 实验


我们在长时预测、短时预测、缺失值填补、异常检测、分类五大任务上进行了实验,涵盖36个数据集、81种不同的实验设置。

 

 

同时,对比了19种不同的深度方法,包含最新的基于RNN、CNN、MLP、Transformer的模型,例如N-BEATS(2019),Autoformer(2021),LSSL(2022),N-Hits(2022),FEDformer(2022),Dlinear(2023)等。


4.1 总体结果


如开篇雷达图所示,TimesNet在五项任务上均达到了SOTA。


(1)长时预测:在此备受关注的任务上,TimesNet超过了先进的基于Transformer与MLP的模型。

 

 

(2)短时预测:此实验中使用的M4数据集包含6个不同采样频率的子数据集,总共超过10万条数据。TimesNet在此复杂数据分布情况下依然取得了最优的效果,验证了模型的时序变化建模能力。

 

 

(3)分类任务:在此任务上,TimesNet超过了经典的Rocket算法以及前沿深度学习模型Flowformer。


 

更多任务的对比请见论文。


4.2 视觉骨干网络的泛化性


我们将TimesNet中的Inception网络替换为不同的视觉骨干网络,例如ResNet,ConvNext,Swin Transformer等。

如下图所示,更先进的视觉骨干网络可以带来更优秀的效果。这也意味着在TimesNet的框架下,时间序列分析可以直接受益于视觉骨干网络领域的进展。

 

 

4.3 表征分析


为了进一步探索TimesNet的效果来源,我们展示了「模型底层-顶层表征之间的CKA相似度」与「模型效果”之间的关系。其中,CKA相似度越低,代表模型底层-顶层之间的表征差异越大,即更加层次化的表征。


 

从上述可视化,我们可以观察到:


  • 在预测与异常检测任务中,效果越好的模型往往底层-顶层的表征相似度越高,表明任务需要更加底层的表征(low-level representations);


  • 在分类与缺失值填补任务中,效果越好的模型往往底层-顶层的表征相似度越低,表明该任务需要层次化表征(hierarchical representation),即更好的全局特征提取能力。


得益于2D空间中的卷积操作,TimesNet可以根据不同任务学习合适的表征,例如预测与异常检测任务中,学习到低层次表征;而分类与缺失值填补任务中,学习到层次化的抽象特征。这也进一步证明了TimesNet作为基础模型的任务泛化性。


同时,上述表征分析也为针对专一任务的深度模型提供了设计思路,例如对于预测任务要关注底层细粒度特征的提取,对于填补任务则需要进一步兼顾全局表征的学习。


5 总结


受时间序列本质的多周期属性启发,本文提出了一个任务通用的时序分析基础模型——TimesNet。该模型创新性地将一维时间序列折叠至二维空间,并利用2D卷积取时序特征。这一创新使得时序分析任务可以直接受益于蓬勃发展的视觉骨干网络,对于后续研究具有良好的启发性。


同时,TimesNet在长时、短时预测、缺失值填补、异常检测、分类五大主流时序分析任务上实现了全面领先,具有优秀的应用价值。


参考资料:https://openreview.net/pdf?id=ju_Uqw384Oq

相关文章
|
机器学习/深度学习 人工智能 达摩院
[ICML'22] 阿里巴巴达摩院FEDformer,长程时序预测全面超越SOTA
本文介绍阿里巴巴达摩院决策智能实验室时间序列预测方向的最新(ICML 2022 accepted)工作:FEDformer: Frequency Enhanced Decomposed Transformer for Long-term Series Forecasting论文链接:https://arxiv.org/abs/2201.12740代码链接:https://github.com/DA
3369 0
[ICML'22] 阿里巴巴达摩院FEDformer,长程时序预测全面超越SOTA
|
机器学习/深度学习 运维 计算机视觉
TimesNet:时间序列预测的最新模型
2023年4月发表了一个新的模型,它在时间序列分析的多个任务中实现了最先进的结果,如预测、imputation、分类和异常检测:TimesNet。
1371 0
|
8月前
|
机器学习/深度学习 传感器 自然语言处理
基于Transformer架构的时间序列数据去噪技术研究
本文介绍了一种基于Transformer架构的时间序列去噪模型。通过生成合成数据训练,模型在不同噪声条件下展现出强去噪能力。文章详细解析了Transformer的输入嵌入、位置编码、自注意力机制及前馈网络等关键组件,并分析实验结果与注意力权重分布。研究为特定任务的模型优化和专业去噪模型开发奠定了基础。
562 14
基于Transformer架构的时间序列数据去噪技术研究
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
《Attention LSTM:解锁关键信息捕捉的强大引擎》
Attention LSTM将注意力机制融入长短期记忆网络(LSTM),显著提升对关键信息的捕捉能力。通过计算注意力分数、生成权重、加权求和及最终预测,模型能动态调整关注度,突出重要信息,广泛应用于自然语言处理、语音识别等领域,为复杂序列数据处理提供有力支持。
377 13
|
机器学习/深度学习 自然语言处理 C++
TSMamba:基于Mamba架构的高效时间序列预测基础模型
TSMamba通过其创新的架构设计和训练策略,成功解决了传统时间序列预测模型面临的多个关键问题。
961 4
TSMamba:基于Mamba架构的高效时间序列预测基础模型
|
人工智能 算法 自动驾驶
新视角设计下一代时序基础模型,Salesforce推出Moirai-MoE
**Moirai-MoE:时间序列预测的新突破** Salesforce Research团队提出了Moirai-MoE模型,通过稀疏混合专家(MoE)技术,解决了传统时间序列预测方法中存在的频率不可靠和非平稳性问题。该模型在39个数据集上的实验结果表明,其性能优于现有基础模型,具有更高的创新性和泛化能力。论文地址:https://arxiv.org/abs/2410.10469
418 4
|
机器学习/深度学习 数据采集 数据挖掘
11种经典时间序列预测方法:理论、Python实现与应用
本文将总结11种经典的时间序列预测方法,并提供它们在Python中的实现示例。
2956 2
11种经典时间序列预测方法:理论、Python实现与应用
|
机器学习/深度学习 调度 计算机视觉
深度学习中的学习率调度:循环学习率、SGDR、1cycle 等方法介绍及实践策略研究
本文探讨了多种学习率调度策略在神经网络训练中的应用,强调了选择合适学习率的重要性。文章介绍了阶梯式衰减、余弦退火、循环学习率等策略,并分析了它们在不同实验设置下的表现。研究表明,循环学习率和SGDR等策略在提高模型性能和加快训练速度方面表现出色,而REX调度则在不同预算条件下表现稳定。这些策略为深度学习实践者提供了实用的指导。
616 2
深度学习中的学习率调度:循环学习率、SGDR、1cycle 等方法介绍及实践策略研究
|
机器学习/深度学习 测试技术
全球首次!时序大模型突破十亿参数,华人团队发布Time-MoE,预训练数据达3000亿个时间点
时序数据在动态系统和应用中至关重要,但其复杂性使得分析极具挑战。Time-MoE是一种基于稀疏混合专家设计的可扩展架构,旨在预训练更大、更强大的时序预测模型,同时降低推理成本。它在新数据集Time-300B上训练,包含超过3000亿个时间点,跨9个领域,显著提升了预测精度,成为解决时序预测问题的先进方案。
717 9
|
机器学习/深度学习 Web App开发 人工智能
轻量级网络论文精度笔(一):《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》
《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》这篇论文提出了一种基于YOLOv3-Tiny的轻量级目标检测模型Micro-YOLO,通过渐进式通道剪枝和轻量级卷积层,显著减少了参数数量和计算成本,同时保持了较高的检测性能。
476 2
轻量级网络论文精度笔(一):《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》